2013/01/09 12:09:22

Folks, как и обещал, публикую результаты RCA и план последующих за этим шагов.

В последнее время, не только скорость работы ЖЖ, но и его стабильность была подвержена совокупности нескольких факторов, а именно:

  1. сбоям оборудовании (случающимися хоть и крайне редко, но все-таки случающимися);
  2. значительным ростом нагрузки, в данном случае вызванным вредоносным трафиком;
  3. неоптимальностью некоторых SQL запросов, созданными еще во время основания ЖЖ;
  4. и переносом серверов, обслуживающих СУБД, на файловую систему ZFS, произведенную c целью улучшения DR составляющей ЖЖ (Dead Reckoning).

За последние несколько дней, все неоптимальные запросы к СУБД были не только упрощены по сути, но мы так же установили дополнительные системы мониторинга за новой файловой системой, дабы убедиться в ее приемлемой производительности в рамках операций с СУБД. Хотя, изначально, файловая система ZFS показывала отличные результаты на всех синтетических нагрузочных тестах, стечение обстоятельств все-таки привело к ситуации, когда система не справилась с возросшей нагрузкой на СУБД в ее связке с ZFS, что и привело к последующей эскалации отказа работоспособности в целом.

Кроме того, начиная с 31 декабря, мы зафиксировали значительно рост активности спам-ботов, который наш сервис защиты от DDoS изначально воспринял за факт атаки. Ввиду этого, система защиты непреднамеренно заблокировала некоторое количество крупных сетей, что привело к блокировке доступа на несколько суток для многих пользователей ЖЖ по всему миру, включая значительное количество пользователей из России. Данная проблема так же уже разрешена, хотя spam-атака до сих пор продолжается.

Помимо этого, мы, естественно, заменим и обновим все вышеупомянутое отказавшее оборудование.

Все выше перечисленное, в совокупности, привело к тому, что часть пользователей ЖЖ периодически получали либо 503 Varnish Error, либо испытывали крайне медленную скорость загрузки страниц ЖЖ, либо вообще не могли получить доступ к ЖЖ. На данный момент все эти проблемы решены и мы пристально наблюдаем за тем, что бы этого не повторилось. Если ошибки 500 или 503 по прежнему проявляются, пожалуйста, дайте нам знать через форму поддержки или напрямую в комментариях к данной записи, или в моем твиттере.

Как результат проведения RCA, следующие шаги будут сделаны или уже сделаны:

  • Мы откатим файловую систему ZFS до предыдущей, в случае, если нам не удастся стабилизировать ее использование совместно с СУБД в момент пиковых нагрузок;
  • Мы обновим всю систему выдачи ошибок с целью их более детального отображения, включая сообщения о том, что некоторые пользователи не могут получить доступ к ЖЖ ввиду попадания их сетей в список блокируемых;
  • Мы уже обновили систему мониторинга, сделав ее более глобальной, в плане возможности определения потенциальных проблем с доступом не только из США, но Европы и России;
  • Мы уже изменили свои процедуры эскалации проблем с доступом и доступностью, что позволит нам в будущем решать их значительно быстрее, нежели раньше.
  • В связи с частичной недоступностью ЖЖ в течении новогодних каникул, действие всех платных аккаунтов будет продлено на 1 месяц в ближайшее время.

Объявления о всех прочих изменениях, если они потребуются, последуют позже.

Команда ЖЖ приносит свои извинения за все доставленные неудобства. Спасибо за понимание и содействие в столь сложный для нас период. Не переключайтесь.

130 посетителей, 41 комментарий, 0 ссылок, за 24 часа