Провал в памяти
Провал в памяти
Сегодняшний «Яндекс» — это глобальная централизованная сеть. Это тысячи километров выделенных каналов, соединяющих воедино десятки тысяч серверов, которые обрабатывают за доли секунды ежедневно около 150 млн запросов, формулируемых около 100 млн пользователей со всего мира. Это несколько миллиардов проиндексированных сайтов. Это продажа услуг и рекламы в России, Украине, Беларуси, Казахстане и Турции. Это около 1500 рекламных агентств, входящих в рекламную сеть «Яндекса». Это более 350 000 рекламодателей. Наконец, это круглосуточная работа. А сбоев и аварий в системе — по пальцам одной руки.
14 ноября 2004 г. в результате аварии в системе энергоснабжения ресурс http://yandex.ru был недоступен более двух часов. Отключение серверов произошло за считаные минуты до начала второго тура «Кубка “Яндекса”» по поиску в Интернете. Это был первый крупный сбой в работе компании.
В пятницу, 19 августа 2011 г., в пять часов вечера по московскому времени «Яндекс» исчез из мировой Сети. Тотально. Не стало ни поиска, ни сервисов. Будто и не было. Недоступными стали и веб-версия, и мобильные приложения. Примерно через два с половиной часа «Яндекс» подал признаки жизни. Восстановить все сервисы яндексоидам удалось лишь к десяти вечера по московскому времени, то есть через пять часов после аварии.
По версии «Яндекса», отключение произошло вследствие ошибки программного обеспечения на маршрутизаторе, расположенном в новом европейском дата-центре «Яндекса» в Амстердаме. Заместитель руководителя департамента эксплуатации Владимир Иванов (возможно, этот тот самый Владимир Иванов, у которого акций компании было больше, чем у Ильи Сегаловича, основателя «Яндекса») поздно вечером 19 августа в своем блоге объяснился с пользователями. По его версии, авария произошла из-за «проблем с маршрутизацией в сети “Яндекса”», то есть сбой был не связан «с работой дата-центров, DDoS-атаками, пожарами, а также любыми другими внешними факторами». Никакие пользовательские данные не потеряны. А «проблема была вызвана ошибкой программного обеспечения на маршрутизаторе, расположенном в нашем новом дата-центре в Амстердаме. В “Яндексе” используются протоколы маршрутизации — внутренний протокол OSPF и внешний протокол BGP. Из-за ошибки информация обо всех внешних маршрутах оказалась во внутренних таблицах маршрутизации. Это примерно на три порядка больше маршрутов, чем обычно. Протокол OSPF не рассчитан на такое количество. В результате у всех маршрутизаторов кончилась память, и они перестали работать. Нарушилась работа сети, и через несколько минут “Яндекс” стал полностью недоступен». По словам Иванова, внутренняя сеть поисковика тоже не работала, поэтому специалистам потребовалось много времени, «чтобы по цепочке добраться до источника проблемы». Когда администраторы исправили ошибку на маршрутизаторе, специалистам пришлось «разделить сеть на несколько частей», чтобы снять лишнюю нагрузку с остальных маршрутизаторов, которых в «Яндексе» больше сотни. Когда количество трафика снизилось, маршрутизаторы смогли самостоятельно восстановить связность сети, и через некоторое время сервисы «Яндекса» стали доступны большей части пользователей.
По наблюдениям Игоря Ашманова (из компании «Ашманов и партнеры»), это был как минимум третий крупный сбой в истории «Яндекса».
Примерно через год, 8 октября 2012 г., около 14:40 у части пользователей оказалась недоступной главная страница «Яндекса» — http://yandex.ru. У другой части пользователей с главной страницы невозможно было перейти к сервисам «Яндекса», включая поиск. По данным Lenta.Ru и сервиса HostTracker, в результате масштабного сбоя «Яндекс» был недоступен для 41 из 42 серверов, находящихся в разных городах мира. Около 15:15 работоспособность главной страницы «Яндекса» была восстановлена.
Представители компании сообщили, что к этому времени последствия сбоя были полностью устранены, и принесли извинения пользователям за доставленные неудобства. О причинах и масштабах сбоя комментариев не последовало.
Вообще-то сбоев немного, к тому же в масштабах гигантской системы. Удивительно.
Это свидетельствует не только об исключительности технологий, надежности инфраструктуры, исполнительной дисциплине и оптимальной структуре, но и об эффективности управления системой во главе с генеральным директором Аркадием Воложем. Такой вот банально-глобальный вывод из локального, казалось бы, события.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
7.5.2. Выравнивание памяти
7.5.2. Выравнивание памяти Хотя инструмент Electric Fence очень помог в обнаружении второй проблемы в коде, а именно — вызова strcpy(), переполнившего буфер, первое переполнение буфера найдено не было.Проблему в этом случае нужно решать с помощью выравнивания памяти. Большинство
13.2. Отображение в памяти
13.2. Отображение в памяти Операционная система Linux позволяет процессу отображать файлы в их адресное пространство. Такое отображение создает взаимно однозначное соответствие между данными в файле и в отображаемой области памяти. Отображение в памяти обладает рядом
Сегменты памяти
Сегменты памяти Каждый объект состоит из одного или нескольких не перекрывающихся сегментов. При создании сегмента должны быть заданы несколько характеристик. Одна из них — начальный размер. На основании начального размера компонент управления дисками выделяет
1.5.3 Распределение памяти
1.5.3 Распределение памяти Ядро постоянно располагается в оперативной памяти, наряду с выполняющимся в данный момент процессом (или частью его, по меньшей мере). В процессе компиляции программа-компилятор генерирует последовательность адресов, являющихся адресами
7.4.3. Использование памяти
7.4.3. Использование памяти Файл /proc/meminfo хранит сведения об использовании системной памяти. Указываются данные как о физической памяти, так и об области подкачки. Во второй и третьей строках значения даны в байтах, в остальных строках — в килобайтах. Приведем пример:% cat
Классы памяти
Классы памяти Спецификация класса памяти переменной определяет, какое время жизни она имеет (глобальное или локальное), и влияет на область действия переменной. Объект с глобальным временем жизни существует и имеет значение на протяжении всего времени выполнения
Всё, что нужно знать об iOS 7, новой системе Apple: провал, успех и секрет Олег Парамонов
Всё, что нужно знать об iOS 7, новой системе Apple: провал, успех и секрет Олег Парамонов Опубликовано 11 июня 2013 Презентации Apple, увы, случаются куда чаще, чем её разработчики придумывают нечто заслуживающее внимания. Однако на этот раз сомнений быть не
Nexus One — андроидный провал Фадеев Михаил
Nexus One — андроидный провал Фадеев Михаил Начало 2010 года ознаменовалось знаковым для рынка коммуникаторов событием — сначала был официально представлен, а затем появился в продаже в США коммуникатор Nexus One компании Google. Так сказать, "собственный гуглофон Гугла". Прошло уже
Василий Щепетнёв: Провал Василий Щепетнев
Василий Щепетнёв: Провал Василий Щепетнев Опубликовано 20 декабря 2011 года Создать нового государственного человека мечтает всякая новая власть. Да и старая тоже. Только старая власть мечтает вполголоса, а лучше молча: выйдет – хорошо, не выйдет —
Провал как топливо успеха: почему китайцы поступают правильно, финансируя лженаучный двигатель? Евгений Золотов
Провал как топливо успеха: почему китайцы поступают правильно, финансируя лженаучный двигатель? Евгений Золотов Опубликовано 14 февраля 2013 Что ни говори, а британскому инженеру-изобретателю Роджеру Шаеру повезло больше многих его коллег. Когда в начале нулевых он
Thunderbolt: новая надежда или провал Apple? Михаил Карпов
Thunderbolt: новая надежда или провал Apple? Михаил Карпов Опубликовано 11 января 2013 года Когда-то пластинка считалась по-настоящему передовой разработкой. Её заменила кассета, а потом и компакт-диск. Потом и они исчезли — внешние носители данных (неважно,