Нет связи
АрхивКолонка ЗолотоваНадежность современных коммуникационных систем просто поразительна: ошибка оператора или излишне любопытный грызун легко могут оставить без связи сотни тысяч человек!
В общей сложности около ста тысяч человек оказались отключенными от разнообразных коммуникационных сервисов более чем на четыре часа в минувший понедельник в Новой Зеландии. Паралич национальных масштабов, охвативший десятки интернет-провайдеров, крупнейших операторов сотовой связи и обычные телефонные компании, всю финансовую сферу и через неё торговые предприятия, так вот паралич этот, хоть и затронул только северную часть государства, расположившегося на двух островах, оказался масштабов столь значительных, что часть суток вынужденно простаивала даже местная фондовая биржа. Взбешённая общественность рвала и метала, требуя провести расследование и наказать виновных, но когда результаты проведённых в экстренном режиме изысканий были опубликованы (а случилось это уже через сутки), выяснилось, что наказывать по большому счёту некого. Все действующие лица разыгравшейся драмы делали то, что и положено им было делать, все меры предосторожности были соблюдены, и злого умысла не наблюдалось.
Центральной фигурой новозеландской трагедии стала компания Telecom Corp., которой принадлежат два мощных оптоволоконных кабеля, связывающих южную и северную часть страны. Два - это на всякий пожарный, запасной вариант на случай повреждения одной информационной магистрали. Что и произошло в тот памятный день: второе действующее лицо, работник некой, неназванной местной электрической компании, проводя ремонтные работы, нечаянно повредил один кабель. И всё бы ничего, но почти одновременно вышел из строя и кабель-запаска, расположенный - тоже мера предосторожности! - в другой части страны. Позже следователи найдут на нём следы... крысиных зубов. Безвестный грызун, ставший третьим участником, ухитрился проникнуть внутрь защитной металлической оплётки и попробовать оптоволокно на вкус. Стоило ли угощение проделанной работы, и кто добрался до жилы первым, ремонтник или его хвостатый коллега - история умалчивает, а вот финал известен: системы резервирования Telecom Corp. не выдержали двойного удара и приказали долго жить.
Против крыс, которых на одну маленькую Новую Зеландию приходится аж три вида, директора Telecom Corp. бессильны, но найти крайнего в такой ситуации - дело чести, поэтому вину переложили на несчастного электрика и его работодателя, с которых теперь и требуют возмещения ущерба. Впрочем, оставим поиск виноватых тем, кому он нужен, а сами попробуем ответить на вопрос: можно ли было избежать аварии? Позиция официальных лиц Telecom известна и понятна: все необходимые меры предосторожности были приняты и то, что случилось, стало результатом нелепой, невообразимо редкой случайности. Той же точки зрения придерживаются и чиновники из правительства - что подтвердил в своей речи новозеландский министр связи, озвучив и конкретную цифру: один шанс на миллион. Но совершенно неудивительно, что среди обывателей царят настроения диаметрально противоположные. Если нелепая случайность всё же способна парализовать национальные коммуникации, не следует ли усилить их защиту?
В мире информационных технологий существует такой термин - избыточность. Возможно, более известный кому-то в своём английском варианте redundancy, он имеет множество толкований в разных областях ИТ, есть среди них своё и для надёжности систем. Правильно распределив избыточные ресурсы можно добавить ещё одну девятку после запятой к характеристике надёжности, обеспечив дополнительные гарантии того, что функциональность системы не пострадает даже в случае непредвиденных происшествий. Всего одна резервная копия, да ещё и хранимая рядом с оригиналом - и вот уже администраторы банка бегут в охваченное пламенем помещение, чтобы спасти бесценные данные, а с ними и свою карьеру. Реальная история, конец 90-ых, Париж. Но многократно продублированные обязанности по выполнению общей задачи, равномерно разложенные на каждый из шестидесяти с лишним тысяч серверов, разнесённых по нескольким, территориально разделённым центрам - и выход из строя даже нескольких десятков машин одновременно никак не скажется на работоспособности системы в целом. Тоже пример из жизни, так устроена Google. Избыточность обходится недёшево, зато спасает от головной боли и больших проблем.
Увы, в подавляющем большинстве случаев, касающихся массового рынка ИТ, владельцы и производители проявляют непростительную скупость, когда речь заходит о защите от случайностей. В той же Новой Зеландии необходимость в хотя бы ещё одной информационной магистрали очевидна - для потребителей, но, по всей видимости, для владельца экономическая целесообразность прокладки вызывает сомнения. И так по всему миру - одна и та же история повторяется вновь и вновь. Свежий пример? Два дня назад уже в Норвегии и уже двести тысяч человек остались без мобильной связи на несколько часов, когда остановились компьютеры второго по величине национального оператора, NetCom. Внешняя причина - ошибка одного человека. Причина истинная - отсутствие всё той же должной степени защиты от случайностей. Сколько ещё предстоит повторить урок, чтобы, наконец, запомнить?