Архивы: по дате | по разделам | по авторам

Обеспечение устойчивости функционирования корпоративных сетей

Архив

автор : Александр Александров 13.04.1998

Вместо введения

Если какая-нибудь неприятность может произойти, она происходит.

Закон Мэрфи

Усложнение структуры систем управления компаний, высокая насыщенность сложным аппаратным и программным обеспечением, широкое применение информационных технологий во всех сферах финансово-хозяйственной деятельности в настоящее время привели к кажущемуся неразрешимым противоречию: с одной стороны, цена любой ошибки или сбоя в корпоративной сети очень высока и достигает десятков и сотен тысяч долларов, с другой стороны, работают общие законы надежности сложных систем, которые гласят: чем больше элементов системы, тем больше вероятность ее отказа или сбоя. Примеров финансовых потерь и даже краха некоторых корпораций и банков из-за отказов их информационных систем достаточно много. По данным исследований фирмы Infonetics, частота сбоев в ЛВС США равна 23,6 в год, среднее время их устранения - около 5 часов, а потери компании-владельца сети составляют от 1 до 50 тыс. долларов в час. Cпециалисты МСС подсчитали, что одна минута простоя информационно-вычислительного комплекса обходится компании в семь тысяч долларов. Но читая письма российских сисадминов, общаясь с руководителями предприятий, приходится отмечать недостаточно серьезное отношение многих из них к этой проблеме. Более того, если о некоторых методах и средствах контроля и восстановления сетей, продвигаемых на наш рынок, информация есть, то получить ответы на вопросы, каким образом и где их использовать с максимальной эффективностью, весьма затруднительно.

Основные понятия

- Из всех неприятностей произойдет именно та, ущерб от которой больше;

- Если четыре причины возможных неприятностей заранее устранены, то всегда найдется пятая;

- Предоставленные сами себе, события имеют тенденцию развиваться от плохого к худшему.

Некоторые следствия закона Мерфи

Для начала давайте попробуем определиться с терминами.

Под устойчивостью корпоративной информационной системы понимается свойство осуществлять требуемые преобразования информации, сохраняя выходные реакции в пределах допусков, установленных спецификацией, при воздействии таких факторов нестабильности, как ошибки исходных данных программ, некорректные действия персонала и пользователей, невыявленные ошибки ПО и программные вирусы, отказы и сбои оборудования. Для оценки данного свойства используются количественные (в основном вероятностные) и качественные (экспертные) методы. А для обеспечения надежности функционирования сетей и сохранности данных применяются специальные методы и средства, распределяющиеся по трем основным уровням:

на физическом уровне осуществляется повышение надежности элементов сети, резервирование оборудования, резервное копирование и архивирование данных;
на системном уровне используются программно-аппаратные средства контроля и восстановления работоспособности сети;
на административном уровне производится распределение полномочий пользователей и подсистем, разрабатываются и реализуются планы действий в чрезвычайных ситуациях и т. п.

Исходя из принятой терминологии, рассмотрим общую постановку задачи обеспечения устойчивости функционирования корпоративных сетей и способы ее решения.

Сущность проблемы и подходы к ее решению

Компьютеры ненадежны, но люди еще ненадежнее.
Любая система, зависящая от человеческой надежности, ненадежна.
Число ошибок, которые нельзя обнаружить, бесконечно, в противовес числу ошибок, которые можно обнаружить - оно конечно по определению.
В поиски повышения надежности будут вкладываться средства до тех пор, пока они не превысят величину убытков от неизбежных ошибок или пока кто-нибудь не потребует, чтобы была сделана хоть какая-то полезная работа.
Законы ненадежности Джилба

Процесс создания высоконадежной сети является итеративным и состоит в следующем.

Осуществляется системный анализ компании, для которой создается или модернизируется сеть. В ходе этого анализа определяются характеристики факторов, влияющих на устойчивость функционирования системы управления и значения допустимых отклонений основных параметров, при которых обеспечивается требуемый уровень эффективности работы корпоративной сети. Затем создается исходный вариант сети, реализующий заданные функции. Определяются оценки показателей надежности подсетей и сети в целом. Этот показатель (или взвешенное множество характеристик) сравнивается с требуемым, и по результатам сравнения делается вывод о степени устойчивости сети. При недостаточной степени устойчивости производится поиск наиболее критичных компонентов сети, для которых определяется уровень надежности, обеспечивающий заданное значение показателя устойчивости сети в целом. Если требуемого уровня надежности компонента сети достичь невозможно, то производится его синтез с максимально возможным уровнем. Для откорректированной таким образом сети снова производится оценка устойчивости, проверяется ее соответствие требованиям и т. д. Процедура продолжается до тех пор, пока не будет обеспечена требуемая надежность сети или доказано, что при заданном уровне дестабилизирующих факторов такой устойчивости добиться невозможно. В этом случае может ставиться и решаться обратная задача - определения допустимых уровней факторов нестабильности, при которых обеспечивается требуемая устойчивость.

Значение устойчивости корпоративной сети, полученное на этапе разработки, уточняется во время испытаний и опытной эксплуатации. В период эксплуатации системы управления компании непрерывно производится набор статистики возникновения сбоев и отказов, оценка качества работы используемых средств защиты данных, систем мониторинга состояния сети, планирования и реализации процедур восстановления и т. п. На основании полученных результатов производится оптимизация использования методов и средств обеспечения заданной устойчивости корпоративной информационной системы.

Однако классический подход к синтезу корпоративных сетей по критериям надежности и устойчивости их функционирования, в силу ряда причин, почти не применяется. Преобладают ситуационные способы проектирования и модификации сетей, при которых современные методы диагностики, технические и программные решения для оценки и обеспечения гарантированной работоспособности систем управления компаний используются на основе моделей возможных событий в системе и реакций на эти события.

В качестве примера можно привести решения компании TopS Systems Integrator в проекте создания программно-аппаратного комплекса для организации резервного вычислительного центра для "Московской сотовой связи" (см. врезку).

Программы администрирования восстановления КС

Программные пакеты для планирования восстановления корпоративной сети после аварии:

Recovery Architect компании Strategia - широко распространенная программа для формальной разработки плана восстановления центра обработки данных. План учитывает взаимосвязи и важнейшие приоритеты всех групп пользователей, имеющееся оборудование и специалистов. В пакете используются интегрированные средства резервирования и восстановления, фиксируется история событий, и формируются отчеты о проверках.

Один из наиболее серьезных инструментов планирования восстановления после аварий - Contingency Planning and Recovery System for Windows (CPR) компании Focus Group. CPR разделяет разработку и сопровождение плана на несколько компонентов и предлагает приоритетный список пошаговых инструкций. Среди компонентов CPR - управление резервированием и хранением, безопасность системы, планы для неограниченного числа устройств, отделов и мест; интерактивная документация по сопровождению, тестированию и обучению плану, а также возможность создавать настраиваемые отчеты для аудиторов, страховых и правительственных агентств.

Менее дорогие варианты - Phoenix for Windows компании Binomial International и Building Disaster Recovery Plan компании Contingency Strategies Associates. Оба эти приложения имеют спецификации для планирования и разработки стратегии восстановления, предлагают настраиваемые отчеты и памятки для типичных аварийных ситуаций.

Важное замечание: ваш план не имеет никакой ценности, если он хранится на компьютере, уничтоженном в результате аварии. Копия плана должна находиться в каком-либо ином месте.

(Данные из Lan/Журнал сетевых решений, 1997, том 3, #5, Джо Рудич, "Компьютер спасает себя сам".)

Господа сисадмины, не сочтите за труд, расскажите, как вы применяете эти пакеты в своей повседневной работе? - А.А.

Для повышения надежности информационно-вычислительной инфраструктуры будет использована кластерная система на базе двух высокопроизводительных RISC-серверов HP9000, а также разделяемых дисковых Fibre Channel RAID-массивов HP High Availability Disk Array, дублированных в рамках кластера. Кластер действует следующим образом: при выходе из строя одного сервера в кластере его клиенты подключаются к другому серверу в этом же кластере и получают доступ к дискам, подключенным к обоим серверам. Особенностью системы является применение коммуникационной технологии Fibre Channel ("Оптический канал") с коммутацией для создания выделенных сетевых сегментов высокой производительности. Высокий уровень защиты данных будет достигнут за счет физического разнесения резервного и ведущего серверов в разные здания на расстояние более километра.

В проекте предусмотрена максимальная автоматизация процесса восстановления системы и минимизация времени восстановления работоспособности на базе использования специализированного программного обеспечения: Multi-Computer/LockManager - для защиты приложений от сбоя аппаратных или программных средств в кластере; MirrorDisk/UX обеспечивает "зеркалирование" данных с основного дискового массива на резервный, обеспечивая актуальность данных в режиме реального времени; ClusterView - приложение для реализации функций администрирования кластера, являющееся интегральной составляющей платформы системного и сетевого управления HP-OpenView. Для снижения риска утраты информации в проекте предусмотрена установка системы архивирования данных в режиме реального времени HP OpenView OmniBack II.

Похожие проекты, на других средствах и другими методами, реализуют многие наши ведущие системные интеграторы.

Оба этих подхода обладают своими достоинствами и недостатками. Но проводить полномасштабные исследования и синтез надежной и эффективной корпоративной сети можно и в том, и в другом случае. Важную роль играет также тот факт, что информационная система расширяется, чаще всего, за счет уже готовых сетевых структур объединяемых предприятий. В любом случае общее, формальное решение задачи оценки и повышения устойчивости функционирования таких систем достаточно громоздко.

Вместо заключения

Подожди - и плохое само собой исчезнет, нанеся положенный ущерб.

Закон Хелранга-Шейвлсона.

Применение специальных методов и средств обеспечения устойчивости функционирования корпоративных систем требует значительных затрат по их внедрению и повседневному использованию (закупки высококачественной техники и резервирование аппаратуры; дополнительная память на копирование данных; затраты времени на процедуры контроля и т. п.). Как эффективно распределить ресурсы, оптимизировать их по критерию "эффективность-стоимость"? Как разорвать этот замкнутый круг? Что лучше для российских компаний - смириться с неизбежными потерями и использовать минимально функционально-необходимые корпоративные системы или затратить дополнительные (и немалые) средства на создание избыточных резервируемых программно-аппаратных структур в корпоративных сетях для гарантированного обеспечения их устойчивой работы?

В представленных вашему вниманию материалах приложения мы попытались дать некоторые ответы на эти и другие вопросы.