#3.5 Отказоустойчивость работы ситуационного центра | Часть 1
Ситуационные центры и диспетчерские - взгляд изнутри
Мы уделяем особое внимание отказоустойчивости, потому что это супер-важная история для работы ситуационного и диспетчерского центра.

Часто заказчики говорят: «Нам надо ситуационный центр», и даже не задумываются о том, что что-то может выйти из строя. Надо обращать их внимание на этот важный момент. Наши инженеры всегда предлагают хотя бы блоки питания: «Подумайте о том, что будет, если вы потеряете какую-то важную часть структуры». Для некоторых это некритично: «Сломалось — ничего страшного, починим». Но по нашей практике, для всех основных заказчиков СЦ критически важны для их бизнеса. Поэтому они допускают либо совсем маленькую кратковременную неработоспособность системы, например, в течение часа, либо не допускают вообще, все должно работать через 5 минут. Чем больше бизнес завязан на СЦ, тем больше требований к отказоустойчивости и резервированию.

Самое главное, чтобы у интегратора и заказчика было одинаковое понимание отказоустойчивости. Заказчик может говорить, что хочет одно, а подразумевать совершенно другое.

Цитата из ТЗ:
« ...при выходе из строя основного оборудования СЦ об этом должны быть проинформированы ответственные сотрудники, а работоспособность СЦ должна восстанавливаться автоматически или при незначительном участии сотрудников».


Это типовая фраза из реального ТЗ. Первое, на что надо обратить внимание, что о выходе из строя оборудования должны узнать сотрудники, несмотря на то что они могут даже не заметить, потому что система продолжает работать. Под «незначительным» участием обычно подразумевается, что человек готов что-то включить/выключить, перезагрузить, нажать какую-то кнопку, без того, чтобы вынуть шкаф, ящик, плату, вставить обратно, хотя это простые действия, которые может сделать рядовой сотрудник.

Существует три различных уровня реализации отказоустойчивости:
1. Уровень интерфейсов;
2. Уровень устройств;
3. Функциональный уровень.

Рассмотрим подробней каждый из них.

Уровень интерфейсов

Самый простой — уровень интерфейсов.

Для примера возьмем IP KVM приемник, самый стандартный вариант. Обычно у него одно LAN подключение и один блок питания. При выходе из строя блока питания или сети ничего не работает.

Обычно резервируют интерфейс питания и LAN-интерфейс. Даже в большой матрице коммутации, как минимум, всегда стоят 2 блока питания, поскольку это самое часто выходящее из строя устройство.

У вендоров есть специальные модели (обычно старшие), в которых предусмотрены 2 гнезда для подключения питания, то есть просто одновременно подключается 2 блока питания. Есть другие варианты: один блок питания и второй PoE-порт (Power over Ethernet). Но здесь надо точно понимать, как работает это устройство, потому что в некоторых случаях устройство может перезагрузиться, если пропадет основное питание. Кстати, основным питанием может быть не блок питания, а PoE интерфейс, то есть питание по сети. Некоторые устройства не перезагружаются — просто отвалилось и отвалилось, другие требуют физической перезагрузки. Если оно выключилось, надо отключить блок питания и сетевой интерфейс, и заново переподключить устройство. Вариантов много, это просто надо учитывать.

В шкафах в серверной комнате мы уже видели схему резервирования блоков питания, который используем мы. У нас уже больше 20 лет работает свой сервисный центр и огромная практика починки и вообще эксплуатации всех устройств. Чаще всего по статистике выходят из строя именно блоки питания. Поэтому мы всегда предлагаем клиентам, которым нужна отказоустойчивость, резервировать блоки питания, или хотя бы использовать профессиональные версии блоков питания. Например, у Aten есть обычный блок питания и его промышленный вариант. В компании TnTv железки поставляются с обычным блоком питания. Он в железном корпусе, прошел кучу всяких ГОСТов и испытаний. Стоит посмотреть, как выглядит блок питания, прошедший испытание стальными шарами и прожигание паяльной лампой! Железка от TnTv соответствует не ТУ, а самым жестким российским ГОСТам, ее можно использовать во всех государственных учреждениях. Мы своим клиентам предлагаем брать такие более отказоустойчивые варианты.

Что касается резервирования LAN, у топовых моделей IP KVM систем бывает два сетевых порта или сетевой порт и SFP порт, то есть вставляется SFP модуль, и подключается уже сетевой коммутатор. Минимально бюджетное резервирование сети, как это ни странно звучит, — это как раз использование SFP-модулей. Они есть у многих производителей, например, у Aten, TnTv, Extron. Если есть SFP слот, то мы просто вставляем туда медный SFP. Если он сгорел, то просто вынимается и вставляется новый. Если сгорел порт коммутатора, в соседний порт можно воткнуть. Главное, просто заложить это при проектировании. Этим достигается минимально быстрое восстановление работоспособности. Человек пришел, выдернул SFP, вставил новый — все заработало. Замена занимает меньше минуты. Это как раз слова из ТЗ: «… восстановление с минимальным участием».

На самом деле сетевые интерфейсы реально редко выходят из строя. На нашей практике были единичные выходы.

Если клиент просит зарезервировать и питание, и сетевой интерфейс, то обычно речь идет уже об отказоустойчивом СЦ. В нем проектируются так называемые отказоустойчивые сетевые ядра, у которых два отказоустойчивых плеча, полностью продублированные. Это недешевое решение. В этом случае мы людям предлагаем перейти ко второму уровню — к уровню резервирования устройств.

Уровень устройств

Нет смысла резервировать питание и сетевые интерфейсы, если вы строите нормальный отказоустойчивый ситуационный центр. В варианте TnTv устройства не такие дорогие, относительно бюджетные.

Допустим, есть условный кусок видеостены: приемник, видеопроцессор и видеопанель. В данном случае резервирование происходит на уровне устройств путем добавления еще одного приемника и еще одного видеопроцессора. Мы просто все дублируем, и на второй HDMI вход (или DVI, какой есть) подключаем в параллель еще один выход. То есть у нас есть основная и резервная линия. Если основная выходит из строя, целиком переключаемся на резервную систему работы.

Резервирование рабочего места, по сути, такое же, но немножко сложнее.

Слева схема рабочего места без резервирования, которую мы рассматривали раньше — 2 монитора, 2 IP KVM приемника, клавиатура и мышь. На правой схеме схема с резервированием. Мы к каждому приемнику ставим еще один, к монитору подключаем выход со второго приемника ко второму входу (HDMI, DVI, display порту, неважно) аналогичным образом как для видеостены. Таким образом при выходе из строя любого приемника оператор просто переключается на резервный. Можно поставить профессиональные мониторы с управлением, тогда оператор просто кнопкой переключается на вторые порты.

Но остаётся вопрос — что делать с клавиатурой и мышью, они же без резерва. Здесь два варианта:

1. Концы от IP KVM приемников, куда подключаются клавиатура и мышь, просто выводятся на стол, и оператор физически переключает клавиатуру и мышь. Это самый простой, деревяный, но самый действенный способ. Такие решения тоже делаются. Иногда даже люди врезают в стол USB розетки — все красиво и функционально.

2. Если хотите совсем красиво, чтобы никто ничего не переключал — ставим КМ-переключатель. Он только переключает клавиатуру и мышь USB. Оператор с первого канала переключается на второй резервный — все!

Посмотрим, как это выглядит вживую на столе.

Железки TnTv допускают установку друг на друга, они прекрасно работают.

Сверху ставится линейка основных приемников, а снизу — резервных. Если что-то происходит, оператор переключается на резервную линию, а обслуживающий персонал отключает интерфейс, сверху вынимает устройство, уносит, восстанавливает или меняет, и обратно приносит. Не надо ничего вытаскивать или переставлять, просто сверху ставится основное устройство, а внизу резервное.

Там же стоит IP KVM коммутатор, к нему на первый канал подключается IP KVM приемник от основной линии, ко второму каналу от резервной. Сломался приемник, нажимаете ALT2 и поехали дальше работать. Этим обеспечивается очень быстрое переключение на резервный комплект оборудования.

Конечно, редко, но бывает, когда заказчик разоряется на мониторы с внешним управлением. Тогда все еще проще — нажимается кнопка у администратора либо прямо у оператора, и переключаются мониторы.

Функциональный уровень
Это когда мы не «железно» делаем резервирование, а именно функционально, то есть остается либо частичная, либо полная функциональность системы. Это достигается либо избыточностью, либо дроблением системы на независимые фрагменты.

Вспомним изначальную схему видеостены в главном зале СЦ. Здесь рассмотрим верхнюю часть схемы (без резервирования).

Есть один большой процессор, в котором 18 входных и 18 выходных слотов. Он может обслуживать всю стену из 32 панелей. К нему подходят 32 IP KVM приемника и отходят 32 линии к мониторам.

Здесь появились уже 2 процессора, но меньшей емкостью, каждый по половинке. Каждый из них обслуживает половину видеостены. То есть предыдущая схема — это схема с избыточностью, а это схема с дроблением. В случае выхода из строя процессора, например, он сгорел, остается полстены, в отличие от варианта, когда все сломалось и стена погасла.

Администратор активирует на работоспособной половине нужный шаблон для работы в аварийном режиме, который позволяет уместить те же самые данные с большей плотностью, может быть, даже с использованием «многооконников», которые умеют формировать более плотные полиэкранные изображения. Да, стало менее удобно смотреть на видеостену, но мы сохранили функционал. Стена не пропала совсем, осталась хотя бы ее половина. Тем самым мы добиваемся резервирования.

Вариант избыточности применим, например, к рабочим местам. Допустим, в СЦ нужно 20 рабочих мест. В зале специально проектируется некоторое количество пустых мест, которые никем не заняты. В случае выхода из строя рабочего места, оператор просто встает, пересаживается на резервное место и продолжает работу. Процент избыточности (сколько таких мест надо) рассчитывается исходя из требований заказчика. По аналогии можно резервировать все остальные элементы, например, ВКС.

Фактически это аргумент к тому, что все источники должны быть завернуты внутри IP KVM системы. В этом случае мы можем обеспечивать избыточность и подхватывать куски схемы, которые перестали работать. Поэтому мы по большей части не завязываемся на локальные коммутации. IP решения позволяют все делать гибко. Ты можешь что угодно куда угодно завернуть, в том числе, решить вопрос с резервированием. Когда у вас одна физическая железка, это сложно.

Возникнет логичный вопрос — а как все это настраивать, подключать? Это отдельная тема. Есть системы, которые позволяют сделать это просто. Они учитывают резервирование. Та же IP KVM система Aten, которую уже несколько раз упоминали, позволяет делать резервирование. Конечно, не так просто, как хотелось бы, надо поплясать с бубном, но можно.

Система TnTv изначально проектировалась с учетом резервирования, поэтому в ней все просто настраивается. Есть нюанс — нужно, чтобы основное и резервное оборудование было всегда синхронизировано. Не просто два процессора поставить, надо, чтобы они всегда одинаково показывали. Как только кнопку оператор нажал переключиться с основного на резервный, на стене должно восстановиться то, что было раньше, чтобы осталась прежняя картинка, чтобы оператор заново не настраивал свое рабочее пространство. В некоторых системах это удобно реализовано, в некоторых нет, а в некоторых вообще нельзя это сделать. Это надо учитывать.

Резервирование СЦ

Бывает такое, что мы резервируем не только отдельные устройства или функционал, но более масштабное решение. Это отдельная тема, которая называется катастрофоустойчивостью. Есть нормативы катастрофоустойчивости, которые применяются к строительству СЦ, которые выполняют критически важные задачи.

Что такое катастрофоустойчивость?

Например, есть СЦ, он работает. И вот случилось наводнение (упал метеорит, произошел разлом земной коры, электричество отключилось во всем городе), а функции СЦ необходимо продолжать выполнять. Поэтому в любой момент времени, как только этот СЦ прекратил свое физическое существование, работа должна продолжиться онлайн в территориально расположенном в другом месте СЦ.

К катастрофоустойчивым системам есть особые требования, помимо дублирования всех систем внутри СЦ. Количество резервов тоже прописывается, может быть не 2, а 3, 5, 6-кратное резервирование всего ситуационного центра в другом месте. Причем места рассчитываются тоже не просто. Например, если есть угроза затопления основного СЦ, то резервный центр ставится выше по течению, если это сейсмоопасный район, то резервный центр ставится на другой литосферной плите. Учитывается все, вплоть до того, что электроснабжение должно идти от разных электростанций. У крупных заказчиков есть территориально распределенные в разных регионах СЦ на расстояний тысяч километров.

Есть основной и резервный СЦ, также есть ЦОД, в котором хранятся все данные, с которыми работает СЦ (основной и резервный), и всё соединено со всем. О том, что каналы данных резервируются, мы даже не говорим - там может быть 2-6-кратное резервирование.

Реальная схема намного сложнее, но суть в том, что каждый СЦ и ЦОД связан с каждым и СЦ и ЦОД.

Посмотрим схему резервирования СЦ на более детальном уровне.

С работой сотрудников СЦ с общими данными вопросов не возникает. Информация, которая хранится в ЦОД, что в Москве, что в Екатеринбурге, одинаковая. Человек получает ее из какого-то хранилища. Главное, чтобы в момент, когда что-то случилось, сотрудник резервного СЦ мог спокойно продолжить работу, начатую в основном СЦ. Для этого он должен видеть, что делается в основном СЦ. Поэтому наши заказчики просят организовать трансляцию реальных потоков видео из одного СЦ в другой, и наоборот, например, рабочего места.

Таким образом, есть некий набор потоков, которые ходят внутри LAN ядра. Здесь задача в том, что мы нужные потоки транслируем в другой СЦ через WAN (глобальную сеть), через корпоративный VPN, где его смотрят фактически в режиме реального времени. Естественно, там все сложнее (шифрование и пр.). Но организацией защищенных каналов связи занимается заказчик, это отдельная история.

Надо понимать, что здесь поток измеряется в гигабайтах. Понятно, что передавать такие потоки между Москвой и Екатеринбургом в реальном времени очень дорого, и как следствие, нецелесообразно. Нужны мегабиты. Для этого используется решение, которое здесь приводим. Здесь реализована схема одного канала туда и обратно. Таких каналов может быть столько, сколько хочет заказчик.

Для организации канала «туда» к IP ядру подключается IP KVM приемник, к нему на вход подключается стример. Это устройство преобразует сигнал HDMI в поток H265, кодирует его, и отправляет, грубо говоря, в интернет. С той стороны стоит приемник, который берет поток H265, декодирует его, превращает в HDMI сигнал и передает на вход IP KVM передатчика. С другой стороны все в обратную сторону. Это один канал передачи данных. Таких каналов может быть 10-20-30, сколько захочет заказчик. Он решает, сколько таких потоков (односторонних или двухсторонних) требуется для того, чтобы обеспечивать основной функционал.

Задержка бывает 5-10 с и меньше. Оператор из резервного ситуационного центра практически в реальном времени может наблюдать, как решает ту или иную задачу оператор в основном СЦ. В любой момент, если в основном СЦ все пропадает, он просто подхватывает работу. Для этого он подключается к резервной информационной системе, а она синхронизирована с основной, и продолжает выполнение работы. Причем транслировать можно любые данные откуда и куда угодно. Мы решаем эти вопросы с помощью стримеров.

Внизу стример-передатчик, сверху — стример-приёмник. Причем приемник TnTv хитрый, он может принимать не один поток, а до 4 потоков, полиэкранно располагать их, то есть один оператор может принять на одном экране до 4 изображений.

Здесь не стоит вопрос об управлении не стоит, а только о трансляции изображения. Оператор резервного центра видит, как оператор в основном СЦ решает ту или иную задачу. Например, в Москве происходит какая-то проблема, оператор СЦ начинает ее решать. В резервном центре в Екатеринбурге другой оператор эту проблему видит, например, она ему свалилась в почту, и он знает, что она решается в Москве. Вдруг в Москве все отвалилось. Оператор в Екатеринбурге знает, на каком месте остановился оператор из Москвы — может, он ее уже решил или даже не приступил. Он в курсе, какие кнопки он нажимал, что делал и т.д.

Наши заказчики просят, чтобы люди в резервном СЦ видели, что делается в основном СЦ. Человек в резервном центре делает свою работу и параллельно наблюдает краем глаза, что делается в Москве — ага, Вася запустил вот этот процесс, получил отчет. Вдруг Вася исчез, смыло Васю. Оператор из резервного центра подключается к своему резервному серверу, там информация дублируется, и продолжает работу Васи. Например, если Вася запустил отчет, значит, результаты надо взять и делать дальше. У них есть специальные протоколы, что делать, если что-то случилось.

Это реальные потребности заказчика. Некоторые заказчики хотят управлять, и тогда мы говорим, что давайте канал для такого потока данных, будем управлять — почему нет? Надо сделать единую сеть. Мы делали такие варианты. Есть технологии, позволяющие маршрутизировать все и запустить KVM под сеть, объединить их.

Схема, которую мы обсуждали, применима на рабочих каналах связи. Обычно этого достаточно. У железок TnTv есть еще один плюс. Мы занимались одним медицинским проектом, и одним из условий заказчика была передача данных не по обычным каналам связи (медным или оптическим), а, в том числе, по беспроводным, имеются в виду каналы сотовых операторов связи. Кто этим занимался, понимает, что, во-первых, это нестабильность, сеть постоянно рвется, а во-вторых, хромает скорость. Если у вас 4G — это ничего не значит. У нас должно было гарантированно работать на EDGE (2G, 480 Кб/с). Мы с помощью этих железок передавали изображение с качеством 720P на этой скорости. Если не верите, можете записаться в нашу виртуальную лабораторию, мы вам удаленно проведем демонстрацию любого оборудования, про которое говорим.

В некоторых ситуационных центрах резервные каналы, в том числе, реализованы при помощи мобильных устройств, например, в выездных СЦ МЧС, когда они выезжают на места трагедий, аварий и т.д. Так называемые мобильные ситуационные центры — это отдельная тема. Реально можно сделать мобильный СЦ— открываешь чемодан, и там есть все, о чем мы рассказывали, только в миниатюре.

Используете ли вы оптические KVM системы? Здесь имеются в виду оптические модули.

Мы уже говорили, что с точки зрения построения инфраструктуры без разницы, на чем строить. Меняется только модуль — вместо медного ставится оптический. В приемниках и передатчиках TnTv старшей серии сразу в комплекте идет 3 SFP модуля: медный, многомодовый и одномодовый. Заказчик сам выбирает, какой ему хочется.