Сегoдня прoмышленные предприятия вo вcем мире предъявляют выcoкие требoвания к cовременным вычиcлительным cистемам и системам хранения данных. Вычислительная инфраструктура должна быть адаптируемой под быстро меняющиеся задачи. Вычислительная инфраструктура должна гарантировать заданный уровень производительности приложений и поддерживать необходимый уровень масштабируемости, наращивание ресурсов должно производиться без кардинального перестроения архитектуры вычислительного комплекса. Вычислительная инфраструктура должна быть оптимизирована с точки зрения обеспечивающих подсистем, приоритетными являются задачи снижения энергопотребления, тепловыделения, габаритов. Стоимость владения вычислительных систем должна быть минимизирована.
Одной из передовых концепций построения инфраструктуры является консолидация вычислительных ресурсов.
По словам вице-президента и технического директора компании Hitachi Data Systems Х. Йошиды, благодаря развитию технологий хранения данных в течение нескольких десятков лет цены на диски снижались примерно на 30% в год. Однако расходы на хранение данных растут, потому что контроллеры хранения данных с кэш-памятью появились уже 20 лет назад, но некоторые архитектуры с тех пор не изменились. С момента появления сетей хранения данных, призванных повысить эффективность использования ресурсов, прошло уже более 10 лет. Ресурсы хранения данных до сих пор используются лишь на 20–30%.
Семь лет назад появилась технология виртуализации хранения данных версии 1.0, обеспечивающая консолидацию ресурсов в сети хранения данных.
Архитектуры, разработанные 20 лет назад, были рассчитаны на следующие условия:
– прямое подключение устройств хранения данных – отсутствие совместного использования;
– работа в две смены – интервалы для обслуживания;
– емкость, измеряемая гигабайтами;
– простота управления и переноса.
Сети хранения данных должны были обеспечить консолидацию за счет отказа от отдельных разрозненных устройств хранения. Они должны были повысить эффективность использования ресурсов хранения данных и дать возможность централизованного управления.
Основная проблема в том, что сети хранения данных соединили серверы с устройствами хранения, однако не смогли устранить разрозненность. Выделение ресурсов до сих пор производится в каждой системе данных отдельно. Не существует средств для сетевого обмена и переноса данных между системами хранения данных. Виртуализация хранения данных версии 1.0 на основе сетей хранения не решает проблему мобильности данных.
Однако способы решения вышеназванных проблем при развитии систем хранения данных существуют. Перечислим основные из них:
– консолидация – повышение компактности и сокращение количества устройств;
– увеличение нагрузки на ресурсы – виртуализация, динамическое выделение ресурсов;
– устранение повторов данных – сжатие, устранение дублирования, хранение в одном экземпляре, копирование при записи;
– архивирование неактивных данных – уменьшение объема рабочих данных.
Зачастую рабочее дисковое пространство расходуется следующим образом: примерно 1/8 занимают непосредственно сами данные, 1/8 – запас на будущее, столько же используется неэффективно, половина дискового пространства приходится на копии 3-N. Необходимо учитывать также, что существует дополнительное пространство в массивах RAID.
Стоимость оборудования составляет лишь малую часть общих расходов. Соотношение расходов на управление и оборудование – от 2:1 до 4:1 и более. Расходы делятся на две группы: расходы на управление и расходы на оборудование. К первой группе относятся: перенос устройств, резервное копирование и восстановление, плановая остановка работы, контроль изменений, учет условий эксплуатации. Расходы на оборудование включают в себя запас на будущее, данные, копии 3-N, неэффективное использование.
В результате этого рост расходов на IT не ведет к росту прибыли. Установка отдельных систем (RISS, VTL, CAS, InServ S800, AXIOM, Nearline, NAS) также не решает проблему.
Виртуализация версии 2.0 предполагает выход за рамки консолидации, организованной при виртуализации версии 1.0. Она обеспечивает мобильность данных, бесперебойную работу, восстановление после сбоев и технологическую модернизацию без остановки работы. Виртуализация версии 2.0 позволяет задействовать самые современные возможности платформы услуг хранения данных для внешних систем хранения.
Технология виртуализации на основе контроллеров является своеобразным ключом к сервисно ориентированному хранению данных:
– обеспечивает общую поддержку хранения и обслуживания данных с учетом всех требований разнородных приложений и систем хранения;
– не создает сложностей или задержек;
– не ограничивается подключением к сетям хранения данных;
– сохраняет всестороннюю безопасность;
– обеспечивает беспрепятственную интеграцию будущих возможностей.
Существующая технология для динамичного выделения ресурсов позволяет оптимально использовать объемы за счет выделения только тех ресурсов, которые действительно необходимы. Производительность систем хранения данных оптимизируется за счет распределения операций ввода-вывода по большему количеству каналов. В результате упрощается управление за счет резервирования затребованных ресурсов и автоматического выделения только тех объемов, которые действительно используются. Улучшается контроль эффективности за счет распределения операций ввода-вывода между дисками в общем массиве. Виртуализация версии 2.0 позволяет применить услугу динамического выделения ресурсов и для внешних устройств хранения данных.
Происходит перераспределение ресурсов, используемых неэффективно:
– виртуализация и динамический перенос;
– виртуализация и создание логических разделов;
– динамическое выделение ресурсов и уровней с меньшей стоимостью;
– сокращение расходов на более низкие уровни.
К эксплуатационным преимуществам технологий виртуализации и динамического выделения ресурсов относятся:
– перенос данных между разнородными устройствами хранения без остановки работы;
– виртуальные библиотеки магнитных лент (VTL) и устранение дублирования сокращают время резервного копирования и восстановления, многоуровневое хранение снижает расходы, а система Backup Services Manager обеспечивает репликацию в разнородных средах;
– обслуживание, перенос данных, модернизация и выделение ресурсов без остановки работы;
– единое управление разнородными системами, изменение конфигурации без остановки работы;
– уменьшение размеров устройств и сетей хранения данных и требований к электропитанию и охлаждению за счет консолидации.
Проводится консолидация различных требований к хранению данных с помощью единой платформы: услуг многоуровневого хранения, информационных, файловых услуг, виртуальной библиотеки, динамического выделения ресурсов. На базе единой платформы услуг применяется устранение дублирования с удаленной репликацией. Коэффициент устранения составляет 25:1. Для удаления репликации данных требуется меньший диапазон.
По сообщениям «ЛУКойл-ИНФОРМа», для поддержания работы информационных систем организаций Группы было необходимо надежное и высокопроизводительное оборудование. Модульные дисковые массивы, установленные в московском офисе компании, не обеспечивали уровень емкости и производительности, необходимый для консолидации хранения больших объемов данных, поэтому было принято решение о приобретении новых систем хранения класса high end.
В дополнение к расположенному в центре Москвы основному ЦОДу «ЛУКойл-ИНФОРМа» был построен резервный ЦОД, связанный с остальными по опто-волоконному кольцу. В обоих ЦОДах были установлены системы хранения данных TagmaStore USP 600 емкостью по 20 терабайт, которая была позднее наращена до 80 терабайт (максимальная емкость внутренних дисков USP 600 равна 148 терабайт) и построена сеть хранения SAN на базе коммутаторов SW48000.
Синхронная репликация данных между USP 600 основного и резервного ЦОДа выполняется с помощью программного обеспечения Hitachi TrueCopy, а резервное копирование на ленту или удаленный ЦОД реализовано на основе «мгновенных снимков» данных, генерируемых с помощью пакета Hitachi ShadowImage. Помимо SAP на платформе SPARC дисковый массив USP 600 также обслуживает инфраструктурные приложения (электронную почту, службу каталогов и т.д.). Функции виртуализации USP позволили перенести на нее данные из старых систем хранения без прерывания работы приложений, после чего в соответствии с концепцией управления жизненным циклом информации ILM освободившаяся в старых системах емкость стала использоваться для хранения вторичных (архивных и редко запрашиваемых) данных. Репликация на резервный ЦОД гарантирует не только сохранность, но и непрерывную доступность данных в случае выхода из строя основного ЦОДа.
Планируется оснастить все региональные ЦОДы, которые в настоящее время создаются на базе филиалов «ЛУКойл-ИНФОРМа» дисковыми массивами HDS USPVM – версией USP в модульном конструктиве. Такая стандартизация инфраструктуры хранения данных на основы архитектуры Hitachi должна существенно упростить управление хранением данных в масштабе предприятия и обеспечение их защиты.
Объемы систем хранения данных растут все быстрее, и проблема эффективности использования выходит на первый план. Массивы хранения данных, созданные на основе архитектур 20-летней давности, не способны справиться с сегодняшними динамическими требованиями. Для удовлетворения новых требований в сфере хранения данных необходимо создавать услуги, а не монолитные решения. Сервисно ориентированная архитектура хранения данных упрощает инфраструктуру хранения за счет общих услуг, которые можно задействовать для всех ресурсов хранения данных для решения следующих задач: консолидация, повышение эффективности использования, устранение избыточности, архивирование.
Эффективность использования ресурсов хранения данных должна обеспечить экологическую чистоту. Динамические центры обработки данных в будущем будут создаваться на основе сервисно ориентированных технологий.