В типичной инсталляции Hadoop 80% вычислительных нагрузок приходится на обработку 20% данных. Для оптимизации управления данными в зависимости от их востребованности Smart Storage Manager анализирует частоту обращений к файлам, а далее автоматически, на основе установленных администраторами правил, перемещает горячие данные в кеш, тёплые — на носители, оптимальные по производительности (SSD), холодные — в архив на носители, оптимизированные по объёму хранения (HDD). Это позволяет снизить стоимость хранения редко используемых данных, повысить производительность чтения горячих данных, а также оптимизировать использование оборудования.
Smart Storage Manager обеспечивает возможность настроить асинхронную репликацию данных между разными Hadoop-кластерами или между Hadoop-кластером и облачным хранилищем. Сервис отслеживает операции изменения данных, такие как создание, удаление, добавление и переименование, чтобы обеспечить синхронизацию в реальном времени и избежать вычислительных затрат MapReduce. Предусмотрена простая настройка и управление репликацией для реализации сценариев аварийного восстановления (DR).
«Стандартный инструмент для репликации данных между разными Hadoop-кластерами — команда distcp (Distributed Copy) — подходит для пакетной репликации большого объёма данных и неприменима в ряде других сценариев. С появлением SSM мы расширили возможности Arenadata Hadoop новым функционалом Data Sync, позволяющим реализовать асинхронную репликацию с наименьшей задержкой и влиянием на кластер-источник», — отмечает Александр Анисимов, технический руководитель продукта Arenadata Hadoop.
Политики и правила Smart Storage Manager позволяют гибко настраивать включение Erasure Coding — технологии отказоустойчивого распределения данных. Технология поддерживает сжатие данных в HDFS без ограничения доступа к ним для внешних приложений, что способствует экономии места в подсистеме хранения.
«Ввиду роста объёмов неструктурированных данных и их неравноценности с точки зрения частоты запросов, нет смысла оптимизировать весь массив. SSM позволяет собирать и анализировать исторические показатели, на их основе выявлять и прогнозировать шаблоны доступа к данным, чтобы автоматически корректировать варианты хранения, оптимизируя расходы и повышая производительность», — комментирует Екатерина Ульяшова, менеджер по продуктовому маркетингу Arenadata.
Сервис также включает решение для оптимизации потребления памяти при работе с небольшими файлами — их можно сжать в один файл-контейнер, который хранится в HDFS и данные в нём доступны для приложений верхнего уровня. Это позволяет снизить накладные расходы и повысить производительность записи и чтения небольших файлов.
Для удобства администраторов кластеров Smart Storage Manager предоставляет веб-интерфейс, с помощью которого можно создавать правила, запускать действия, проверять статус их выполнения и следить за статистикой кластера.
Возможности Arenadata Hadoop
Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.
Решаемые задачи:
На Arenadata Hadoop получено свидетельство о государственной регистрации программы для ЭВМ. Продукт включён в единый реестр российских программ для электронных вычислительных машин.