Microsoft внедряет Spark для аналитики больших данных в облаке

10.06.2016 |

На прошедшей конференции Spark Summit корпорация Microsoft объявила о доступности для заказчиков облачной платформы Spark for Azure HDInsight для аналитики больших данных. Как и подразумевает буквальный смысл словосочетания Apache Spark, это Open-Source-решение для обработки данных берет штурмом мир больших данных.

По заявлению Microsoft, перевод Spark for Azure HDInsight из стадии бета-тестирования в готовое предложение означает, что компания теперь полнее освоила Spark. В своем выступлении 6 июля Тиффани Уисснер, старший директор направления Microsoft Data Platform Marketing, описала этот продукт как полностью управляемый сервис Spark от Hortonworks, который был усилен для эксплуатации в корпоративной среде и стал проще в использовании, добавив, что соглашение об уровне сервиса гарантирует пользователям Spark наивысший в отрасли уровень готовности в 99,9%.

Чтобы упростить развертывание решения, Microsoft выполнила ряд работ по интеграции продуктов, включая сотрудничество с Hortonworks (главным коммерческим спонсором Hadoop, на котором базируется HDInsight) по усовершенствованию менеджера ресурсов YARN. Компания также скооперировалась с Cloudera для совместного руководства проектом Livy, который существует в альфа-версии и представляет собой Spark-сервис в архитектуре REST, предназначенный для упрощения взаимодействия приложений с инфраструктурой Spark.

«Spark позволяет быстро обрабатывать большие данные с использованием универсального и гибкого API, — пояснил Ананд Айер, старший менеджер по продуктам Cloudera. — У наших заказчиков и партнеров ощущается естественная тенденция задействовать возможности Spark из клиентских приложений, которые могли бы легко связываться со Spark, и Livy делает это возможным».

Microsoft известила, что планирует этим летом сделать доступным в облаке свой R Server for HDInsight, обеспечив его интеграцию со Spark. R предоставляет собой язык программирования для статистической обработки информации, широко используемый специалистами по работе с данными.

«Это позволит легко переносить код и проекты в облако в несколько кликов и несколько минут, не покупая оборудование и не нанимая специализированные операционные группы, что принято ассоциировать с инфраструктурой больших данных», — пояснила Уисснер.

Она также добавила, что в июне локальная версия R Server for Hadoop будет поддерживать нативные фреймворки исполнения Spark. По оценкам Microsoft, соединяя R Server со Spark, пользователи смогут отрабатывать свои статистические модели на более обширных наборах данных, причем в сто раз быстрее, чем с Open-Source-версией R, и примерно в два раза быстрее, чем с собственной библиотекой (MLLib) машинного обучения Spark, реализуя функции R на тысячах узлов в кластере Spark.

Еще одной новостью стал выпуск Microsoft R Client, бесплатного R-клиента для специалистов по обработке данных. Помимо анализа локально хранимых данных, это ПО можно использовать с продуктивными экземплярами HD Insight вкупе со Spark, а также с SQL Server R Services и R Server for Hadoop, сказала Уисснер.

Наконец, на фронте визуализации данных Microsoft объявила, что сервис Power BI теперь поддерживает Spark Streaming. Подключив в дело технологию потоковой обработки Spark, пользователи теперь смогут публиковать события реального времени на инструментальных панелях Power BI, обновляя главные бизнес-метрики в секундном измерении.