Eastwind разработал модуль DataFlow

Дата сайентисты смогут работать с аналитическими моделями прямо на кластере Hadoop.

КАКАЯ БОЛЬ

Данные – топливо современного бизнеса. На информации в компаниях завязаны маркетинг, customer care, оптимизация внутренних процессов, контроль над ситуацией на рынке и многое другое. От качества, скорости работы, точности и своевременности предсказаний дата сайентиста зависит, как будет развиваться бизнес в целом и его отдельные направления. Когда аналитик работает с привычными для него инструментами, он не зависит от внешних факторов при выполнении задач. Но когда данных становится очень много, их загружают в Hadoop. И тут, многие, кто работает с большими объемами данных, сталкиваются с проблемой взаимодействия отделов разработки и аналитики.

ПЛОХАЯ НОВОСТЬ:

У БОЛЬШИНСТВА КОМПАНИЙ* ВСЕ СЛОЖНО С DATA SCIENCE VS DEVOPS

Проблема возникает, когда разные специалисты должны работать над единой задачей: например, анализом клиентской информации. Каждый из них обладает своим стеком инструментов, результат работы которых сложно копировать. Они кодят на разных языках, используют разный подход в работе. Так, дата сайентист телеком-оператора может построить гениальную аналитическую модель, работая над выборкой: на своей локальной машине, на языке python. Но когда он принесет ее DevOps-разработчику и попросит перенести в продуктив на всю абонентскую базу, тому придется переписать модель, например, на язык java и запустить в Hadoop. Скорее всего, получится не с первого раза. Часто бывает, что не получается переписать модель в точности – по техническим причинам. Плюс, добавляются сложности общения специалистов, которые фактически говорят на разных языках (программирования). Из-за этого выполнение задачи серьезно затягивается, качество на выходе падает, и все это попросту треплет всем нервы.

ХОРОШАЯ НОВОСТЬ: МЫ ЗНАЕМ, КАК ВСЕ ИСПРАВИТЬ

EW DataFlow помогает аналитику работать с данными на Hadoop, минуя DevOps-инженеров. Модуль подключается напрямую к кластеру и выводит всю необходимую информацию об имеющихся данных в удобный UI. Таким образом, EW DataFlow выступает в качестве переходника или адаптера для Hadoop. В комфортной и интуитивно понятной среде модуля дата сайентист может работать с big data на привычных для себя инструментах: быстро и без посредников. Разработчикам нужно только развернуть систему. Под капотом модуля – кластерные инструменты для расчетов, но весь код непосредственно в UI аналитик будет писать на python.

КАКИЕ ЗАДАЧИ ДАТА САЙЕНТИСТ МОЖЕТ РЕШАТЬ В EW DATAFLOW

  • Подключать новые источники данных.
  • Производить любой процессинг данных (семплирование, исследование, построение моделей, мониторинг и т.д).
  • Запускать модели в продуктив и тюнинговать их.
  • Моментально узнавать о проблемах в работе, находить ошибки в коде и править.
  • Управлять всеми расчетами на кластере.
  • Экспортировать результаты работы в файлы

ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ

Экспортированные файлы с данными можно загружать в любые аналитические системы. Мы предлагаем два варианта поставки модуля EW DataFlow: как отдельный продукт – для тех, кто уже работает с данными автоматизировано или вручную, и с платформой EW Social Analytics – для тех, кому нужно комплексное решение для аналитики.

«Раньше, когда возникали проблемы с данными на Hadoop, у нас над одной задачей садились работать два человека: дата сайентист и разработчик, – рассказывает Павел Олифер, руководитель отдела социальной аналитики Eastwind. – Компания теряла время и деньги. Мы создали EW DataFlow, чтобы такого не было. Модуль делает работу дата сайентиста на кластере Hadoop прозрачной. Сам написал код, сам запустил, сам мониторишь. Если что – сам исправил. Ведь аналитика для бизнеса должна быть быстрой и актуальной. Только тогда она будет давать нужный эффект и приносить профит».

КОМУ НЕ НУЖЕН МОДУЛЬ EW DATAFLOW

  • Тем, кто не работает с данными на Hadoop.
  • Тем, кто растит универсальные кадры (учит аналитиков разработке или разработчиков аналитике) и готов, что их постоянно будут переманивать конкуренты.
  • Тем, кто сделал кастомное решение проблемы и готов постоянно поддерживать его актуальность – ведь Hadoop все время меняется.
  • Тем, кто не гонится за эффективностью и скоростью в аналитической работе.

*По результатам личного опроса специалистами Eastwind 15 компаний, работающих с Hadoop.

Автор: Игорь Плотников.

Тематики: Интеграция, ПО

Ключевые слова: Big Data, бизнес-аналитика