В результате проекта компания получила масштабируемое и управляемое пространство для разработки ML-моделей, которое позволяет оперативно подключать внутренние команды дата-сайентистов с возможностью оценки результатов их работы. С помощью платформы компания также сможет быстро и с минимальными трудозатратами привлекать внешние ML-команды для увеличения количества решаемых задач и разрабатываемых моделей. Кроме того, специалистам станет доступен централизованный каталог готовых пайплайнов с упрощением последующей разработки моделей за счёт переиспользования готовых компонентов.
На текущий момент в платформе настроены процессы MLOps (версионирование моделей, experiment tracking, сборка исполняемых сервисов на базе разработанных моделей) с возможностью отслеживания происхождения артефактов. Архитектура платформы обеспечивает автоматизированный процесс разработки и внедрения моделей, их перенос в промышленную среду, а также предоставляет инструменты для визуализации метрик экспериментов. Это позволяет сократить срок разработки, добиться воспроизводимости результатов и повысить надёжность комплексных конвейеров по обработке данных, элементами которых являются ML-сервисы.
Для построения платформы выбрано решение Kubeflow с открытым исходным кодом, предоставляющее централизованные средства для разработки ML-моделей, пайплайнов и управления артефактами. Кроме того, используется Argo Workflow, как наиболее развитый оркестратор рабочих процессов на Kubernetes, входящий в Kubeflow и облегчающий процесс использования разработанных моделей.
«В компании имеется отлаженный процесс и собственные инструменты по развёртыванию моделей машинного обучения как сервисов и включению их в конвейеры обработки данных, однако для повышения возможностей масштабирования, прозрачности процесса и сокращения времени по выводу исследовательских алгоритмов в промышленную эксплуатацию было решено разработать новую DS-платформу. Это даёт возможность как для более тесной интеграции внутренних команд, так и при необходимости, для оперативного подключения внешних команд к разработке новых моделей с автоматизированной валидацией качества предложенных решений», – отметил Василий Кузьмин, CIO Mediascope.
«Mediascope – технологичная компания, использующая большое количество сложных ML-моделей для обработки данных и получения аналитики. Поэтому для нас было особенно важно разработать решение, которое бы полностью удовлетворяло высоким технологическим стандартам нашего заказчика, и при этом было бы удобным в ежедневном использовании дата-сайентистами. Внедрение новой Data Science платформы позволит Mediascope сократить time-to-market для новых аналитических продуктов, основанных на моделях машинного обучения, а также снизить трудозатраты команд по валидации и выводу моделей в промышленную эксплуатацию», – отметил Алексей Антонов, ассоциированный партнер, руководитель центра компетенций Data Science компании Neoflex.