«Самолет» создал гибридную Data-платформу для управления данными

Группа компаний «Самолет» создала собственную аналитическую платформу, предназначенную для управления большими данными. Она сочетает достоинства классических корпоративных хранилищ с гибкостью озер данных и дает возможность обслуживать разнообразные запросы как к готовым витринам, так и работать с качественными очищенными данными в озере. Это существенно расширяет применение платформы в бизнесе и позволяет оптимизировать процессы загрузки, обработки, очистки и описания данных.

В условиях, когда компания ежедневно обрабатывает значительные объемы разнородной информации, эффективное управление данными становится ключевым фактором успешного ведения бизнеса. «Самолет» использует data-driven подход при принятии стратегических и операционных решений, что позволяет компании повышать точность прогнозов, оптимизировать процессы и улучшать качество предоставляемых услуг.

Новая платформа «Самолета» — полноценное решение в области работы с большими данными, которое выстроено на современном стеке open-source технологий и собственных разработках.

«Для нас это был не просто проект, но и стратегический вызов. Многие компании предпочитают готовые проприетарные решения, но мы сделали выбор в пользу независимости и гибкости, что особенно важно в условиях динамично меняющейся ситуации на рынке. Наш подход позволил создать современную платформу с полным циклом обслуживания данных, которая реализует процессы data governance, в основе имеет инфраструктуру как код и соответствует самым высоким требованиям. Аналитическая платформа обеспечивает кроссистемную интеграцию данных более чем из 170 различных мастер-систем и источников. При этом следует отметить, что в ландшафт решения заложены различные инструменты, позволяющие не только накапливать данные, но и — что намного важнее — создавать стратегию управления данными и эффективно применять их в бизнесе. Например, в нашем ландшафте важную роль играет сервис нормативно-справочной информации, через который тиражируются единые корпоративные справочники», — рассказала директор по данным группы «Самолет» Ольга Свитнева.

Собственная разработка «Самолета» осуществляет систему контроля качества с многоуровневым механизмом валидации и очистки данных. Компания активно развивает и применяет на практике AI и проекты машинного обучения, поэтому в стеке есть компоненты, заточенные на обслуживание потребностей data science. Особое внимание в компании уделяют паттернам безопасной разработки и политикам доступа к данным с акцентом на то, чтобы превратить данные в управляемый актив — доступный, устойчивый и ликвидный.

Технологический стек платформы включает в себя множество разных компонентов и сервисов — Kubernetes, Kafka, Debezium, MiniO S3, ClickHouse, Airflow, PostgreSQL, DataHub, ML Flow, Jupiter Hub и прочие. Архитектура платформы спроектирована таким образом, чтобы создать максимальную отказоустойчивость и гибкость масштабирования в условиях высокой динамики роста объема данных в компании. Вся платформа развернута и работает на серверной инфраструктуре в собственном дата-центре группы «Самолет», что позволяет полностью соответствовать требованиям безопасности и производительности.

Тематики: ПО

Ключевые слова: управление базой данных, Big Data, СУБД