VK Tech запустил первый в России облачный Data Lakehouse

Решение позволяет снизить стоимость хранения и обработки данных в 10 раз. VK Tech стал первым в России вендором, который предоставляет пользователям возможность для построения корпоративного Data Lakehouse на управляемых облачных сервисах. Запуск Data Lakehouse стал возможен благодаря появлению на платформе VK Cloud нового сервиса Cloud Trino для обработки больших данных из разнообразных источников.

Data Lakehouse в VK Cloud — это новый подход к хранению и анализу данных, который сочетает лучшие элементы «озёр данных» (Data Lake) и корпоративного хранилища данных (Data Warehouse). Он позволяет снизить нагрузку на системы хранения данных, удешевить хранение неструктурированных данных и эффективно анализировать их за счет разделения вычислительных узлов и хранилищ данных.

Data Lakehouse на платформе VK Cloud реализован на базе S3-совместимого объектного хранилища собственной разработки и высокопроизводительного SQL-движка Cloud Trino, реализованного на базе Kubernetes. Использование доработанных популярных опенсорс-компонентов в составе Data Lakehouse позволяет компаниям получить современный стек для работы с крупными проектами, с оплатой только за фактически потребленные ресурсы, без необходимости покупать лицензии.

Благодаря параллельному подключению к нескольким источникам, Cloud Trino позволяет сократить время на ETL-процессы, ускорить обработку сырых данных и дает возможность пользователям из различных отделов компаний быстро получать доступ к данным, чтобы легко строить Self-Service-аналитику и получать ценные инсайты в реальном времени.  Использование Cloud Storage (S3) даёт возможность сократить в 10 раз стоимость хранения 1 ГБ данных в облаке — до 3 рублей вместо 35 рублей для Data Warehouse. Облачный Kubernetes в основе Trino даёт гибкость: позволяет оперативно расширять инфраструктуру по мере роста потребностей бизнеса, не перезакладывать инфраструктуру для пиковых нагрузок.

«В 2024 году ежедневно создавалось около 402,89 млн терабайт данных — это 147 зеттабайт данных в год. Прогнозируется, что в 2025 году этот показатель вырастет до 181 зеттабайта. У наших клиентов данные также растут в геометрической прогрессии, а полнота данных и скорость работы с ними обеспечивает конкурентность бизнеса. Мы создаем инструменты, которые позволяют работать с данными быстрее и дешевле, чтобы больше компаний могли повышать эффективность за счет Data Driven-подхода. С появлением нового сервиса Cloud Trino и ранее разработанных инструментов у нас появился первый в России стек технологий по модели as a service для создания современных архитектур Data Lakehouse. В планах сделать его экстремально быстрым, а хранение данных — экстремально дешевым», — комментирует директор по продукту VK Cloud Дмитрий Лазаренко.

Data Lakehouse доступен для построения как на облачной платформе, так на собственной инфраструктуре на базе Private Cloud и VK Data Platform. Инфраструктура публичного облака VK Cloud аттестована по требованиям 152-ФЗ (УЗ-1).

Тематики: Интеграция

Ключевые слова: облачные технологии, облачные услуги, VK (Mail.Ru Group)