Data Lakehouse в VK Cloud — это новый подход к хранению и анализу данных, который сочетает лучшие элементы «озёр данных» (Data Lake) и корпоративного хранилища данных (Data Warehouse). Он позволяет снизить нагрузку на системы хранения данных, удешевить хранение неструктурированных данных и эффективно анализировать их за счет разделения вычислительных узлов и хранилищ данных.
Data Lakehouse на платформе VK Cloud реализован на базе S3-совместимого объектного хранилища собственной разработки и высокопроизводительного SQL-движка Cloud Trino, реализованного на базе Kubernetes. Использование доработанных популярных опенсорс-компонентов в составе Data Lakehouse позволяет компаниям получить современный стек для работы с крупными проектами, с оплатой только за фактически потребленные ресурсы, без необходимости покупать лицензии.
Благодаря параллельному подключению к нескольким источникам, Cloud Trino позволяет сократить время на ETL-процессы, ускорить обработку сырых данных и дает возможность пользователям из различных отделов компаний быстро получать доступ к данным, чтобы легко строить Self-Service-аналитику и получать ценные инсайты в реальном времени. Использование Cloud Storage (S3) даёт возможность сократить в 10 раз стоимость хранения 1 ГБ данных в облаке — до 3 рублей вместо 35 рублей для Data Warehouse. Облачный Kubernetes в основе Trino даёт гибкость: позволяет оперативно расширять инфраструктуру по мере роста потребностей бизнеса, не перезакладывать инфраструктуру для пиковых нагрузок.
«В 2024 году ежедневно создавалось около 402,89 млн терабайт данных — это 147 зеттабайт данных в год. Прогнозируется, что в 2025 году этот показатель вырастет до 181 зеттабайта. У наших клиентов данные также растут в геометрической прогрессии, а полнота данных и скорость работы с ними обеспечивает конкурентность бизнеса. Мы создаем инструменты, которые позволяют работать с данными быстрее и дешевле, чтобы больше компаний могли повышать эффективность за счет Data Driven-подхода. С появлением нового сервиса Cloud Trino и ранее разработанных инструментов у нас появился первый в России стек технологий по модели as a service для создания современных архитектур Data Lakehouse. В планах сделать его экстремально быстрым, а хранение данных — экстремально дешевым», — комментирует директор по продукту VK Cloud Дмитрий Лазаренко.
Data Lakehouse доступен для построения как на облачной платформе, так на собственной инфраструктуре на базе Private Cloud и VK Data Platform. Инфраструктура публичного облака VK Cloud аттестована по требованиям 152-ФЗ (УЗ-1).