В начале 2017 года Informatica выпустила обновленную версию платформы Intelligent Data Lake (IDL), предлагающей рынку новую концепцию управления корпоративными данными в условиях современных трендов и вызовов. Платформа помогает повысить доступность данных для широкого круга пользователей и решает вопрос эффективного поиска, быстрого прототипирования и самостоятельного получения пользователем первых результатов без необходимости обращения в ИТ. Такие возможности становятся все более и более востребованы с учетом развивающегося тренда data driven company, когда многие компании ставят именно данные во главу угла, и все больше специалистов должны быть обеспечены необходимой информацией, чтобы принимать на ее основе прозрачные решения и извлекать для компании выгоды.
Informatica является традиционным игроком и мировым лидером в области управления данными, предлагая бизнесу и ИТ промышленную платформу, позволяющую эффективно решить весь комплекс задач, так или иначе связанных с управлением данными на всем их жизненном цикле, что, в конечном итоге, помогает компании более эффективно работать с данными и перевести их в разряд ключевого актива организации. Решение IDL является еще одним звеном, расширяющим возможности данной платформы в области работы с Big Data. Так что же такое Intelligent Data Lake, и как решение помогает бизнесу?
С наступлением эры больших данных (Big Data) многие организации всерьез задумались о применении нового подхода к сбору, хранению и анализу своих данных. Если раньше данные анализировались выборочно, под набор конкретных и понятных задач, то сегодня все чаще и чаще компании стремятся сохранить все исходные данные и присовокупить к ним самые различные внешние источники, чтобы иметь возможность всестороннего анализа. Когда сегодня мы принимаем решение, какую информацию сохранять, а какую – нет, мы можем даже не знать, как будем использовать ее в будущем. Но спустя время возникает идея или гипотеза, которая опирается на сохраненные данные и способна не просто окупить все затраты на их хранение, но вывести компанию на новые горизонты развития. Появляется возможность получить принципиальные конкурентные преимущества, вывести на рынок новый успешный продукт, завоевать сердца тысяч новых клиентов, предложить уникальный сервис и т.д. Только одна идея из многих сработает, но она может до неузнаваемости изменить бизнес, и многие компании не хотят сегодня упускать подобные возможности.
Согласно концепции Data Lake сохраняется как можно больше данных в едином месте, включая данные из всех транзакционных систем, все накопленные знания из корпоративных хранилищ и систем аналитики, исходные журналы и машинные данные, информацию от партнеров, данные социальных сетей и т.д. Решение Data Lake должно обеспечивать возможность совместного хранения и обработки разнотипных данных, а также хорошо масштабироваться. Как правило, такие решения разворачиваются на базе кластера Hadoop, который позволяет относительно дешево хранить и анализировать огромные объемы структурированных и неструктурированных данных из самых различных внутренних и внешних источников.
Однако, сохранить и собрать информацию в одном месте недостаточно. Возникает вопрос эффективного обеспечения данными существенно более широкого круга пользователей, чем ранее. Если в компании работает несколько тысяч человек, а анализом данных занимается 10-15 аналитиков, то, очевидно, что компания не использует свой потенциал и вряд ли сможет перестроиться и развить успешный бизнес вокруг данных. Второй момент, который здесь возникает, - это трудность поиска той информации, которая нужна конкретному аналитику для ответа на конкретный вопрос с учетом сотен и тысяч источников и потоков данных, большого многообразия структур, различий в трактовке данных, различных проблем с их качеством и, часто, отсутствия или неточности документации. И наконец, нужно реализовать логику обработки этих данных, а не каждый аналитик обладает знанием java и технологий Hadoop. Из-за этих вопросов пользователь, как правило, вынужден большую часть своего времени тратить не на анализ, а на поиск, перегрузку и различные подготовительные работы с данными.