Бесплатное решение от ITSumma в десятки раз ускоряет обработку данных

Иркутская компания ITSumma разработала opensource-плагин для Apache Spark, который значительно ускоряет обработку данных за счет параллельных операций чтения и записи.

Решение spark-greenplum connector — это многофункциональный плагин для платформ обработки и анализа больших данных. Используя его, вместо встроенного в Apache Spark коннектора, дата-инженеры смогут увеличить скорость чтения и записи из и в базу данных Greenplum в десятки раз и быстро масштабировать количество подключаемых и обрабатываемых источников.

С помощью коннектора инженеры смогут настроить структурированный стриминг с использованием микропакетной обработки. Эта функциональность помогает получать оперативные обновления требуемых данных, что повышает скорость обработки практически до реального времени.

У spark-greenplum connector имеется ряд дополнительных возможностей. Например, использование анонимного блока или функции PL/pgSQL в качестве источника или поглотителя данных при операциях чтения и записи. Это позволяет делегировать часть обработки данных на сторону БД.

На его основе можно строить ETL-решения и анализировать данные in-memory. Он обладает высокой скоростью передачи данных, большой гибкостью в настройке, а также:

  • автоматически формирует схемы данных;
  • разбивает вычисления на параллельные независимые потоки;
  • и поддерживает push-down операторы.

Apache Spark и Greenplum — это популярные opensource-решения, которые используются в большинстве российских платформ по работе с большими данными. Поэтому разработка пригодится многим компаниям.

«В текущих условиях подобные решения, которые обеспечивают работу систем обработки больших данных, имеют импортозамещающее значение. Учитывая важность этого, мы решили выложить наш коннектор в открытый доступ — Тимур Хасанов, технический директор ITSumma».

Тематики: Интеграция

Ключевые слова: Open Source