В этом году хакатон проходил в онлайн-формате, в нем приняли участие 250 команд из разных регионов России. Команда разработчиков DD Planet совместно с выпускниками ТулГУ выступила под названием «Фирмачи» во главе с ведущим программистом Юрием Басаловым. В течение 36 часов участники хакатона решали кейсы от ведущих IT-компаний, стартапов и региональных ведомств.
В задании Ассоциации больших данных и Сбербанка командам требовалось разработать интеллектуальную систему предобработки почтовых адресов, не подвергающуюся разложению существующим Нормализатором банка. Результатом предложенного решения должен был стать алгоритм, корректирующий адрес так, чтобы он успешно обрабатывался Нормализатором банка.
Команда «Фирмачи» представила решение, которое позволяет структурировать адреса, убирает лишние знаки препинания, не значащие или мешающие распознаванию блоки и приводит адрес к стандартному виду. Алгоритм основан на выявленных с помощью статистического анализа плохих и хороших адресах и позволяет компаниям с большой базой данных быстро их актуализировать. Решение является автоматическим, что обеспечивает минимум вложений для его поддержки.
«В ходе разработки алгоритма мы столкнулись с проблемой – не могли проверять свое решение на Нормализаторе Сбербанка. Поэтому наша команда создала классификационную модель, которая с точностью более 98% определяет, распознает ли Нормализатор адрес или нет. Благодаря статистическому анализу мы определили блоки адреса, которые «ломают» Нормализатор. Их мы удаляли или преобразовывали. Такой подход позволил нам получить более 67% распознанных плохих адресов с минимальной потерей информации. Мы сразу адаптировали свое решение к высоким нагрузкам, реализовав его на Java + Apache Spark», – рассказал Юрий Басалов, ведущий программист DD Planet.