«Цифровой прорыв. Сезон: Искусственный интеллект» в Перми – один из восьми хакатонов, которые проводятся в 2023 году во всех федеральных округах России под эгидой президентской платформы «Россия – страна возможностей» в рамках национального проекта «Цифровая экономика». Проект организован министерством экономического развития РФ.
Хакатон в Перми собрал более 700 ИТ-специалистов в возрасте от 14 до 70 лет со всей страны. Призовой фонд состязания составил 3 млн рублей. Командам в составе из трех до пяти человек нужно было решить пять задач, связанных с технологиями искусственного интеллекта, от партнеров проекта – федеральной службы по аккредитации, МВД РФ, а также компании ZeBrains и других. На решение всех кейсов у команд было 43 часа.
Команда «Наносемантики», в составе NLP-разработчиков Александра Туманова, Александра Кислинского, Юлии Родиной и Алины Мухамеджановой, выступавшей в роли дизайнера, лучше остальных справилась с кейсом «Распознавание именованных сущностей в заголовках и описаниях к видео на видеохостинге RUTUBE». Перед участниками стояла задача NER (Named Entity Recognition) – классифицировать именованные сущности в уже предразмеченном датасете, составленном из описаний названий видеороликов. Сущности или слова и словосочетания, по которым сервис может давать рекомендации, нужно было распределить по 12 категориям – дата, локация, персона, бренд, модель, серия, лига, вид спорта и другие.
По словам участников команды «Наносемантика», поставленная организаторами задача была непростой, хотя и знакомой – задача NER является одной из основных в области обработки естественного языка (NLP). Для решения кейса на хакатоне конкурсантам пришлось провести много экспериментов с архитектурами моделей и предобученными трансформерами, параметрами обучения (warmup scheduler, lr, gradient accumulation и т.д.). Также участники обучили отдельную нейронную сеть на задачу MLM и использовали получившиеся веса для обучения на основной задаче.
«Участие в хакатонах – это возможность прокачать себя в профессиональном и командном планах. На таких площадках мы получаем опыт решения задачи с “плохими” данными, опыт умения принимать правильные решения в короткие сроки и в сильно ограниченном времени. Все это требует постоянной тренировки, чтобы держать себя в форме и не замыкать сферу своих компетенций кругом из одних рабочих задач. Мы рады, что нам удалось показать лучший результат по кейсу NER и надеемся, что он внесет свою лепту в развитие российского видеохостинга», - комментирует Александр Туманов, капитан команды и разработчик систем машинного обучения компании «Наносемантика».