Яндекс привлечёт белых хакеров для проверки безопасности генеративных нейросетей

10.04.2025 |

Яндекс запустил новое направление программы «Охоты за ошибками», связанное с генеративными нейросетями. Компания готова выплатить до миллиона рублей исследователям, которым удастся отыскать технические уязвимости в семействах моделей YandexGPT, YandexART и сопутствующей инфраструктуре.

Участникам «Охоты» предстоит искать технические ошибки, которые могут повлиять на результаты работы и процесс обучения нейросетевых моделей: скажем, привести модель к сбою или изменить её поведение так, чтобы она повлияла на работу других сервисов Яндекса.

Размер выплаты зависит от серьёзности ошибки и простоты её применения. К критичным относятся уязвимости, которые позволят раскрыть данные о внутренней конфигурации модели, её служебный промт с техническими данными или другую чувствительную информацию. Максимальное вознаграждение за такие ошибки — 1 млн рублей. В «Охоте» могут участвовать только отчёты о технических уязвимостях. К ним, например, не относятся сообщения о неточных ответах Алисы или некорректных изображениях в Шедевруме.

Генеративные нейросети всё шире используются в сервисах Яндекса и партнёрами компании. YandexGPT и YandexART уже нашли применение более чем в 20 сервисах и продуктах для пользователей и бизнеса — от Алисы и Поиска с Нейро до Директа и решений Yandex Cloud, в том числе доступных сторонним разработчикам через API. Появление генеративных нейросетей в «Охоте» позволит проводить их независимую проверку и ещё раз убедиться, что сервисы Яндекса и новые технологии отвечают самым строгим стандартам безопасности.

Все технологии Яндекса, включая генеративные модели, создаются и развиваются с учётом принципов безопасной разработки на каждом этапе — от проектирования до внедрения. Для этого команда безопасности ещё на стадии проектирования изучает будущую архитектуру сервиса, проверяет её на возможные уязвимости и соответствие стандартам. Яндекс также изучает возможные способы атак на нейросети и разрабатывает защиту от потенциальных угроз. Например, Антиробот Яндекса защищает ИИ-сервисы от DDoS-атак, а центр мониторинга выявляет угрозы и анализирует подозрительную активность в инфраструктуре. Также Яндекс регулярно проводит внутренние аудиты для проверки защищённости сервисов.

Об «Охоте за ошибками»

«Охота за ошибками» — постоянная программа Яндекса по премированию этичных хакеров, специалистов по компьютерной безопасности. Она помогает усиливать безопасность и надёжность сервисов. В 2012 году Яндекс первым в России запустил подобную программу. Список ошибок и уязвимостей для «Охоты», а также размеры наград за их обнаружение можно посмотреть на сайте.