Играя в версию знаменитой аркады Ms. Pac-Man, выпущенную для одной из первых домашних консолей Atari 2600, искусственный интеллект смог набрать максимальное количество возможных очков – достижение, которое прежде было немыслимо. Результат умной машины составил 999 990 баллов, тогда как лучший результат, поставленный человеком равен 266 360 баллам.
При обучении искусственного интеллекта использовался метод под названием «гибридная архитектура наград». Он заключается в том, что 150 специальным программам-агентам назначается конкретная задача: избегать призраков, правильно передвигаться, собирать гранулы и так далее. С помощью программ-агентов искусственный интеллект самостоятельно распределял приоритеты для достижения максимального результата.
Версия игры Ms. Pac-Man для Atari 2600 использовалась неспроста. Код игры в ней менее предсказуем, чем в оригинальной версии. Стратегией разработки стало использование перспективного подхода обучения с подкреплением (reinforcement learning), который предполагает, что алгоритму даются для обработки примеры желаемого поведения, и он методом проб и ошибок совершенствуется.
По словам ученых, работавших над проектом, такое достижение внесет вклад в обработку естественного языка, а также потенциально сможет лечь в основу систем детального предсказания покупательского поведения, обусловленного множеством факторов.