Открытие поможет сделать более эффективным использование моделей в разработке программного обеспечения, образовательных технологий, аналитики, автоматической проверки решений и др. Метод также может применяться при создании помощников для программистов, систем оценки учебных решений, инструментов корпоративной проверки и везде, где модель должна возражать пользователю, если его решение некорректно.
Новая работа российских исследователей «Склонность больших языковых моделей соглашаться в задачах рассуждения» была представлена на воркшопе по рассуждению больших языковых моделей на конференции ICLR 2026 (уровень А*), которая прошла 23—27 апреля в Рио-де-Жанейро.
Суть открытия
Большие языковые модели используются в сценариях, где необходима логическая корректность ответов: при решении математических задач, проверке программного кода, в аналитических задачах. Чтобы измерить склонность моделей соглашаться, исследователи разработали два подхода. Первый оценивает, насколько меняется проверка готового решения в зависимости от того, задан ли пользователем заранее нейтральный или негативный контекст. Во втором подходе использовались задачи с противоречивыми условиями, где модель должна не дать решение, а обнаружить логическую нестыковку.
Исследование показало, что на практике модели признают правильное решение неверным, если в запросе заранее сказано, что в нем есть ошибка. В другой ситуации модель может пытаться решить задачу с логическим противоречием, вместо того чтобы указать, что условия некорректны или задачу решить невозможно.
В исследовании представлен набор тестов для измерения эффекта в формально проверяемых задачах, который доказал склонность соглашаться у современных протестированных моделей, включая Qwen3-235B-A22B, GPT-OSS-120B и GPT-5.2 (High), DeepSeek-R1-0528, Gemini-2.5-Pro, Claude-Sonnet-4.5-20250929 и Gemini-3-Pro-Preview.
Уникальность метода
Исследование снимает несколько ограничений в изучении надежности больших языковых моделей в задачах рассуждения. Во-первых, исследователи предложили систему оценки склонности соглашаться именно в тех задачах, где корректность ответа модели можно замерить объективно.
Во-вторых, исследование показало, что дополнительное обучение на предпочтениях пользователей не всегда полезно: хотя модель лучше подстраивается под ожидаемый формат ответа, она также начинает чаще соглашаться с неверной оценкой решения или ошибочной постановкой задачи.
В-третьих, предлагается способ снижения эффекта без полного переобучения модели. Для этого были сгенерированы пары примеров — с проявлением склонности соглашаться и без, — а затем использованы steering vectors, чтобы сразу во время вывода скорректировать внутренние представления модели. Это позволило снизить склонность модели соглашаться с предвзятой оценкой решения и повысить надежность рассуждений в задачах с противоречивыми условиями.
Станислав Моисеев, руководитель Центра исследований и разработок Т-Технологий: «Результаты исследования важны для всей индустрии, потому что затрагивают вопрос надежности больших языковых моделей, в том числе самых популярных. Подобные модели все чаще используются в задачах, где недостаточно дать убедительный ответ: нужно рассуждать строго и в какой-то момент даже не согласиться с пользователем. Наша работа предлагает практический способ этот эффект снижать. Очевидный пример, как это работает, — навигатор в машине. Если водитель считает, что нужный поворот направо, хороший навигатор не должен соглашаться с ним просто потому, что так указал человек. Он должен показать правильный маршрут, даже если он не совпадает с ожиданием водителя. С большими языковыми моделями такая же логика: их ценность не в том, чтобы соглашаться, а в том, чтобы помогать находить корректный ответ».