Исследователи R&D-центра Т-Технологий разработали способ повысить надежность рассуждений больших языковых моделей

28.04.2026 |

Исследователи R&D-центра Т-Технологий разработали новый способ повышения объективности больших языковых моделей (LLM) в решении задач на основе строгой логики. Этот метод позволит обучать модели распознавать неверную оценку решения или ошибочную постановку задачи, не подстраиваться под ожидания пользователя и повысить надежность рассуждений в задачах с противоречивыми условиями.

Открытие поможет сделать более эффективным использование моделей в разработке программного обеспечения, образовательных технологий, аналитики, автоматической проверки решений и др. Метод также может применяться при создании помощников для программистов, систем оценки учебных решений, инструментов корпоративной проверки и везде, где модель должна возражать пользователю, если его решение некорректно.

Новая работа российских исследователей «Склонность больших языковых моделей соглашаться в задачах рассуждения» была представлена на воркшопе по рассуждению больших языковых моделей на конференции ICLR 2026 (уровень А*), которая прошла 23—27 апреля в Рио-де-Жанейро.

Суть открытия

Большие языковые модели используются в сценариях, где необходима логическая корректность ответов: при решении математических задач, проверке программного кода, в аналитических задачах. Чтобы измерить склонность моделей соглашаться, исследователи разработали два подхода. Первый оценивает, насколько меняется проверка готового решения в зависимости от того, задан ли пользователем заранее нейтральный или негативный контекст. Во втором подходе использовались задачи с противоречивыми условиями, где модель должна не дать решение, а обнаружить логическую нестыковку.

Исследование показало, что на практике модели признают правильное решение неверным, если в запросе заранее сказано, что в нем есть ошибка. В другой ситуации модель может пытаться решить задачу с логическим противоречием, вместо того чтобы указать, что условия некорректны или задачу решить невозможно.

В исследовании представлен набор тестов для измерения эффекта в формально проверяемых задачах, который доказал склонность соглашаться у современных протестированных моделей, включая Qwen3-235B-A22B, GPT-OSS-120B и GPT-5.2 (High), DeepSeek-R1-0528, Gemini-2.5-Pro, Claude-Sonnet-4.5-20250929 и Gemini-3-Pro-Preview.

Уникальность метода

Исследование снимает несколько ограничений в изучении надежности больших языковых моделей в задачах рассуждения. Во-первых, исследователи предложили систему оценки склонности соглашаться именно в тех задачах, где корректность ответа модели можно замерить объективно.

Во-вторых, исследование показало, что дополнительное обучение на предпочтениях пользователей не всегда полезно: хотя модель лучше подстраивается под ожидаемый формат ответа, она также начинает чаще соглашаться с неверной оценкой решения или ошибочной постановкой задачи.

В-третьих, предлагается способ снижения эффекта без полного переобучения модели. Для этого были сгенерированы пары примеров — с проявлением склонности соглашаться и без, — а затем использованы steering vectors, чтобы сразу во время вывода скорректировать внутренние представления модели. Это позволило снизить склонность модели соглашаться с предвзятой оценкой решения и повысить надежность рассуждений в задачах с противоречивыми условиями.

Станислав Моисеев, руководитель Центра исследований и разработок Т-Технологий: «Результаты исследования важны для всей индустрии, потому что затрагивают вопрос надежности больших языковых моделей, в том числе самых популярных. Подобные модели все чаще используются в задачах, где недостаточно дать убедительный ответ: нужно рассуждать строго и в какой-то момент даже не согласиться с пользователем. Наша работа предлагает практический способ этот эффект снижать. Очевидный пример, как это работает, — навигатор в машине. Если водитель считает, что нужный поворот направо, хороший навигатор не должен соглашаться с ним просто потому, что так указал человек. Он должен показать правильный маршрут, даже если он не совпадает с ожиданием водителя. С большими языковыми моделями такая же логика: их ценность не в том, чтобы соглашаться, а в том, чтобы помогать находить корректный ответ».