Популярные нейросети слишком хорошо думают о человеческой логике: в стратегических играх они ждут от людей более рациональных решений, чем те делают в реальности. К такому выводу пришли исследователи Национального исследовательского университета Высшей школы экономики (НИУ ВШЭ), когда изучали поведение нейросетей в классической игре «Угадай число». Опыт показал, что модели действительно пытаются адаптироваться под реальный уровень игроков, но играют «слишком умно» и проигрывают, приписывая людям больше логики.

ИИ выбирает «слишком умные» стратегии

Суть эксперимента в исследовании НИУ ВШЭ проста: в игре «Угадай число» участники называют число от 0 до 100, а выигрывает тот, кто назвал значение ближе к половине или трети среднего результата всех игроков. Чтобы победить, нужно не только выбрать число, но и понять, как будут действовать остальные.

Учёные НИУ ВШЭ привлекли к игре нейросети ChatGPT-4o и Claude-Sonnet-4. Им давали правила игры и описания участников: от первокурсников-экономистов до специалистов по теории игр. Каждую модель просили объяснить, почему она выбрала именно это число.

Во всех сериях эксперимента НИУ ВШЭ нейросети ChatGPT-4o и Claude-Sonnet-4 предполагали, что люди будут играть логичнее, чем это было в реальных замерах. Поэтому ИИ часто уходил в более «глубокие» стратегии и выбирал меньшие числа — в теории выигрышные, но никак не соответствующие поведению живых игроков.

Модели подстраиваются под разные группы

Несмотря на ошибки, аналитики НИУ ВШЭ отметили, что ИИ демонстрировал способность менять стратегию под профиль соперников. В партиях со специалистами по теории игр модели выбирали числа, близкие к нулю, — такие ответы обычно выигрывают у профессионалов, которые много рассуждают.

В играх с первокурсниками-экономистами ChatGPT-4o и Claude-Sonnet-4 выбирали заметно более высокие значения: такие варианты соответствовало ожиданию, что неопытные игроки не проводят глубокий стратегический анализ. ИИ также реагировал на заданный возраст, опыт и даже эмоциональное состояние участников, если оно описывалось в условиях — например, злость или грусть.

Гибкость, по выводам авторов исследования НИУ ВШЭ, показывает элементы стратегического мышления: модели ChatGPT-4o и Claude-Sonnet-4 не повторяют один шаблон, а меняют логику под ситуацию.

Игры вдвоём оказались проблемой

При этом ИИ не справился с более простой задачей — определением наилучшей стратегии в игре с двумя участниками. Исследователи НИУ ВШЭ отмечают, что нейросети не смогли выбрать оптимальный вариант, хотя ситуация с двумя игроками проще массовой игры.

Заведующий Научно-учебной лабораторией исследований спорта факультета экономических наук НИУ ВШЭ Дмитрий Дагаев по итогам исследования подчеркнул, что сегодня ИИ-модели уже берут на себя многие операции, которые раньше выполняли люди. По его словам, это повышает эффективность, но не отменяет необходимости контролировать, как именно алгоритмы принимают решения. В ситуациях, где требуется выбор стратегии или оценка поведения других участников, важно быть уверенными, что модель действует так, как действовал бы человек, и не уходит в нереалистичные рассуждения.

Контекст

По данным исследователей НИУ ВШЭ, экономисты давно используют игру «Угадай число» как модель реальных рынков: предсказать других участников — главная часть игры. Сейчас ИИ-модели, такие как ChatGPT-4o и Claude-Sonnet-4, тестируют не только на людях, но и на нейросетевых алгоритмах — чтобы понять, насколько ИИ умеет думать «как человек». Но, судя по результатам эксперимента НИУ ВШЭ, ИИ-модели пока уверены, что мы умнее, чем есть на самом деле.