Top.Mail.Ru
Истории

Исследование показало, что даже продвинутый ИИ не умеет рассуждать

Истории
Дарья Сидорова
Дарья Сидорова

Редактор направления «Истории»

Дарья Сидорова

Всем известно, что искусственный интеллект может ошибаться и галлюцинировать. Но недавнее исследование Apple выявило еще более существенные недостатки в математических моделях, с помощью которых ИИ «рассуждает».

Ученые несколько раз задавали модели один и тот же вопрос, немного меняя его формулировку. Вместе с этим менялись и ответы модели, особенно если в вопросах использовались числа.

Исследование показало, что даже продвинутый ИИ не умеет рассуждать
  1. Истории

Исследование, опубликованное arxiv.org, показало, что ответы модели значительно меняются, если формулировать по-разному один и тот же вопрос. По мнению ученых, «это ставит под сомнение надежность текущих результатов GSM8K, которые полагаются на одноточечные метрики точности». GSM8K — набор данных, который используется для тестирования моделей. Он включает более 8 тыс. вопросов и ответов по математике уровня начальной школы.

Освободите время и зарабатывайте больше с помощью ИИ! Пройдите курс и получите в подарок лучшие промты для решения бизнес-задач.

Исследователи Apple определили, что разница в производительности может достигать 10%. И даже незначительные изменения в промтах могут серьезно влиять на достоверность ответов модели.


Читайте по теме:

NYT узнала о попытках Microsoft создать замену технологиям OpenAI

Бум ИИ помешал экологам закрыть угольную электростанцию в США


Дело в том, что ИИ полагается не на логические рассуждения, а на распознавание паттернов. Исследование Apple показывает, что если изменить всего несколько неважных слов, это влияет на распознавание паттернов.

Один из примеров — задача по подсчету количества киви, собранных в течение нескольких дней. Исследователи Apple провели контрольный эксперимент, а затем добавили информацию о размере киви.


Освойте курс по ИИ, чтобы повысить личную эффективность, упростить жизнь и автоматизировать бизнес


Llama от Meta* и o1 от OpenAI изменили свои ответы по сравнению с контрольным экспериментом, хотя данные о размере киви не влияли на результат. Проблемы возникли и у GPT-4o.

Большие языковые модели становятся частью нашей жизни, и эти выводы подчеркивают необходимость проверять информацию, которую они предоставляют.

* Meta и входящие в нее Facebook и Instagram признаны экстремистскими организациями, деятельность которых запрещена в РФ.

Источник.

Фото на обложке: Paper Boat Creative / Getty Images

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

FutureFood
Кто производит «альтернативную» еду
Карта