Точность ответов ChatGPT-4 за несколько месяцев упала с 97% до 2,4% — исследование
Ученые из США обнаружили, что бот стал хуже справляться с математическими задачами
Команда исследователей из Стэнфордского университета и Калифорнийского университета в Беркли выяснила, что точность ответов платной версии ChatGPT стремительно упала.
Ученые обнаружили, что если в марте текущего года ChatGPT-4 решал математические задачи с точностью в 97,6%, то к июню цифра критически снизилась до 2,4%.
При этом корректность ответов предыдущей версии GPT-3.5 лишь растет. Если в марте точность математических расчетов составляла 7,4%, то в июне она возросла до 86,8%.
Помимо математических вычислений ученые проанализировали динамику точности работы AI-моделей в области генерации кода, визуального мышления и с точки зрения ответов на деликатные или опасные вопросы.
Изменились показатели GPT-4 при ответах на опасные вопросы, в июне бот предоставил меньше ответов, чем в марте. При этом обе версии в июне перестали разъяснять, почему не могут ответить на тот или иной вопрос. Еще в марте пользователи получали развернутое разъяснение.
Кроме того, увеличилось число ошибок при генерации программного кода. Если в марте GPT-4 выполнял 50% из 50 поставленных задач, то в июне смог реализовать только 10%. Аналогичная тенденция отмечается и в версии GPT-3.5.
Одно из возможных объяснений состоит в том, что июньские версии постоянно добавляли в свои генерации дополнительный текст, не относящийся к коду.
В июле OpenAI, разработавшая ChatGPT, предоставила доступ к API последней версии языковой модели GPT-4. Саму версию компания разработала еще в марте.
Фото на обложке: Caprieleeeh /
-
Бизнес Екатерина Лапшина: «У меня всегда был чуть больший аппетит к риску» 07 мая 2026, 16:10
-
Искусственный интеллект Экономика суверенитета: как финансовый сектор, промышленность и ретейл монетизируют новые технологии 28 апреля 2026, 17:00
-
Личное Фёдор Овчинников: «Пять месяцев в тундре — путешествие в другое измерение» 14 мая 2026, 13:18
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Искусственный интеллект ИИ-сленг в 2026 году: датасет, лосс, RAG и ещё 50 терминов — это уже базовый минимум индустрии 08 февраля 2026, 08:00
-
Искусственный интеллект Нейросети на «русском» — Алиса AI, ГигаЧат и другие: зачем бизнесу свой ИИ в 2026-м 30 января 2026, 20:00
-
Банки Владимир Скворцов: «Наша задача — снизить страховые риски клиента и быстро выплатить, если что-то случится» 19 мая 2026, 16:00
-
Искусственный интеллект Нам не нужен свой OpenAI: где России искать эффект от ИИ и что для этого делать 19 мая 2026, 11:00
-
Искусственный интеллект Google внедрил ИИ в поисковую строку — это одно из самых масштабных обновлений компании за последние 25 лет 20 мая 2026, 19:45
-
Искусственный интеллект Греф заявил о планах Сбера перейти на китайские чипы для GigaChat: ранее компания использовала микросхемы от Nvidia 20 мая 2026, 19:00
-
Искусственный интеллект Google представила новые умные очки — устройства получат аудиоуправление на базе ИИ Gemini 20 мая 2026, 16:15
-
Искусственный интеллект Яндекс открыл интернет-магазинам доступ к продажам через Алису AI — клиенты смогут оформлять покупки в один клик 20 мая 2026, 17:00
-
Искусственный интеллект Как ИИ используют для создания новых продуктов и ингредиентов: в Москве пройдёт Deep Food Tech — 2026 14 мая 2026, 17:31
-
Искусственный интеллект Алиса AI от Яндекса стала лучше генерировать русскоязычный текст на изображениях — качество выросло в 3 раза 19 мая 2026, 11:20
-
Искусственный интеллект «Меры поддержки доказали эффективность»: Михаил Мишустин — о сохранении льгот для российского ПО и внедрении ИИ 18 мая 2026, 14:45
-
Банки ЦБ ужесточит регулирование кредитных рисков для всех банков — лимит на одного заёмщика снизят до 25% капитала 20 мая 2026, 21:00
