Точность ответов ChatGPT-4 за несколько месяцев упала с 97% до 2,4% — исследование
Ученые из США обнаружили, что бот стал хуже справляться с математическими задачами
Команда исследователей из Стэнфордского университета и Калифорнийского университета в Беркли выяснила, что точность ответов платной версии ChatGPT стремительно упала.
Ученые обнаружили, что если в марте текущего года ChatGPT-4 решал математические задачи с точностью в 97,6%, то к июню цифра критически снизилась до 2,4%.
При этом корректность ответов предыдущей версии GPT-3.5 лишь растет. Если в марте точность математических расчетов составляла 7,4%, то в июне она возросла до 86,8%.
Помимо математических вычислений ученые проанализировали динамику точности работы AI-моделей в области генерации кода, визуального мышления и с точки зрения ответов на деликатные или опасные вопросы.
Изменились показатели GPT-4 при ответах на опасные вопросы, в июне бот предоставил меньше ответов, чем в марте. При этом обе версии в июне перестали разъяснять, почему не могут ответить на тот или иной вопрос. Еще в марте пользователи получали развернутое разъяснение.
Кроме того, увеличилось число ошибок при генерации программного кода. Если в марте GPT-4 выполнял 50% из 50 поставленных задач, то в июне смог реализовать только 10%. Аналогичная тенденция отмечается и в версии GPT-3.5.
Одно из возможных объяснений состоит в том, что июньские версии постоянно добавляли в свои генерации дополнительный текст, не относящийся к коду.
В июле OpenAI, разработавшая ChatGPT, предоставила доступ к API последней версии языковой модели GPT-4. Саму версию компания разработала еще в марте.
Фото на обложке: Caprieleeeh /
-
Искусственный интеллект Экономика суверенитета: как финансовый сектор, промышленность и ретейл монетизируют новые технологии 28 апреля 2026, 17:00
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Искусственный интеллект ИИ-сленг в 2026 году: датасет, лосс, RAG и ещё 50 терминов — это уже базовый минимум индустрии 08 февраля 2026, 08:00
-
Искусственный интеллект Нейросети на «русском» — Алиса AI, ГигаЧат и другие: зачем бизнесу свой ИИ в 2026-м 30 января 2026, 20:00
-
IT Мессенджер imo в России в 2026 году: где скачать, как установить и начать пользоваться 09 апреля 2026, 19:38
-
Деньги Налоговый вычет через личный кабинет в 2026 году: пошаговая инструкция 24 апреля 2026, 21:57
-
Бизнес Маркировка товаров: полный гайд на 2026 год 20 марта 2026, 09:16
-
Бизнес Российский медтех: замедление телемедицины, рост ИИ и рывок устройств 18 февраля 2026, 16:47
-
Искусственный интеллект 2 из 3 россиян планируют автопутешествие по России на майские: каждый четвёртый организует поездку с помощью ИИ 30 апреля 2026, 11:00
-
IT Выручка российского бигтеха выросла до 8,9 трлн ₽ — почти 80% рынка контролируют 10 компаний 29 апреля 2026, 11:34
-
Реклама В Яндексе доля рекламных бюджетов под управлением ИИ достигла 85% — нейросети генерируют почти каждый третий баннер 28 апреля 2026, 18:21
-
Искусственный интеллект Яндекс опубликовал финансовые итоги за I квартал 2026 года: выручка выросла на 22% — до 372,7 млрд ₽ 28 апреля 2026, 11:10
-
Банки Банки в России будут реже выдавать кредиты рискованным заёмщикам: причина — рост просрочек по ипотеке 30 апреля 2026, 17:30
-
Банки Состояние неопределённости и флоатеры вместо фикса: участники Альфа-Саммита — о рынке капитала в 2026 году 30 апреля 2026, 14:40
-
Тренды Россияне тратят на зарубежный люкс в среднем 53 700 ₽ — чаще всего покупают Gucci и Louis Vuitton 30 апреля 2026, 13:05
-
Банки В Москве проходит Альфа-Саммит — топ-менеджеры обсуждают ключевые вызовы бизнеса и экономики 28 апреля 2026, 10:00
