Точность ответов ChatGPT-4 за несколько месяцев упала с 97% до 2,4% — исследование
Ученые из США обнаружили, что бот стал хуже справляться с математическими задачами
Команда исследователей из Стэнфордского университета и Калифорнийского университета в Беркли выяснила, что точность ответов платной версии ChatGPT стремительно упала.
Ученые обнаружили, что если в марте текущего года ChatGPT-4 решал математические задачи с точностью в 97,6%, то к июню цифра критически снизилась до 2,4%.
При этом корректность ответов предыдущей версии GPT-3.5 лишь растет. Если в марте точность математических расчетов составляла 7,4%, то в июне она возросла до 86,8%.
Помимо математических вычислений ученые проанализировали динамику точности работы AI-моделей в области генерации кода, визуального мышления и с точки зрения ответов на деликатные или опасные вопросы.
Изменились показатели GPT-4 при ответах на опасные вопросы, в июне бот предоставил меньше ответов, чем в марте. При этом обе версии в июне перестали разъяснять, почему не могут ответить на тот или иной вопрос. Еще в марте пользователи получали развернутое разъяснение.
Кроме того, увеличилось число ошибок при генерации программного кода. Если в марте GPT-4 выполнял 50% из 50 поставленных задач, то в июне смог реализовать только 10%. Аналогичная тенденция отмечается и в версии GPT-3.5.
Одно из возможных объяснений состоит в том, что июньские версии постоянно добавляли в свои генерации дополнительный текст, не относящийся к коду.
В июле OpenAI, разработавшая ChatGPT, предоставила доступ к API последней версии языковой модели GPT-4. Саму версию компания разработала еще в марте.
Фото на обложке: Caprieleeeh /
-
Партнёрский материал Альфа-Банк подвёл итоги первой программы для импортёров: шесть компаний получили гранты по 1 млн ₽ 26 июня 2026, 09:44
-
Личное Дарио Амодеи. Как обыграть OpenAI и создать самый дорогой ИИ-стартап в мире 16 июня 2026, 12:05
-
Искусственный интеллект «Мы знаем 50 миллионов книг через их описания, а не содержание»: зачем Ленинке искусственный интеллект 26 июня 2026, 11:00
-
Бизнес «Русские шрифты скачать». Как зарабатывают шрифтовые студии в России 03 июля 2026, 12:00
-
Тренды Можно ли купить GTA 6 в России 02 июля 2026, 21:45
-
Личное Ли Шуфу. Как мальчик из китайской деревни основал Geely и купил Volvo 01 июля 2026, 20:17
-
Бизнес Не из гаража, а почти из холодильника: история Geely 01 июля 2026, 14:58
-
Технологии От гранта до контракта: как формируется симбиоз бизнеса и науки 03 июля 2026, 13:37
-
Технологии iPhone 17 стал самым востребованным смартфоном в России — но по числу проданных устройств лидирует Redmi 04 июля 2026, 19:00
-
Искусственный интеллект МТС Линк запустил маркетплейс ИИ-агентов — пользователи уже могут приобрести цифрового помощника для HR и SMM 03 июля 2026, 12:15
-
Деньги Активы фондов целевого капитала в России достигли 204 млрд ₽ — большинство поддерживают образование и науку 04 июля 2026, 16:00
-
Деньги Новые машины в РФ за полгода прибавили 3% к стоимости: Lada пока держит старую цену — китайские марки дорожают 04 июля 2026, 13:00
-
Деньги 38% москвичей смирились со стрессом из-за денег — при этом каждый четвёртый прячет деньги под подушкой 04 июля 2026, 10:00
-
Автомобили Lada Granta — лидер по продажам на авторынке в России в июне 2026-го: среди иномарок на первом месте Haval Jolion 03 июля 2026, 20:00
-
Банки На рынке облигаций впервые фиксируют разгон цен — ЦБ может ввести ограничения для торгов бумагами 03 июля 2026, 19:00
-
Бизнес Ozon осенью 2026 года запустит собственный брокерский сервис — сначала он появится в приложении Озон Банка 03 июля 2026, 18:45
