Если вы уже устали от новостей про DeepSeek, то вот свежий повод для обсуждений — Alibaba представила новую модель Qwen2.5-Max. Это новая крупномасштабная языковая модель от Alibaba Cloud. Китайские компании продолжают осваивать рынок ИИ, составляя конкуренцию таким гигантам как OpenAI, Microsoft и Google.
Кирилл Пшинник, сооснователь и СЕО онлайн-университета «Зерокодер», попробовал новинку и делится впечатлениями в материале RB.RU.
Содержание:
Что за Qwen2.5-Max
Нейросеть построена на архитектуре Mixture-of-Experts (MoE). Она прошла предварительное обучение на 20+ триллионах токенов и дополнительно дообучена с использованием методов контролируемого обучения (SFT) и обучения с подкреплением на основе обратной связи от человека (RLHF).
На первый взгляд Qwen выглядит как привычный чат-бот, интерфейс интуитивно понятен.
Сервис доступен в России, регистрация проходит через почту/пароль или аккаунт Gmail.
Модель уже интегрирована в API Alibaba Cloud, и его можно использовать на территории России.
Чем Qwen2.5-Max отличается от других нейросетей?
В тестах, таких как MMLU-Pro, LiveCodeBench, LiveBench и Arena-Hard, Qwen2.5-Max продемонстрировала превосходство над моделями DeepSeek V3, GPT-4o и Claude-3.5-Sonnet.
Но прежде, чем делать выводы о том, стоит ли переходить на новую китайскую нейросеть в работе, давайте разберемся, что именно измеряют бенчмарки. В исследовании упоминаются тесты MMLU-Pro, LiveCodeBench, LiveBench и Arena-Hard. Они оценивают способности моделей в логике, математике и программировании.
Источник инфографики: официальный сайт Qwen
Источник инфографики: официальный сайт Qwen
Что тестируют бенчмарки?
-
MMLU (Massive Multitask Language Understanding) и MMLU-Pro — это тесты, проверяющие умение модели рассуждать. MMLU-Pro включает более 12 тыс. вопросов из академических экзаменов и учебников по 14 дисциплинам, включая биологию, бизнес, химию, экономику, право, философию, математику и другие.
Проще говоря, этот тест оценивает знание предметов и способность делать логические выводы на их основе. - LiveCodeBench — бенчмарк для оценки навыков программирования. Он постоянно обновляется, собирая задачи с LeetCode, AtCoder и CodeForces, что делает тесты более актуальными.
- Arena-Hard — автоматизированная система оценки качества ответов, использующая метод LLM-as-a-Judge (модель как судья). Она показывает высокую корреляцию с человеческими оценками и помогает объективно сравнивать нейросети.
Часто модели сравнивают именно по этим бенчмаркам. Однако важно помнить, что принцип работы трансформеров заключается в предсказании следующего токена (слова). Например, когда мы спрашиваем у ChatGPT:
Сколько будет 2+2?
Она выдает «4» не потому, что просчитала ответ, а потому что в ее обучающей выборке миллионы раз встречался этот вопрос с таким ответом. Это легко проверить, если попросить ее сложить два больших числа — модель часто ошибается.
Как видно, нейросеть на базе GPT-4o ошибласьв вычислениях
Точно так же ошибается и Qwen2.5-Max
Почему бенчмарки не всегда показательны?
Эта проблема была очевидна давно. Поэтому в 2023 году OpenAI добавила в ChatGPT плагины, позволяющие подключать его к сторонним сервисам, таким как Wolfram Alpha для сложных вычислений и интернет-поиск для актуальной информации.
Позже OpenAI изменила стратегию: убрала плагины, добавила поиск в интернете, добавила исполнение Python-кода прямо в чате для математических задач.
Однако важный нюанс: этот функционал есть только в чат-боте ChatGPT, но его нет в модели GPT-4o, доступной через API.
А в бенчмарках сравниваются именно модели. То есть, когда мы видим таблицы с результатами тестов, это не всегда отражает реальный пользовательский опыт, ведь в реальной жизни нейросети используют не только модель, но и дополнительные сервисы.
Qwen2.5-Max против DeepSeek-V3
В сравнении с DeepSeek-V3 новая модель от Alibaba показывает легкое превосходство в тестах — разница составляет несколько пунктов.
Однако в реальной работе это почти не ощущается. Например:
- В текстовых задачах Qwen2.5-Max формально сильнее, но субъективно уступает ChatGPT и DeepSeek.
- При написании текстов модель показала себя хуже, чем ChatGPT и DeepSeek.
- Qwen2.5-Max активно модерирует свои ответы, особенно на чувствительные темы.

А вот DeepSeek более гибкий в «чувствительных» вопросах
Хотя бенчмарки дают количественные метрики, они не всегда отражают реальное качество работы модели. На практике решает не только уровень модели, но и инструменты, которые ее дополняют.
Так что, если вы выбираете нейросеть для реальной работы, ориентироваться стоит не только на цифры, но и на конечный пользовательский опыт.
Модели с размышлением
В отличие от Qwen2.5-Max, модели o1 от OpenAI и R1 от китайской компании DeepSeek представляют собой значительный шаг вперед в развитии искусственного интеллекта, особенно в области моделирования процессов размышления. Эти модели созданы для решения сложных задач, требующих глубокого анализа и логических рассуждений.
OpenAI o1 решает задачу без использования Python, но при этом тратит около 5 минут, тщательно анализируя условия
DeepSeek R1 справляется всего за 18 секунд, при этом процесс ее размышлений виден пользователю. Этот новый подход делает взаимодействие с моделью более прозрачным: сначала нейросеть анализирует задачу с разных сторон, затем предлагает несколько вариантов решения и только после этого формирует окончательный ответ.
Стоит переходить на Qwen2.5-Max
Выход любой новой нейросети — это хорошая новость. Чем больше доступных моделей, тем больше выбор у пользователей.
Более того, Qwen2.5-Max распространяется в формате open source.
Это позволяет компаниям скачивать, развертывать и обучать модель на своих данных, адаптируя под конкретные задачи. Важно отметить, что Китай быстро ворвался в гонку ИИ и сразу выбился в лидеры.
Чем Qwen2.5-Max лучше или хуже
Если вы пользуетесь ChatGPT Plus, переход на Qwen2.5-Max вряд ли принесет ощутимые преимущества. Более того, у модели нет ряда привычных функций, а информация может иметь «китайский национальный окрас».
Но Если у доступа к платному ChatGPT нет, Qwen2.5-Max может быть достойной альтернативой российским GigaChat и YandexGPT.
Рекомендую попробовать DeepSeek. Она дает более качественные ответы, опережает GPT-4o и Qwen2.5-Max в бенчмарках и ощутимо лучше в реальной работе. DeepSeek доступна бесплатно в России, не требует сложной регистрации и работает без VPN и обходных методов.
Фото на обложке: J Studios / Getty Images
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
-
Пройти курс «Просто о сложном: первые шаги в бизнесe»
- 1 Alibaba представила модель ИИ, которая «превосходит» DeepSeek и GPT-4o
- 2 Alibaba продаст долю в китайском операторе сети гипермаркетов Sun Art со скидкой
- 3 IT-компании Китая начали переманивать специалистов по ИИ из Кремниевой долины
- 4 Китайская Alibaba ужесточила условия для российского бизнеса