Top.Mail.Ru

В России представили первую мультимодальную модель ИИ OmniFusion 1.1

Новости
Новости
Наталья Гормалева
Наталья Гормалева

Новостной редактор RB.RU

Наталья Гормалева

В России представили первую мультимодальную модель ИИ, Институт искусственного интеллекта AIRI разработал OmniFusion 1.1 и открыл исходный код к ней. Языковую модель, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, можно использовать в том числе в коммерческих целях. Об этом рассказали в пресс-службе AIRI.

В России представили первую мультимодальную модель ИИ OmniFusion 1.1
  1. Новости

OmniFusion представляет собой мультимодальную модель искусственного интеллекта. Она предназначена для расширения возможностей привычных систем обработки языка за счет изображений, а в будущем –– аудио, 3D- и видеоматериалов.

Специфика мультимодальной OmniFusion 1.1

В основе архитектуры модели — метод совмещения заранее обученной большой LLM и специальных визуальных энкодеров, которые кодируют информацию на изображении в числовой вектор. Он называется эмбеддинг.

Иностранными аналогами OmniFusion являются такие продукты, как LLaVA, Gemini, GPT4-Vision и китайские Qwen, DeepSeek и LVIS.

Возможности OmniFusion 1.1

Модель распознает и описывает изображение. Так, пользователь может, например, загрузить фото, а система выдаст рецепт изображенного на нем блюда. Также можно проанализировать карту помещений или узнать, как собрать устройство по фото его отдельных комплектующих.

Также стандартно модель распознает текст. При этом она умеет решать логические задачи. С помощью модели можно решить математический пример, написанный на доске, или распознать формулу и получить их представления в формате LaTeX.

Освободите время и зарабатывайте больше с помощью ИИ! Пройдите курс и получите в подарок лучшие промты для решения бизнес-задач.

Как обучали OmniFusion 1.1

Качество модели оценивали в разных вариантах ее архитектуры при помощи восьми бенчмарков (специализированные тексты для анализа эффективности AI-моделей в ответах на визуальные вопросы).

Тесты показали, что OmniFusion показывает результаты в основных бенчмарках, не уступающие зарубежным конкурентам.

Открытый исходный код модели опубликован на платформе Github.

Фото на обложке: Natali _ Mis / Shutterstock

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

ТЕГИ
Бизнес-нетворкинг
Сервис Русбейс для поиска полезных знакомств и обмена опытом
Присоединиться

Материалы по теме