В России представили первую мультимодальную модель ИИ OmniFusion 1.1
В России представили первую мультимодальную модель ИИ, Институт искусственного интеллекта AIRI разработал OmniFusion 1.1 и открыл исходный код к ней. Языковую модель, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, можно использовать в том числе в коммерческих целях. Об этом рассказали в пресс-службе AIRI.
OmniFusion представляет собой мультимодальную модель искусственного интеллекта. Она предназначена для расширения возможностей привычных систем обработки языка за счет изображений, а в будущем –– аудио, 3D- и видеоматериалов.
Специфика мультимодальной OmniFusion 1.1
В основе архитектуры модели — метод совмещения заранее обученной большой LLM и специальных визуальных энкодеров, которые кодируют информацию на изображении в числовой вектор. Он называется эмбеддинг.
Иностранными аналогами OmniFusion являются такие продукты, как LLaVA, Gemini, GPT4-Vision и китайские Qwen, DeepSeek и LVIS.
Возможности OmniFusion 1.1
Модель распознает и описывает изображение. Так, пользователь может, например, загрузить фото, а система выдаст рецепт изображенного на нем блюда. Также можно проанализировать карту помещений или узнать, как собрать устройство по фото его отдельных комплектующих.
Также стандартно модель распознает текст. При этом она умеет решать логические задачи. С помощью модели можно решить математический пример, написанный на доске, или распознать формулу и получить их представления в формате LaTeX.
Как обучали OmniFusion 1.1
Качество модели оценивали в разных вариантах ее архитектуры при помощи восьми бенчмарков (специализированные тексты для анализа эффективности AI-моделей в ответах на визуальные вопросы).
Тесты показали, что OmniFusion показывает результаты в основных бенчмарках, не уступающие зарубежным конкурентам.
Открытый исходный код модели опубликован на платформе Github.
Фото на обложке: Natali _ Mis /
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Популярное
Налог на прибыль организаций
Материалы по теме
-
Пройти курс «Как преуспеть на Ozon»
- 1 В России может появиться национальный суперкомпьютерный центр Правительству поручено рассмотреть до середины июля возможность его создания 21 апреля 19:06
- 2 Ученые МГУ и Neiry разработали технологию для общения с животными Нейроинтерфейс смог корректно отвечать на вопросы исследователей 17 апреля 09:51
- 3 Ученые совершили прорыв в сжатии языковых моделей Появилась возможность запускать LLM на смартфонах и ноутбуках 11 апреля 14:16
- 4 ВШЭ: науке нужны инвестиции, чтобы Россия осталась в топ-10 стран по числу исследований и разработок Если ситуация не изменится, мы потеряем девятое место в рейтинге 05 апреля 18:22