В России представили первую мультимодальную модель ИИ OmniFusion 1.1
В России представили первую мультимодальную модель ИИ, Институт искусственного интеллекта AIRI разработал OmniFusion 1.1 и открыл исходный код к ней. Языковую модель, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, можно использовать в том числе в коммерческих целях. Об этом рассказали в пресс-службе AIRI.
OmniFusion представляет собой мультимодальную модель искусственного интеллекта. Она предназначена для расширения возможностей привычных систем обработки языка за счет изображений, а в будущем –– аудио, 3D- и видеоматериалов.
Специфика мультимодальной OmniFusion 1.1
В основе архитектуры модели — метод совмещения заранее обученной большой LLM и специальных визуальных энкодеров, которые кодируют информацию на изображении в числовой вектор. Он называется эмбеддинг.
Иностранными аналогами OmniFusion являются такие продукты, как LLaVA, Gemini, GPT4-Vision и китайские Qwen, DeepSeek и LVIS.
Возможности OmniFusion 1.1
Модель распознает и описывает изображение. Так, пользователь может, например, загрузить фото, а система выдаст рецепт изображенного на нем блюда. Также можно проанализировать карту помещений или узнать, как собрать устройство по фото его отдельных комплектующих.
Также стандартно модель распознает текст. При этом она умеет решать логические задачи. С помощью модели можно решить математический пример, написанный на доске, или распознать формулу и получить их представления в формате LaTeX.
Как обучали OmniFusion 1.1
Качество модели оценивали в разных вариантах ее архитектуры при помощи восьми бенчмарков (специализированные тексты для анализа эффективности AI-моделей в ответах на визуальные вопросы).
Тесты показали, что OmniFusion показывает результаты в основных бенчмарках, не уступающие зарубежным конкурентам.
Открытый исходный код модели опубликован на платформе Github.
Фото на обложке: Natali _ Mis /
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Популярное
Материалы по теме
-
Пройти курс «Как построить личный бренд»
- 1 Американский стартап пытался воскресить мамонта и создал шерстистую мышь Colossal Biosciences обещает возродить детеныша мамонта к 2028 году 04 марта 18:52
- 2 Китайский прототип квантового компьютера оказался в миллион раз мощнее разработки Google Скачок в мощности произошел после оптимизации процессора и конфигурации проводов 04 марта 15:34
- 3 Microsoft представила новый чип, который ускорит приход эры квантовых вычислений Полноценные квантовые компьютеры появятся в течение нескольких лет, уверены в Microsoft 20 февраля 22:06
- 4 Исследование Microsoft: нейросети негативно влияют на критическое мышление людей Чрезмерное использование ИИ снижает когнитивные способности 12 февраля 12:27