Истории 01 декабря 2021

Google обучает ИИ «видеть» и «слышать» одновременно — вот почему это важно

Истории 01 декабря 2021

Артём Маилян

Редактор рубрики «Истории»

Артём Маилян

Команда ученых из Google Research, Института Алана Тьюринга и Кембриджского университета недавно представила новый современный мультимодальный трансформер для ИИ, который позволяет алгоритмам анализировать данные сразу из нескольких потоков. Система распознаёт информацию по тому же принципу, что наши глаза и уши.

Традиционно для анализа требовались разные алгоритмы и датасеты, но разработка позволяет использовать универсальный подход и решить проблему совместимости.

Подписаться на RB.RU в Telegram

Вы наверняка слышали о системах ИИ-трансформеров, таких как GPT-3. Их главная задача состоит в том, что они обрабатывают и категоризируют данные из определенного вида медиапотока.

Сейчас при необходимости проанализировать данные из видео потребуется несколько моделей ИИ, работающих одновременно.

Нужна модель, обученная на видео, и другая — обученная на аудиоклипах. Дело в том, что для обработки этих каналов требуются разные алгоритмы. Отметим, что уши и глаза человека являются совершенно разными, хотя и взаимосвязанными системами.

В своей статье исследователи отмечают:

«Несмотря на последние достижения в различных областях и задачах, современными методами можно обучить только отдельные модели с различными параметрами для каждой задачи. В данной работе мы представляем простой, но эффективный метод обучения единой унифицированной модели, который позволяет достичь инновационных результатов в классификации изображений, видео и аудио».

Важно, что команде удалось не просто создать мультимодальную систему, способную одновременно решать связанные задачи, но и превзойти существующие модели, которые предназначены для одной задачи.

Исследователи назвали свою систему PolyVit.

В статье, посвященной разработке, отмечается, что одновременное обучение различным задачам на одной модальности позволило повысить точность выполнения каждой отдельной задачи и достичь самых современных результатов на пяти стандартных датасетах для классификации видео и аудио.

Кроме этого, благодаря одновременному обучению PolyViT на нескольких модальностях и задачах становится еще более эффективной по параметрам и обучается на выборках, которые обобщаются по разным областям.

Более того, исследователям удалось продемонстрировать, что реализовать одновременное обучение просто и практично, поскольку не нужно настраивать гиперпараметры для каждой комбинации датасетов, а можно просто адаптировать параметры, полученные при стандартном обучении на одной задаче.

Этот шаг может стать очень важным для мира бизнеса. Одна из самых больших проблем, с которой сталкиваются компании, стремящиеся внедрить стеки ИИ, — это совместимость. Существуют буквально сотни решений для машинного обучения, но нет никаких гарантий, что они будут работать вместе.

В результате появляются два подхода к внедрению алгоритмов:

монопольный — когда руководители по технологиям вынуждены выбирать одного поставщика ради совместимости,
смешанный — из-за проблем совместимости он приносят больше головной боли, чем того стоит.

Парадигма, при которой мультимодальные системы станут нормой, станет спасением для измученных системных администраторов.

Конечно, это раннее исследование, опубликованное как препринт, поэтому нет оснований полагать, что в ближайшее время мы увидим его широкое применение.Но это большой шаг к созданию универсальной системы классификации

Источник.

Фото на обложке: Elle Aon / Shutterstock