Наша активность в соцсетях дает огромное количество ценных данных для тренировки алгоритмов машинного обучения. Именно благодаря этому источнику информации Facebook может конкурировать с Google, Amazon и другими техногигантами, использующими искусственный интеллект. Для обучения ИИ важны самые разные данные — даже фотографии питомцев.
По словам исследователей Facebook, компания использует 3,5 миллиарда публичных фотографий в Instagram и 17 тысяч хэштегов, которые указывают пользователи, чтобы научить алгоритмы самостоятельно распределять изображения по категориям. Таким образом, Facebook не нужно нанимать людей, которые будут проставлять теги для обучающих фотографий. Количество фотографий, которое использует компания, в десять раз превышает базу изображений, на которой тренируются алгоритмы Google.
Благодаря таким объемам, Facebook удалось поставить новый рекорд в тестировании распределения фотографий по 1000 категорий, среди которых есть даже кошки, колеса и рождественские носки. Компания утверждает, что алгоритмы изучили миллиард изображений из Instagram и смогли правильно распознать 85,4% фотографий из базы ImageNet. Таким образом они побили рекорд Google, чьи алгоритмы сработали с эффективностью в 83,1%.
Алгоритмы распознавания изображений, используемые для решения реальных проблем, обычно учат выполнять более узкоспециализированные задачи. Исследователи используют базу изображений ImageNet для оценки потенциала машинного обучения системы. С помощью технологии переноса обучения (transfer learning) Facebook смогла настроить свои алгоритмы, работающие с Instagram, для выполнения конкретных заданий.
Фото: Unsplash
Как вы наверняка знаете, хэштеги в Instagram указывают на содержимое фотографии, например, #собаки, #кошки или #закат. Изучая хэштеги, алгоритмы помогают Facebook находить и удалять жестокий или экстремистский контент. Компания уже использует их для определения элементов обнаженной натуры или жестокости на фотографиях и видео.
Манохар Палури руководит специальной группой Facebook, работающей с технологией компьютерного зрения. По его словам, модели, обученные на данных Instagram, могут пригодиться для решения самых разных проблем. Например, они могут улучшить механизмы Facebook, которые напоминают пользователям о старых фотографиях, описывают изображения для лиц с ограниченными зрительными возможностями и определяют сомнительный или нелегальный контент. Если вы не хотите, чтобы ваши фотографии использовались для исследований Facebook, вы можете установить закрытый доступ к вашему аккаунту в Instagram.
Проект Facebook наглядно показывает, что в гонке ИИ, компаниям приходится тратить много денег на технику и электроэнергию. Умные алгоритмы могут проставлять теги к изображениям за секунды, сказал Палури, но их обучение заняло более трех недель, а для обработки базы из 3,5 миллиарда Instagram-фотографий пришлось задействовать 336 мощных графических профессоров. Прошлым летом Google проводила похожий эксперимент — для обучения программы на 300 миллионах фотографий ей понадобилось два месяца (правда, компания использовала гораздо меньше графических процессоров).
Сейчас мощные чипы, разработанные специально для машинного обучения, становятся все более доступными, однако лишь у некоторых компаний есть доступ к таким большим объемам информации и такие огромные вычислительные возможности. Поэтому неудивительно, что недавно Facebook сообщила о том, что планирует производить собственные чипы для машинного обучения, подобно Google и другим техногигантам.
Однако результаты эксперимента Facebook неидеальны. Алгоритмы могут выполнять узкоспециализированные задачи, но все-таки машины еще не могут полностью понимать изображения как люди. Чтобы совершить прорыв в этом направлении понадобятся совершенно новые идеи. «Одним лишь наращиванием масштабов эти проблемы не решить, — прокомментировал Палури. — Нам нужны новые методы».
Материалы по теме:
Как Facebook собирает ваши данные, даже если вы не зарегистрированы в соцсети
Facebook разрабатывает технологию набора текста силой мысли
Как искусственный интеллект помогает расшифровывать древние архивы Ватикана
Как искусственный интеллект и машинное обучение становятся основным приоритетом работы Google
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
-
Пройти курс «Как заработать на продажaх»
- 1 Российские блогеры нарастили доходы в Facebook, Instagram и X до 4,7 млрд рублей
- 2 Релакс-комнаты, смузи-бары и тренажерные залы в офисе: как в кино показывают работу в IT-компаниях
- 3 Мошенники вновь стали продвигать «инвестпроекты» от имени Павла Дурова
- 4 Meta* отчиталась о превышающих прогнозы прибылях в первом квартале 2024 года