Истории / Искусственный интеллект

Как работает компьютерное зрение и почему оно не всегда объективно

Это зависит от данных

12 августа 2021, 19:02

5 минут

Как работает компьютерное зрение и почему оно не всегда объективно

Искусственный интеллект

Технологии

Автор:

Елена Лиханова

Компьютерное зрение используется в самых разных инструментах — от Snapchat до спортивных трансляций, покупок на базе AR, медицинского анализа и автономного вождения. Однако технологию все чаще критикуют за предвзятость, и эта проблема существует почти так же долго, как и она сама.

Не секрет, что ИИ проник во многие сферы жизни. Однако мы до сих пор не всегда понимаем, когда взаимодействуем с ним, и какие методы он использует. Как правило, в инструментах, связанных с фото или видео, применяется компьютерное зрение.

Компьютерное зрение — это область ИИ, в частности, машинного обучения. Если ИИ позволяет машинам «думать», то компьютерное зрение помогает им «видеть». В техническом плане это позволяет распознавать, понимать и реагировать на визуальную информацию, например, фото или видео.

За последние годы компьютерное зрение стало основным драйвером ИИ. Технология широко используется во многих сферах, в том числе производстве, онлайн-торговле, сельском хозяйстве, автомобилестроении и медицине.

По оценкам, к 2022 году мировой рынок компьютерного зрения вырастет до $48,6 млрд. Еще в 2015 году он составлял всего $6,6 млрд.

История компьютерного зрения в целом повторяет историю ИИ: медленный старт, полный технических препятствий, за ним — взрывной рост, подкрепленный огромными объемами данных, после — быстрое распространение, и, наконец, озабоченность по поводу предвзятости и использования технологии. Разберемся, как оно работает, как используется, с какими проблемами справляется и какие ему еще предстоит решить.

Как работает компьютерное зрение

Технология позволяет компьютерам выполнять разнообразные задачи.

Сегментация изображений (разделяет картинку на части и изучает каждую) и распознавание образов (находит повторы визуальных стимулов между изображениями).
Классификация объектов (сортирует объекты, обнаруженные на изображении), отслеживание объектов (находит и отслеживает движущиеся объекты на видео) и обнаружение объектов (ищет и идентифицирует конкретные объекты на изображении).
Распознавание лиц — усовершенствованная форма обнаружения объектов, которая может находить и идентифицировать человеческие лица.

Как упоминалось выше, компьютерное зрение — подраздел машинного обучения, и оно аналогичным образом использует нейросети, чтобы сортировать огромные объемы данных, пока не поймет, на что смотрит.

Конкретный пример использования компьютерного зрения — задача на разделение изображений мороженого и пиццы с пепперони. Система искусственного интеллекта получает множество фотографий с этими продуктами. Затем компьютер пропускает изображения через несколько уровней обработки, из которых состоит нейросеть, чтобы шаг за шагом отличить мороженое от пиццы.

Первые уровни оценивают базовые свойства, например линии или края между светлыми и темными частями изображений. Последующие уровни изучают более сложные детали — формы или даже грани.

Это работает, поскольку системы компьютерного зрения интерпретирует изображения или видео как группы пикселей, каждому из которых присвоено цветовое значение. Эти метки используются как входные данные, которые перерабатывает система при перемещении изображения по уровням нейросети.

Развитие компьютерного зрения

Как и машинное обучение, компьютерное зрение появилось в 1950-х годах. Тогда вычислительные мощности и доступ к данным были ограничены, поэтому требовалось проводить много операций вручную, а технология действовала с ошибками. Но это уже напоминало известное нам компьютерное зрение.

Еще в 1959 году было обнаружено, как эффективно первичная обработка учитывает основные свойства изображения, например линии или края. В том же году также была изобретена технология , которая позволила преобразовывать картинки в сетки чисел. Этот двоичный язык был понятен машинам, и они могли воспринимать записанные им изображения.

В течение следующих нескольких десятилетий новые технические достижения сделали компьютерное зрение возможным.

Появилась технология компьютерного сканирования, которая впервые позволила машинам оцифровывать изображения, а затем — превращать двумерные изображения в трехмерные формы.
В 1974 году создан алгоритм распознавания объектов, который мог воспринимать текст
К 1982 году уже начало формироваться компьютерное зрение. В том же году один исследователь усовершенствовал иерархию обработки, а другой разработал раннюю версию нейросети.

К началу 2000-х гг. распознавание объектов вызывало особенно большой интерес. В 2010 году был опубликован ImageNet, набор с миллионами размеченных изображений, который дал толчок к развитию компьютерного зрения. Внезапно любой желающий мог получить доступ к огромному количеству готовых к использованию данных.

Большинство существующих систем компьютерного зрения были созданы на базе ImageNet. Но они по-прежнему содержали много ошибок. Все изменилось в 2012 году, когда модель AlexNet, которая использовала ImageNet, значительно снизила частоту ошибок при распознавании изображений, открыв современную область компьютерного зрения.

Предвзятость и проблемы компьютерного зрения

Доступность ImageNet одновременно помогла и нанесла ущерб столь влиятельной сегодня технологии. Это иллюстрирует популярную фразу в области дата-сайенс и ИИ: «мусор на входе, мусор на выходе».

Стремясь быстрее воспользоваться набором данных, исследователи не задумывались, откуда появились изображения, кто их разметил, почему они размечены таким образом, каких изображений или меток не хватает, и как это отразится на работе, не говоря уже о влиянии на сообщество и жизни людей. Лишь в 2019 году было выявлено, как много предвзятости и некорректных меток присутствует в датасете.

Исследователь ИИ Кейт Кроуфорд в своей книге «Атлас ИИ» отмечает, что внутри ImageNet встречались довольно оскорбительные и вредные категории, содержащие дискриминацию по полу, расе, возрасту или физическим возможностям. Сейчас уже ведется работа над тем, чтобы исключить предвзятость из датасета. Его критикуют и за нарушение приватности, поскольку люди, чьи снимки были включены, не давали согласие на использование и разметку фото.

Фото в тексте: marvent / Shutterstock

Предвзятость данных и алгоритмов — одна из ключевых проблем для ИИ в целом, но ее влияние особенно легко увидеть в некоторых приложениях, использующих компьютерное зрение.

Например, известно, что технология распознавания лиц позволяет неверно идентифицировать темнокожих, но ритейлеры все чаще используют ее в магазинах. Полиция США также широко ее применяет, что стало поводов для протестов и законодательного регулирования в нескольких городах и штатах.

Правила в целом являются новой проблемой для компьютерного зрения (и ИИ в целом). Ясно, что их будет больше (особенно если большая часть мира последует по пути Европейского союза), но пока точно неизвестно, как будут выглядеть такие правила. Поэтому исследователям и компаниям пока неясно, на что ориентироваться в данный момент.

Компьютерное зрение также сталкивается с некоторыми техническими проблемами. Его ограничивает оборудование, в том числе камеры и датчики. Кроме того, системы компьютерного зрения очень сложно масштабировать. И, как и все типы ИИ, они требуют огромных вычислительных мощностей (что дорого) и данных.

Как показывает вся история компьютерного зрения, хорошие данные, которые являются репрезентативными, беспристрастными и этично собранными, трудно найти — и невероятно утомительно размечать.

Источник.

Фото на обложке: Nirat.pix / Shutterstock

Подписаться на телеграм-канал