Истории / Искусственный интеллект

Почему алгоритмы машинного обучения начинают ошибаться

Похоже, мы сами учим их этому, используя ошибочные тренировочные данные

16 сентября 2017, 20:31

Почему алгоритмы машинного обучения начинают ошибаться

Автор:

Мы часто слышим о том, как очередной сложный алгоритм искусственного интеллекта начал ошибаться или стал следовать предрассудкам, которым машины не должны быть подвержены. Почему так происходит? В истоках проблемы разбиралась cпециалист по работе с данными Ребекка Нджери (Rebecca Njeri) из Сиэтла.

Недочеты в обучении ML-алгоритмов часто приводят к забавным казусам. Например, айфон моего друга определяет его собаку как кошку. Или вот эти два парня, которые не могут воспользоваться лифтом с голосовым управлением, потому что он не понимает их акцент. Или то, как Amazon Alexa пыталась заказать сотни кукольных домиков, потому что приняла выпуск новостей за голос своего владельца. Еще появились шутки про покупку Whole Foods компанией Amazon, которые тоже отлично передают суть дефективных алгоритмов.

Джефф Безос: Алекса, купи мне что-нибудь из Whole Foods.

Alexa: Покупаю Whole Foods.

Безос: ЧТОООО… а, ладно, валяй.

Ключевой принцип науки о данных

Пока я заканчивала работу над обучающей программой Galvanize Data Science, мне пришлось провести немало времени за изучением такого явления, как ошибка алгоритма.

Я сотрудничала с организацией, которая помогает бывшим заключенным вернуться к обучению и таким образом снижает вероятность повторного совершения преступлений. Мне дали задание рассчитать полную стоимость тюремного заключения, то есть прямые и косвенные затраты на содержание одного человека в исправительном учреждении.

При изучении темы я натолкнулась на статью под названием «Машинная ошибка» (Machine Bias), в которой рассказывается о том, что в алгоритмы оценки рисков заложены расовые предрассудки. Оказалось, что из-за алгоритма, который выдает чрезвычайно много ложных положительных результатов для афроамериканцев, людей отправляют за решетку на более долгий срок и не дают права на досрочное освобождение. Деньги налогоплательщиков уходят на содержание в тюрьмах тех, кто на свободе мог бы служить на благо общества, при этом их дети попали в систему государственной опеки.

Из-за необъективного алгоритма люди теряют работу и связи, а после выхода из тюрьмы вынуждены начинать жизнь сначала. В то же время те, кто более способен на преступление, остается на свободе, потому что алгоритм остается слеп к их предрасположенности к криминалу.

Из-за чего появляются эти ложные положительные и отрицательные ответы и так ли это важно? Для начала давайте определим три термина из Матрицы ошибок: точность, полнота и доля правильных ответов.

Точность

Точность – это процент верно классифицированных положительных ответов. При высокой точности алгоритм правильно размечает максимальное количество верных элементов. К примеру, инструменты медицинской диагностики должны быть очень точными, так как болезнь может осложниться, если ее вовремя не обнаружить.

В ситуации, когда время настолько ценно, нужно минимизировать количество ложных негативных откликов. Точно так же, если в системе вашей компании произойдет сбой, лучше иметь точную модель, чтобы:

устранить проблему,
найти виновника как можно быстрее, чтобы не отрывать сотрудников от исполнения их обязанностей.

Полнота

В свою очередь, полнота – это доля в процентах возвращенных релевантных элементов. К примеру, если искать в гугле книги из серии про Гарри Поттера, возврат будет равен количеству книг, разделенному на семь.

В идеале полнота равна единице. В этом случае нас ждут проблемы, и пользователям придется вручную копаться в нерелевантных результатах поиска. Вдобавок к этому, если пользователь не получит релевантной выдачи, он вряд ли станет что-то покупать, и это навредит финансовым показателям.

Доля правильных ответов

Рассчитывается как доля верных предсказаний от общего количества элементов в процентах. Этот показатель нельзя считать индикатором качества работы модели, особенно если классы разбалансированы. Чтобы работа с точностью, полнотой, долей правильных ответов и матрицами ошибок имела смысл, обучающие данные должны содержать достоверную информацию о населении, и тогда модель сможет обучиться правильно.

n=165	Предсказание: НЕТ	Предсказание: ДА
В действительности: НЕТ	50	10
В действительности: ДА	5	100

Матрицы ошибок

Матрицы ошибок – это основа матриц эффективности затрат, то есть итоговой стоимости. Для бизнеса этот термин понять легко на примере анализа доходов и расходов. Думаю, в случае с дискриминацией одного класса относительно другого все будет сложнее.

Тем не менее эта работа, пожалуй, даже более срочная и важная. Нашим продуктам уделяют все больше внимания, и ошибки будут все более заметными и значимыми для компаний.

Ошибки машинного обучения, вызванные исходными данными

Крупнейший по объему этап работы в машинном обучении – это сбор и очищение данных, на которых будет учиться модель. Преобразование данных – это не так уж интересно, и постоянно думать о формировании отсчетов, выбросах и распределении генеральной совокупности может быть скучным и утомительным делом. Однако затем из-за таких упущений при обработке данных и появляются ошибки алгоритмов.

Каждый день в мире генерируется 2,5 эксабайт информации, так что данных для обучения наших моделей предостаточно. Есть фотографии лиц с разным цветом кожи, в очках и без них, с широкими или узкими, карими или серыми глазами.

Источник: Giphy

Существуют мужские и женские голоса с самыми разными акцентами. Нежелание принимать во внимание эти культурные особенности данных может привести нас к моделям, которые будут игнорировать, и таким образом маргинализировать, определенную демографическую группу. К примеру, тот случай, когда алгоритм от Google по ошибке принимал лица афроамериканцев за горилл. Или подушки безопасности, которые должны защищать пассажиров, едва не убивали женщин в аварийной ситуации. Эти ложноположительные отклики, то есть заключения алгоритма о том, что все в порядке, когда риск действительно есть, могут стоить кому-то жизни.

Человеческий фактор

Недавно одна моя подруга – инженер ПО – узнавала у консультанта по развитию карьеры, стоит ли ей использовать в резюме и LinkedIn гендерно-нейтральное второе имя, чтобы быстрее найти работу. У ее опасений есть основания: в профессиональном мире сознательные и подсознательные гендерные предрассудки очень сильны. Был случай, когда мужчина и женщина на время обменялись почтовыми адресами и заметили, что отношение к ним в переписке значительно изменилось.

Как бороться с ошибками машинного обучения

Между тем, если нам предстоит обучать машины работе с LinkedIn и резюме, то появляется научный инструмент борьбы с предрассудками, победить которые люди не в состоянии. Некорректные алгоритмы оценки рисков появляются из-за обучения моделей по наборам данных, уже содержащим эти перекосы вследствие исторических причин. Это можно исправить, если работать с историческими предрассудками так, чтобы модель учитывала пол, возраст и расу человека без дискриминации какого-либо меньшинства.

Данные, которые содержатся в моделях обучения с подкреплением, могут привести к резкому улучшению или ухудшению результатов. Экспоненциальный рост или падение качества может привести к более надежным беспилотным автомобилям, которые учатся при каждой своей поездке, или же они могут убедить человека из Северной Каролины в существовании в Вашингтоне банды по торговле людьми, которой на самом деле нет.

Почему машины начинают ошибаться? Мы учим их этому, используя ошибочные тренировочные данные.

Источник

Материалы по теме: