Истории / Искусственный интеллект

Как коронавирус помог определить недостатки алгоритмов ИИ

Эти проблемы долго игнорировали

02 августа 2021, 15:55

8 минут

Как коронавирус помог определить недостатки алгоритмов ИИ

Искусственный интеллект

Технологии

Автор:

Елена Лиханова

Для определения коронавируса были созданы сотни алгоритмов. Ни один из них не был достаточно точен, но некоторые все равно использовались в больницах и потенциально могли даже навредить пациентам. Эксперты отмечают: пандемия вновь привлекла внимание к проблемам, которые давно требуют решения.

В марте 2020 года больницы столкнулись с кризисом, который плохо осознавали. «Врачи просто не понимали, как справляться с этими пациентами», — рассказывает Лора Винантс, эпидемиолог из Маастрихтского университета в Нидерландах, которая изучает инструменты прогнозирования.

Но у них были данные из Китая, который уже 4 месяца боролся с пандемией. Если бы алгоритмы машинного обучения можно было обучить на этих данных, чтобы врачи понимали, что видят, и принимали решения, это могло бы спасти жизни.

«Я думала: "Если когда-нибудь ИИ сможет доказать свою пользу, то только сейчас". Я была полна ожиданий», — рассказывает Винантс.

Но это не случилось. И дело не в недостатке попыток. Исследовательские группы по всему миру пришли на помощь медикам. В частности, сообщество вокруг ИИ поспешило разработать программы, которые, как считалось, позволят быстрее диагностировать и сортировать пациентов. В теории это бы облегчило нагрузку на передовой линии.

В итоге было разработано множество инструментов прогнозирования. Ни один из них не имел существенной пользы, а некоторые даже были потенциально вредны.

К такому выводу пришли многочисленные исследования, опубликованные в последние несколько месяцев. В июне Институт Алана Тьюринга, национальный центр дата-сайенс и ИИ в Великобритании, представил доклад с итогами семинарских обсуждений, проведенных в конце 2020 года. Участники пришли к единому мнению: если инструменты ИИ и оказали влияние на борьбу с коронавирусом, оно было незначительным.

Не для клинического применения

Это перекликается с результатами двух крупнейших исследований, в которых оценивались сотни разработанных за прошлый год инструментов прогнозирования. Ведущий автор одного из них — Винантс. Ее обзор в British Medical Journal все еще обновляется по мере выхода новых инструментов и тестирования существующих. Вместе с коллегами она изучила 232 алгоритма, которые диагностируют пациентов или оценивают, насколько серьезно будет протекать болезнь.

Они обнаружили, что ни один из них не пригоден для клинического применения. Лишь два были выделены как достаточно многообещающие для будущих испытаний.

«Это шокирует, — говорит Винантс. — Я беспокоилась, когда приступала к работе, но это превзошло мои опасения».

Исследование Винантс подкрепляется результатами другого крупного обзора, подготовленного исследователем МО Дереком Дриггсом из Кэмбриджского университета и его коллегами. Работа была опубликована в Nature Machine Intelligence. Группа изучала модели глубокого обучения для диагностики коронавируса и прогнозирования рисков по медицинским изображениям, например рентгеновским снимкам или КТ грудной клетки.

Всего было изучено 415 инструментов. Как и Винантс с коллегами, ученые заключили, что ни один алгоритм не подходит для клинического использования.

«Эта пандемия оказалась большим испытанием для ИИ и медицины, — говорит Дриггс. — Это помогло бы привлечь общественность на нашу сторону. Но я не думаю, что мы прошли этот тест».

Обе команды обнаружили, что исследователи повторяли одни и те же основные ошибки при обучении инструментов. Некорректные предположения о данных часто означают, что обученные модели не работали так, как заявлялось.

При этом Винантс и Дриггс по-прежнему верят, что ИИ может помочь. Однако неправильный алгоритм может и принести вред, если упустит диагноз или недооценит риск для уязвимых пациентов. «Сейчас существует большой ажиотаж вокруг моделей машинного обучения и того, что они могут сделать», — говорит Дриггс.

Нереалистичные ожидания побуждать использовать эти инструменты до того, как они будут готовы. Винантс и Дриггс утверждают, что некоторые из изученных ими алгоритмов уже используются в больницах, а некоторые продаются частными разработчиками. «Я боюсь, что они могли причинить вред пациентам», — говорит Винантс.

Так что же пошло не так? И как преодолеть этот пробел? Есть и хорошие новости. Благодаря пандемии многие исследователи поняли, что пора изменить подход к созданию инструментов ИИ. «Пандемия поставила в центр внимания проблемы, которые мы откладывали в течение некоторого времени», — говорит Винантс.

Что пошло не так

Многие из выявленных проблем связаны с низким качеством данных. Информация о пациентах с коронавирусом, в том числе и медицинские снимки, собиралась и распространялась в разгар пандемии. Часто этим занимались сами лечащие врачи. Исследователи хотели быстро помочь, и это были единственные общедоступные датасеты. Но это означало, что многие инструменты были обучены на неверно маркированных данных или информации из неизвестных источников.

Дриггс объясняет, что такие «датасеты Франкенштейна», как он их называет, были собраны из нескольких источников и могут содержать дупликаты. Поэтому некоторые инструменты в итоге тестируются на тех же данных, на которых обучались. Из-за этого они кажутся точнее, чем на самом деле.

Это также запутывает происхождение определенных наборов данных. В результате исследователи упускают важные особенности, которые искажают обучение моделей.

Например, многие использовали данные со снимками грудной клетки детей, у которых не было коронавируса, в качестве примеров того, как выглядят случаи, не связанные с заболеванием. И искусственный интеллект научился искать детей, а не COVID-19.
Группа Дриггса обучала собственную модель на наборе данных со снимками, сделанными, когда пациенты лежали или стояли. Поскольку лежачие пациенты с большей вероятностью были серьезно больны, ИИ научился определять серьезный риск коронавируса неправильно, по положению человека.
В других случаях некоторые алгоритмы распознавали шрифт подписей к снимкам. В результате шрифты из больниц с более серьезной нагрузкой стали учитываться как предикторы коронавируса.

Со стороны такие ошибки кажутся очевидными. Их можно исправить, скорректировав модель, если исследователи знают о них. Можно признать недостатки и выпустить менее точный, но не вводящий в заблуждение алгоритм. Но их создавали либо исследователи ИИ, у которых было недостаточно медицинского опыта, чтобы заметить неточности, либо медицинские исследователи, которым не хватало математических навыков.

Более деликатная проблема, на которую указывает Дриггс, — это смещение включения, которое возникает, когда набор данных помечен. Например, многие снимки подписывались в зависимости от вывода, который сделал рентгенолог. Но из-за этого датасет содержит предубеждения конкретного врача. Дриггс считает, что намного лучше было бы ставить отметку по результатам ПЦР-теста. Однако в больницах не всегда есть время для статистических нюансов.

компьютерная томография, снимок легких, коронавирус

Фото в тексте: Shyntartanya / Shutterstock

Это не помешало сразу использовать некоторые из инструментов в клинической практике. Винантс говорит, что неясно, какие из них и как используются. Иногда больницы утверждают, что ИИ применяется лишь в исследовательских целях, из-за чего трудно оценить, сколько врачей на него полагаются.

Винантс попросила одну компанию, которая продает алгоритмы глубокого обучения, поделиться информацией о своем подходе, но не получила ответа. Позже она обнаружила несколько опубликованных моделей от исследователей, связанных с компанией. Все они имели высокий риск предвзятости. «На самом деле мы не знаем, что именно использовала компания», — говорит она.

По словам Винантс, некоторые больницы даже подписывают соглашения о неразглашении с поставщиками медицинских инструментов ИИ. Когда она спросила у врачей, какие алгоритмы или программы они используют, некоторые ответили, что им запрещено это разглашать.

Как это исправить

Более качественные данные помогли бы решить проблему, но во время кризиса сложно об этом просить. Важнее извлечь максимальную пользу из тех данных, которые уже есть. Дриггс отмечает, что самое простое решение — совместная работа команд ИИ и лечащих врачей. Также исследователям необходимо делиться своими моделями и раскрывать, как они обучались, чтобы другие могли тестировать их и опираться на них.

«Это две вещи, которые мы могли бы сделать сегодня, — говорит он. — И они решат, возможно, 50% проблем, которые мы выявили».

Получать данные также было бы проще, если бы форматы были стандартизированы, говорит Билал Матин, врач, возглавляющий команду клинических технологий в Wellcome Trust, международной благотворительной организации по исследованиям в области здравоохранения, центральный офис которой находится в Лондоне.

Еще одна проблема, с которой сталкиваются Винантс, Дриггс и Матин, заключается в том, что большинство исследователей торопились разработать собственные модели, а не сотрудничать или улучшать существующие. В результате по всему миру появились сотни посредственных инструментов, вместо нескольких правильно обученных и протестированных.

«Модели так похожи — почти все они используют одни и те же методы с незначительными изменениями, одни и те же входные данные — и все они совершают одни и те же ошибки», — говорит Винантс.

Она добавляет: «Если бы все эти люди тестировали модели, которые уже были доступны, возможно, у нас уже было бы что-то, что действительно помогло бы медикам».

В некотором смысле это вечная проблема исследований. У академических исследователей мало карьерных стимулов для обмена работой или подтверждения существующих результатов. Никто не получает награду за преодоление «последней мили» — расстояния «от лабораторного стола до кровати пациента», говорит Матин.

Для решения этой проблемы ВОЗ рассматривает возможность заключать срочные контракты на обмен данными, которые будут действовать во время подобных международных кризисов. Матин считает, что так исследователям было бы легче перемещать данные через границы. Перед саммитом G7 в Великобритании ученые из стран-участниц также призвали обеспечить «готовность данных» при подготовке к будущим ЧС в области здравоохранения.

Такие инициативы звучат немного расплывчато, и в случае с призывом к переменам всегда легко принять желаемое за действительное. Но у Матина есть свой «наивно-оптимистичный» взгляд на ситуацию. До пандемии импульс для таких инициатив застопорился: задача казалась слишком сложной.

«Коронавирус вернул в повестку дня многое. Пока мы не поверим, что нужно решить непривлекательные проблемы раньше, чем привлекательные, мы обречены повторять одни и те же ошибки, — говорит Матин. — Будет неприемлемо, если этого не произойдет. Забывать уроки этой пандемии — неуважение к тем, кто ушел из жизни».

Источник.

Фото на обложке: Komsan Loonprom / Shutterstock

Подписаться на телеграм-канал