Фарид Нигматуллин, генеральный директор «ВидеоМатрикс», рассказал, как его компания разрабатывала решение для учета и идентификации более 700 тысяч человек, и поделился, с какими сложностями они столкнулись в процессе.
Один раз в году город, что находится в 80 километрах от Красного моря, наполняется сотнями тысяч людей. Плотный поток прибывших следует определенному маршруту. Речь о Мекке и хадже — известном паломничестве мусульман к главной святыне ислама.
В прошлом году к нам поступил запрос на разработку системы учета и верификации людей в местах массовых мероприятий. Иными словами, нужна недорогая и четко работающая автоматизация на основе искусственного интеллекта и видеоаналитики, которая посчитает всех участников и проследит за их передвижением.
Если быть точнее, необходимо проконтролировать, что все зашедшие в Запретную Мечеть паломники из нее вышли. В Мечеть аль-Харам обязательно стекаются все, совершающие хадж, чтобы помолиться и семь раз обойти Каабу — мусульманскую святыню в виде кубической постройки во внутреннем дворе мечети.
С чем имеем дело?
Уточним немного контекста для понимания уровня сложности решаемой задачи.
Хадж — это порядка 700 тысяч людей одновременно. Паломничество включает в себя строгие правила. В частности, одежда мусульман во время хаджа — ихрам — строго регламентирована.
Мужчины надевают два простых белых покрывала: одно закрывает ноги от бедер до колен, а другое накидывается на левое плечо. Женщины надевают просторные белые одеяния и покрывают голову платком, чтобы видимыми остались только лицо, кисти рук и ступни ног. На практике ортодоксальные мусульманки могут оставлять открытыми только глаза, а мужчины — добавлять элементы европейской одежды, солнечные очки и различные головные уборы.
Мечеть имеет 48 входов: четыре главных с воротами и 44 второстепенных. Именно в мечети находится начальная и конечная точки обязательного маршрута паломника.
Как это выглядит с точки зрения нейронной сети? Сотни тысяч однотипных, схожих между собой геометрических фигур, которые находятся в движении очень плотно друг к другу, не задерживающихся на прикладывании пальцев к считывателю отпечатков и тем более не использующие RFID-пропуски. Часть объектов — без лица, еще часть могут иметь физические недостатки.
Напоминаем задачу для нейронной сети: точно увидеть на картинке объект, отделить его от других тысяч рядом, определить, проследить за ним в двух точках — идентифицировать на входе и узнать на выходе. Раздача средств учета вроде карт доступа или номеров неприемлема как в силу замедления движения и снижения комфорта человека, так и в силу высокой стоимости решения.
Если бы искусственный интеллект был школьником, то учет и верификация паломников во время хаджа стали бы его олимпиадным заданием.
Технологии идентификации, их достоинства и недостатки
Чтобы идентифицировать и верифицировать — узнать человека с высокой достоверностью по набору атрибутов — необходимо использовать биометрическую аутентификацию. Каким из многочисленных способов биометрии с использованием видеоаналитики можно достичь желаемого результата? Рассмотрим наиболее популярные и примерим их на наш случай.
Ключевыми формальными показателями качества биометрических систем считаются два взаимосвязанных параметра. Для точности распознавания объекта, чем меньше процент — тем лучше:
- FRR (False Rejection Rate) — чувствительность, ложное отрицание («ошибка первого порядка»), вероятность, что будет исключен нужный человек. Иванова не признали за Иванова.
- FAR (False Acceptance Rate) — специфичность, ложное одобрение («ошибка второго порядка»), вероятность, что будет выбран другой человек. Иванова признали как Сидорова.
Исключим сразу биометрическую аутентификацию по ДНК, голосу, почерку — их просто невозможно применить для верификации людей в потоке.
Более детально рассмотрим оставшиеся:
- Отпечатки пальцев. Очень точный метод, но контактный, а значит требующий дисциплины от паломников, а это непросто. Изящный папиллярный узор легко повредить и испортить порезами, шрамами и даже просто царапинами. Более того, он ухудшается с возрастом, не очень хорошо читается у некоторых этнических групп. Ухудшают качество считывания сухость кожи, нюансы температуры тела и даже незначительное воздействие химических реактивов. FAR 0,001% и FRR 0,6%.
- Сетчатка глаза. Статистическая надежность этого метода также находится на высоком уровне с показателями FAR 0,001% и FRR 0,4%. Нюанс заключается в процессе сканирования — человек должен достаточно долго находиться неподвижно, а сложная оптическая система для сканирования стоит немалых денег.
- Акустические характеристики уха. Технология основана на резонировании звука в полости человеческого уха. Измерение акустических характеристик производится мгновенно. Метод имеет высокую скорость и точность распознавания. Характеристика является уникальной для каждого человека. Но работает с помощью наушников со встроенным микрофоном. Система вычисляет, как звук резонирует в ухе, — то есть акустике каждого уха. Метод не применим для потока.
- Рисунок вен на ладони. Любая из двух сторон руки снимается специальной инфракрасной камерой. Сам венозный рисунок формируется за счет поглощения ИК излучения гемоглобином. Надежность этой технологии сопоставима с той, что задействует радужную оболочку глаза. Имеет отличные показатели — FAR 0,0008% при FRR 0.01%. Метод бесконтактный, но вновь требует дисциплины от паломников. А часть возрастных заболеваний вроде артрита сильно ухудшают FAR и FRR. Для применения этого метода нужно исключить засветку сканера солнечными лучами.
- Геометрия кисти руки. В этом методе рассчитываются геометрические данные для рук типа длины пальцев или ширины ладони. Показатели FAR и FRR невысоки и доходят до единиц %%. Время обработки занимает от 2-х до 20-ти секунд, да и признаки руки меняются с возрастом. Метод контактен и требует дисциплины от паломников.
- Термограмма лица. В основе метода — рисунок лица, создаваемый тепловым излучением кровеносных сосудов и фиксируемый камерой. Кровоток имеет динамическую природу, могут появляться и пропадать вторичные кровеносные сосуды. Термограмма лица может изменяться под воздействием температурных условий окружающей среды, а также алкоголя. Метод нельзя отнести к хорошему качеству аутентификации, он применим скорее для оценки состояния человека, чем для верификации.
- Радужная оболочка глаза. Один из флагманов статистической надежности среди методов биометрии: FAR 10-7 при FRR 10-2. Понадобится монохромная CCD-камера с небольшой подсветкой и чувствительностью к ИК-излучению — ближний ИК-диапазон с активной подсветкой. Зрачок под воздействием света меняет свой размер, поэтому делается серия фотографий. Съемка радужной оболочки производится на расстоянии от нескольких сантиметров до пяти метров. Метод обладает существенным преимуществом: у него единственного на максимальном уровне находятся такие параметры, как всеобщность, уникальность и стабильность. Радужная оболочка защищена от повреждений и неизменна во времени. Ее можно увидеть в ближнем ИК-диапазоне, а текстура не зависит от генома, что подтверждают эксперименты с однояйцевыми близнецами. Однако есть и недостатки: время съема данных — до 2-х секунд, не получится снять радужку у человека в солнцезащитных очках. В идеальных условиях для потока в 700 тысяч паломников можно достичь нулевых ошибок распознавания с FAR 10-10. Однако при некооперативных условиях, когда радужная оболочка видна под углом, вероятность ошибки возрастает до FAR 0,1% при FRR 0,1%.
- 2D-распознавание лица. С применением глубоких нейронных сетей в течение последних двух лет достоверность результата растет. К счастью, отличается от методов-собратьев тем, что не нуждается в оборудовании высокой стоимости. Ориентировочные показатели FAR и RAR — 0,1% и 2,5% соответственно. Многое зависит от ракурса, разрешения, освещения, действий человека для маскирования данных лица. При качественном оборудовании можно распознавать на больших расстояниях от камеры. Сегодня алгоритмы уже устойчивы к изменениям мимики лица и даже наличию очков, бороды, вспомогательных маскирующих элементов. Идентификация возможна, даже если часть лица закрыта накладной бородой, платком, медицинской повязкой или очками. Технологии для работы достаточно 14 ключевых точек: 10 маркеров для частей брови и области вокруг глаз, 1 маркер для носа и 3 маркера для губ.
- 3D-распознавание лица производится целым ворохом разных способов. Переходным от 2D к 3D методом является тот, что собирает информацию о лице всего одной камерой. Один из методов — проецирование шаблона: камерой делаются кадры со скоростью десяток снимков в секунду. Затем над изображениями работает специальная программа. 3D-модель лица выстраивается по данным из снимка за минусов выделенных и удаленных помех вроде очков, бороды и прически. Антропометрические данные модели, выявленные в результате анализа, записываются в уникальный код для базы данных. При FAR 0.0047% FRR составляет 0,1%. Метод надежен примерно настолько же, насколько биометрия по отпечаткам, обладает низкой чувствительностью к сторонним факторам — борода, очки, освещение, поворот головы. Однако в числе недостатков числятся высокая цена оборудования и время обработки — в лучшем случае около 2 секунд.
- Походка. Позволяет идентифицировать человека, даже если его лицо будет скрыто. При этом для работы системы нужна камера, находящаяся не далее 50 метров от паломника. Решение основывается на уникальном «рисунке» походки: ритм, скорость и другие особенности передвижения. Сверточные нейронные сети позволяют построить модель скелета человека из порядка 19 элементов и контролировать их векторы перемещений. Скорость распознавания не превышает 200 миллисекунд. В нашем случае радует и то, что алгоритм способен идентифицировать до тысячи людей на площади в 1000 кв. м. Отличное дополнение к другим биометрическим методам.
Готовое решение
Что в итоге использовать для учета и верификации людей в таком огромном количестве на массовом мероприятии? Выбрать единый способ и надеяться на высокую достоверность затруднительно. А ведь еще необходимо учесть стоимость решения, его приемлемость и возможность технического применения на месте.
Проанализировав все нюансы, «за» и «против» мы остановились на комплексе взаимодополняющих методов. Каскадное решение выполняет последовательную фильтрацию возможных вариантов, используя 2D-распознавание лица, радужную оболочку глаз, походку и контроль соотношения геометрических параметров тела по следующей схеме:
На каждом этапе каскада из последовательного применения алгоритмов идет сужение выборки претендентов. Порог чувствительности распознавания выбирается для каждого этапа так, чтобы исключить ошибку первого рода — FRR. Указаны два сценария:
- пессимистичный — худшие из возможных показателей работы алгоритма;
- оптимистичный — лучшие из возможных показателей.
Пунктиром выделены этапы, которые в случае оптимистичного сценария не выполняются. Слева обозначено количество камер на участке. Всего их шесть: по три для входа для формирования шаблонных дескрипторов, по три для выхода для верификации.
Геометрические пропорции рассчитываются на основании параметров скелета: рост, ширина плеч, длина плеч, предплечий, размер талии. Также формируется набор из дополнительных признаков: цвета на одежде паломника, геометрия одежды, обуви и головных уборов.
Дескриптор одежды при необходимости позволяет сократить возможные варианты. Обработка ведется централизованно, вся информация записывается в единой базе данных — это позволяет учесть вход и выход в любом месте. Общее число необходимых камер для решения 48*2*3 = 288.
***
Каждая задача, приходящая к нам в компанию, по-своему интересна. В каждом случае детально прорабатываем нюансы, анализируем контекст и разрабатываем кастомизированные улучшения для базовых продуктов видеоаналитики Vmx. И хотя разработанная концепция системы учета и верификации паломников на хадже не пошла в фактическую реализацию, расчет концепта, пожалуй, стал одним из самых увлекательных. На то оно и олимпиадное задание.
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
ВОЗМОЖНОСТИ
15 сентября 2024
15 сентября 2024