Колонки

Как мы разрабатывали систему для распознавания 700 тысяч человек — кейс российской компании

Колонки
Фарид Нигматуллин
Фарид Нигматуллин

Генеральный директор компании «ВидеоМатрикс»

Полина Константинова

Фарид Нигматуллин, генеральный директор «ВидеоМатрикс», рассказал, как его компания разрабатывала решение для учета и идентификации более 700 тысяч человек, и поделился, с какими сложностями они столкнулись в процессе.

Как мы разрабатывали систему для распознавания 700 тысяч человек — кейс российской компании

Один раз в году город, что находится в 80 километрах от Красного моря, наполняется сотнями тысяч людей. Плотный поток прибывших следует определенному маршруту. Речь о Мекке и хадже — известном паломничестве мусульман к главной святыне ислама.



В прошлом году к нам поступил запрос на разработку системы учета и верификации людей в местах массовых мероприятий. Иными словами, нужна недорогая и четко работающая автоматизация на основе искусственного интеллекта и видеоаналитики, которая посчитает всех участников и проследит за их передвижением. 

Если быть точнее, необходимо проконтролировать, что все зашедшие в Запретную Мечеть паломники из нее вышли. В Мечеть аль-Харам обязательно стекаются все, совершающие хадж, чтобы помолиться и семь раз обойти Каабу — мусульманскую святыню в виде кубической постройки во внутреннем дворе мечети.



С чем имеем дело?

Уточним немного контекста для понимания уровня сложности решаемой задачи. 

Хадж — это порядка 700 тысяч людей одновременно. Паломничество включает в себя строгие правила. В частности, одежда мусульман во время хаджа — ихрам — строго регламентирована. 

Мужчины надевают два простых белых покрывала: одно закрывает ноги от бедер до колен, а другое накидывается на левое плечо. Женщины надевают просторные белые одеяния и покрывают голову платком, чтобы видимыми остались только лицо, кисти рук и ступни ног. На практике ортодоксальные мусульманки могут оставлять открытыми только глаза, а мужчины —  добавлять элементы европейской одежды, солнечные очки и различные головные уборы. 



Мечеть имеет 48 входов: четыре главных с воротами и 44 второстепенных. Именно в мечети находится начальная и конечная точки обязательного маршрута паломника.  

Как это выглядит с точки зрения нейронной сети? Сотни тысяч однотипных, схожих между собой геометрических фигур, которые находятся в движении очень плотно друг к другу, не задерживающихся на прикладывании пальцев к считывателю отпечатков и тем более не использующие RFID-пропуски. Часть объектов — без лица, еще часть могут иметь физические недостатки. 

Напоминаем задачу для нейронной сети: точно увидеть на картинке объект, отделить его от других тысяч рядом, определить, проследить за ним в двух точках — идентифицировать на входе и узнать на выходе. Раздача средств учета вроде карт доступа или номеров неприемлема как в силу замедления движения и снижения комфорта человека, так и в силу высокой стоимости решения. 

Если бы искусственный интеллект был школьником, то учет и верификация паломников во время хаджа стали бы его олимпиадным заданием.

Технологии идентификации, их достоинства и недостатки

Чтобы идентифицировать и верифицировать — узнать человека с высокой достоверностью по набору атрибутов — необходимо использовать биометрическую аутентификацию. Каким из многочисленных способов биометрии с использованием видеоаналитики можно достичь желаемого результата? Рассмотрим наиболее популярные и примерим их на наш случай.



Ключевыми формальными показателями качества биометрических систем считаются два взаимосвязанных параметра. Для точности распознавания объекта, чем меньше процент — тем лучше:

  • FRR (False Rejection Rate) — чувствительность, ложное отрицание («ошибка первого порядка»), вероятность, что будет исключен нужный человек. Иванова не признали за Иванова.
  • FAR (False Acceptance Rate) — специфичность, ложное одобрение («ошибка второго порядка»), вероятность, что будет выбран другой человек. Иванова признали как Сидорова. 

Исключим сразу биометрическую аутентификацию по ДНК, голосу, почерку — их просто невозможно применить для верификации людей в потоке.

Более детально рассмотрим оставшиеся:

  • Отпечатки пальцев. Очень точный метод, но контактный, а значит требующий дисциплины от паломников, а это непросто. Изящный папиллярный узор легко повредить и испортить порезами, шрамами и даже просто царапинами. Более того, он ухудшается с возрастом, не очень хорошо читается у некоторых этнических групп. Ухудшают качество считывания сухость кожи, нюансы температуры тела и даже незначительное  воздействие химических реактивов. FAR 0,001% и FRR 0,6%.
  • Сетчатка глаза. Статистическая надежность этого метода также находится на высоком уровне с показателями FAR 0,001% и FRR 0,4%. Нюанс заключается в процессе сканирования — человек должен достаточно долго находиться неподвижно, а сложная оптическая система для сканирования стоит немалых денег.
  • Акустические характеристики уха. Технология основана на резонировании звука в полости человеческого уха. Измерение акустических характеристик производится мгновенно. Метод имеет высокую скорость и точность распознавания. Характеристика является уникальной для каждого человека. Но работает с помощью наушников со встроенным микрофоном. Система вычисляет, как звук резонирует в ухе, — то есть акустике каждого уха. Метод не применим для потока.
  • Рисунок вен на ладони. Любая из двух сторон руки снимается специальной инфракрасной камерой. Сам венозный рисунок формируется за счет поглощения ИК излучения гемоглобином. Надежность этой технологии сопоставима с той, что задействует радужную оболочку глаза. Имеет отличные показатели — FAR 0,0008% при FRR 0.01%. Метод  бесконтактный, но вновь требует дисциплины от паломников.  А часть возрастных заболеваний вроде артрита сильно ухудшают FAR и FRR. Для применения этого метода нужно исключить засветку сканера солнечными лучами.
  • Геометрия кисти руки. В этом методе рассчитываются геометрические данные для рук типа длины пальцев или ширины ладони. Показатели FAR и FRR невысоки и доходят до единиц %%. Время обработки занимает от 2-х до 20-ти секунд, да и признаки руки меняются с возрастом. Метод контактен и требует дисциплины от паломников.
  • Термограмма лица. В основе метода — рисунок лица, создаваемый тепловым излучением кровеносных сосудов и фиксируемый камерой. Кровоток имеет динамическую природу, могут появляться и пропадать вторичные кровеносные сосуды. Термограмма лица может изменяться под воздействием температурных условий окружающей среды, а также алкоголя. Метод нельзя отнести к хорошему качеству аутентификации, он применим скорее для оценки состояния человека, чем для верификации.
  • Радужная оболочка глаза. Один из флагманов статистической надежности среди методов биометрии: FAR 10-7 при FRR 10-2.  Понадобится монохромная CCD-камера с небольшой подсветкой и чувствительностью к ИК-излучению — ближний ИК-диапазон с активной подсветкой. Зрачок под воздействием света меняет свой размер, поэтому делается серия фотографий. Съемка радужной оболочки производится на расстоянии от нескольких сантиметров до пяти метров. Метод обладает существенным преимуществом: у него единственного на максимальном уровне находятся такие параметры, как всеобщность, уникальность и стабильность. Радужная оболочка защищена от повреждений и неизменна во времени. Ее можно увидеть в ближнем ИК-диапазоне, а текстура не зависит от генома, что подтверждают эксперименты с однояйцевыми близнецами.  Однако есть и недостатки: время съема данных —  до 2-х секунд, не получится снять радужку у человека в солнцезащитных очках. В идеальных условиях для потока в 700 тысяч паломников можно достичь нулевых ошибок распознавания с FAR 10-10. Однако при некооперативных условиях, когда радужная оболочка видна под углом, вероятность ошибки возрастает до FAR 0,1% при FRR 0,1%.
  • 2D-распознавание лица. С применением глубоких нейронных сетей в течение последних двух лет достоверность результата растет. К счастью, отличается от методов-собратьев тем, что не нуждается в оборудовании высокой стоимости. Ориентировочные показатели FAR и RAR — 0,1% и 2,5% соответственно. Многое зависит от ракурса, разрешения, освещения, действий человека для маскирования данных лица. При качественном оборудовании можно распознавать на больших расстояниях от камеры. Сегодня алгоритмы уже устойчивы к изменениям мимики лица и даже наличию очков, бороды, вспомогательных маскирующих элементов. Идентификация возможна,  даже если часть лица закрыта накладной бородой, платком, медицинской повязкой или очками. Технологии для работы достаточно 14 ключевых точек: 10 маркеров для частей брови и области вокруг глаз, 1 маркер для носа и 3 маркера для губ.
  • 3D-распознавание лица производится целым ворохом разных способов. Переходным от 2D к 3D методом является тот, что собирает информацию о лице всего одной камерой. Один из методов — проецирование шаблона: камерой делаются кадры со скоростью десяток снимков в секунду. Затем над изображениями работает специальная программа. 3D-модель лица выстраивается по данным из снимка за минусов выделенных и удаленных помех вроде очков, бороды и прически. Антропометрические данные модели, выявленные в результате анализа, записываются в уникальный код для базы данных. При FAR 0.0047% FRR составляет 0,1%. Метод надежен примерно настолько же, насколько биометрия по отпечаткам, обладает низкой чувствительностью к сторонним факторам — борода, очки, освещение, поворот головы. Однако в числе недостатков числятся высокая цена оборудования и время обработки — в лучшем случае около 2 секунд.
  • Походка. Позволяет идентифицировать человека, даже если его лицо будет скрыто. При этом для работы системы нужна камера, находящаяся не далее 50 метров от паломника. Решение основывается на уникальном «рисунке» походки: ритм, скорость и другие особенности передвижения. Сверточные нейронные сети позволяют построить модель скелета человека из порядка 19 элементов и контролировать их векторы перемещений. Скорость распознавания не превышает 200 миллисекунд. В нашем случае радует и то, что алгоритм способен идентифицировать до тысячи людей на площади в 1000 кв. м. Отличное дополнение к другим биометрическим методам.

Готовое решение

Что в итоге использовать для учета и верификации людей в таком огромном количестве на массовом мероприятии? Выбрать единый способ и надеяться на высокую достоверность затруднительно. А ведь еще необходимо учесть стоимость решения, его приемлемость и возможность технического применения на месте. 

Проанализировав все нюансы, «за» и «против» мы остановились на комплексе взаимодополняющих методов. Каскадное решение выполняет последовательную фильтрацию возможных вариантов, используя 2D-распознавание лица, радужную оболочку глаз, походку и контроль соотношения геометрических параметров тела по следующей схеме: 



На каждом этапе каскада из последовательного применения алгоритмов идет сужение выборки претендентов. Порог чувствительности распознавания выбирается для каждого этапа так, чтобы исключить ошибку первого рода — FRR. Указаны два сценария:  

  1. пессимистичный — худшие из возможных показателей работы алгоритма;
  2. оптимистичный — лучшие из возможных показателей. 

Пунктиром выделены этапы, которые в случае оптимистичного сценария не выполняются. Слева обозначено количество камер на участке. Всего их шесть: по три для входа для формирования шаблонных дескрипторов, по три для выхода для верификации.

Геометрические пропорции рассчитываются на основании параметров скелета: рост, ширина плеч, длина плеч, предплечий, размер талии. Также формируется набор из дополнительных признаков: цвета на одежде паломника, геометрия одежды, обуви и головных уборов. 

Дескриптор одежды при необходимости позволяет сократить возможные варианты. Обработка ведется централизованно, вся информация записывается в единой базе данных — это позволяет учесть вход и выход в любом месте. Общее число необходимых камер для решения 48*2*3 = 288.

***

Каждая задача, приходящая к нам в компанию, по-своему интересна. В каждом случае детально прорабатываем нюансы, анализируем контекст и разрабатываем кастомизированные улучшения для базовых продуктов видеоаналитики Vmx. И хотя разработанная концепция системы учета и верификации паломников на хадже не пошла в фактическую реализацию, расчет концепта, пожалуй, стал одним из самых увлекательных. На то оно и олимпиадное задание. 

Фото на обложке: Unsplash

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Как внедрить машинное обучение в бизнес-процессы всего за три шага
  2. 2 На 25% больше чеков с помощью георекламы: кейс по локальному продвижению малого бизнеса
  3. 3 Как мы обучили нейронку распознавать свиней с точностью 99,9%

Актуальные материалы —
в Telegram-канале @Rusbase