Мнения / Технологии

Машинное обучение против контрафакта: как технологии помогают искать подделки

В будущем поддельных кросовок будет меньше и вот почему

03 ноября 2020, 18:46

Машинное обучение против контрафакта: как технологии помогают искать подделки

Машинное обучение (machine learning) — это умение алгоритма работать с большими массивами данных, находить в них закономерности и постоянно обучаться. Сегодня такие технологии — неотъемлемая часть решений по защите бренда. Например, с помощью машинного обучения можно быстро обработать сто тысяч объявлений о продаже товаров и автоматически выявить в них контрафакт. Юрий Вопилов, генеральный директор BrandMonitor, рассказывает, как это работает.

Что такое машинное обучение в борьбе с контрафактом

Раньше с подделками в интернете боролись вручную. Специалист сидел за компьютером и просматривал объявления. Он искал несоответствия: кроссовки известного бренда, а цена на них 3 тыс. рублей. Скорее всего, это контрафакт. Чтобы регулярно просматривать все объявления, например, на «Алибаба», потребовалось бы несколько сотен сотрудников. Это очень затратно, поэтому объявления проверяли выборочно.

Это медленная работа, а охват всегда меньше, чем объем контрафакта в интернете. Специалисты по выявлению контрафакта не будут работать быстрее, качество их решений тоже остается примерно на одном уровне.

Машинное обучение — способ делать ту же работу эффективнее. Нейросеть учится каждый раз, когда человек говорит ему: «это правильно» или «нет, здесь ты ошибся». Объем автоматизированной работы не ограничен: сегодня мы можем проверить 100 тыс. объявлений, а через месяц будем проверять уже миллион.

Две тысячи объявлений в день в среднем размечает человек, 300 тысяч объявлений в день в среднем размечает алгоритм на основе машинного обучения.

Постоянное совершенствование — главное отличие стратегии машинного обучения от ручного труда. Второе — это скорость. Мы исследовали масштабы контрафакта среди люксовых брендов. Из 5 млн постов в соцсетях с предложениями о продаже 3,5 млн постов — это продажа копий и реплик. Отследить такой объем вручную просто невозможно.

Unsplash

Как это работает на примерах

Чтобы определить контрафакт, алгоритм на базе machine learning учитывает множество маркеров. Есть несколько основных.

Цена

Настоящие кроссовки стоимостью 9 тыс. рублей от известного бренда не могут стоить 3 тыс. рублей и алгоритм обратит на это внимание. Еще он учится сопоставлять стоимость и тип товара. Кроссовки за 3 тыс. рублей — скорее подделка, бейсболка за 3 тыс. рублей — оригинал.

При этом алгоритм должен понимать, что кроссовки могут быть подержанными, тогда 3 тыс. рублей — приемлемая цена.

Кажется, что вычленить цену из объявления просто, но это не так. Бывает, что в одном объявлении много цен: стоимость товара, доставки, цена со скидкой и без скидки, цена за два или три товара, а еще есть оптовая цена.

Вторая проблема — валюта. Рубли могут быть российскими или белорусскими, доллары не только американскими, но и австралийскими. Значок доллара используют в Бразилии для обозначения бразильского реала. Алгоритм должен понимать, в какой стране продается товар.

Изображение

Алгоритму на базе машинного обучения проще работать, если в объявлении продавец оставил подробное описание товара. Но, например, в соцсетях часто выложены только фотография товара и его цена.

Однако и по фотографии можно определить категорию товара и бренд. Создатели подделок часто копируют дизайны продуктов, но они могут ошибиться, например, в оттенках цветов. Алгоритм учится определять это. После подтверждения человеком нескольких совпадений как признаков контрафакта будут созданы новые критерии, и алгоритм будет сам принимать решения.

Описание

Нейросеть анализирует ключевые слова в описаниях товаров. Например, известному бренду не надо писать фразы «отличное качество» и «напрямую с завода». Это само собой разумеется. Если встречаются две этих фразы в одном объявлении, алгоритм пометит такое объявление как «проблемное».

Обучение и точность алгоритма

Для начала работы алгоритму дается размеченная вручную выборка объявлений. Начинается обучение. Когда алгоритм находит потенциальное нарушение прав интеллектуальной собственности, но не знает, что с ним делать, он сигнализирует оператору. Аналитики доразмечают данные и возвращают их для переобучения системы.

Чем дольше алгоритм работает с продуктом или брендом, тем более эффективным он становится.

В сфере интеллектуальной собственности очень большое внимание уделяют точности алгоритмов на базе machine learning. Следующий этап после их работы — автоматическое удаление объявлений. Неверное удаление чревато юридическими последствиями. Даже если алгоритм ошибается в 1% случаев, то на 100 млн объявлений он даст один млн ошибочных решений. Это недопустимо, так как будет мешать легальной торговле.

Поэтому когда алгоритм отправляет спорный случай на проверку человеку, делается так называемое перекрытие: сомнительные случаи показываем минимум двум людям, потому что человек тоже может ошибиться. Если совпадает решение двух людей, то все нормально. Если оно разное, то показываем еще трем-пяти людям, и только потом даем «ответ» системе.

Еще нужно учесть, что производители контрафакта стремятся обмануть программы. Например, изменяют буквы в описании, пишут символы в разных раскладках, пропускают буквы, пишут часть слова по-русски, а часть по-английски. Алгоритм, основанный на механическом поиске ключевых слов и формальных правилах, с такими случаями не справится. Алгоритм на базе машинного обучения обнаружит эти уловки.

Поскольку изображение распознается сложнее, то название бренда часто фигурирует не в тексте, а указывается на картинке. Иногда цена указывается прямо на фотографии, потому что вытащить ее оттуда гораздо сложнее, чем взять из текста. Нейросеть учится все это видеть и понимать. Мне кажется, это вечная борьба.

Unsplash

Будущее machine learning

Крупные зарубежные и российские маркетплейсы сегодня сами работают против контрафакта. Внутренние отделы, предотвращающие публикацию явных подделок, есть у «Амазон» и «Алибаба». Но в этих отделах обычно нет экспертов по идентификации продуктов. Они могут оценить качество, но не могут определить, оригинал это или нет. Даже если они сомневаются, они не будут нарушать права своих клиентов, размещающих объявления, поэтому ждут, когда бренд сам найдет контрафакт.

Платформы не могут технически отфильтровать весь поток объявлений. Сайты типа «Озона», «Авито» или «Юлы», где люди сами продают товары, — это миллионы предложений.

Но есть примеры, когда маркетплейсы движутся в нужном направлении. Метод больших данных используют на платформе «Алибаба». Их нейросеть создана еще в 2017 году. Алгоритмы сканируют около 10 млн товаров в день. Первые результаты использования технологии показали снижение количества запросов на удаление на 25%. За год благодаря технологии с платформы удаляют около 380 млн фейковых объявлений и блокируют примерно 180 тысяч недобросовестных продавцов.

В 2019 году появилась технология Entrupy, распознающая поддельные модели сумок известных премиум-брендов. Entrupy сравнивает фотографии и делает выводы по состоянию кожи сумки, шероховатостям, текстуре. Точность 99,1%.

Это будущее. Потребуется очень много инвестиций в разметку данных, в обучение нейросети по каждому бренду, чтобы принимать точное решение. Следующий уровень развития этих систем, когда они смогут просто по картинке отличать оригинал от контрафакта. Если человек, глядя на изображение, может определить подделку, то и алгоритм можно научить это делать.

Фото на обложке: Shutterstock/K.Decor

Авторы