Мнения / Кибербезопасность

Мягкая киберугроза: как технологии борются с фейками в сети

И как отличают их от креатива

07 февраля 2020, 16:55

Мягкая киберугроза: как технологии борются с фейками в сети

Автор:

Илья Калагин, руководитель Центра когнитивных технологий «АйТеко», рассказывает о борьбе с фейковыми новостями: что это такое, чем они отличаются от личного мнения и рекламы, а также какие технологии разрабатываются для их выявления.

Фейковые новости сегодня обсуждают на разных площадках и уровнях — от комментариев в Instagram до кабинетов министров. Насколько серьезно влияние фальшивок на развитие событий — вопрос дискуссионный, но запрос на их выявление и нейтрализацию вполне реальный.

На этот вопрос пытаются дать ответ в академической среде — тема регулярно оказывается в фокусе конференций, научных мероприятий и грантов. Разработчики занимаются созданием решения для обнаружения фейковых новостей и применяют в этих целях искусственный интеллект и методы компьютерной лингвистики.

В число настоящих и будущих пользователей таких систем входят крупные социальные сети, онлайн-ресурсы, СМИ, новостные агрегаторы, государственные структуры, силовые ведомства и официальные институты.

Что такое фейк

Начать стоит с того, что комплексного и единого решения пока не разработано, даже больше — нет единого определения фейковой новости. Есть общее, довольно размытое и подчас основанное на интуиции знание, что это такое, но точное разграничение фальшивых новостей и других явлений отсутствует.

Провести эту границу сложно, так как коммуникация в соцсетях, СМИ, блогах подразумевает сложное поведение авторов и читателей, которое может включать, например, игровые, творческие или ироничные элементы, похожие по отдельным признакам на фейк ньюс.

Когда мы говорим о фейковых новостях, то подразумеваем, что их создатели хотели ввести нас в заблуждение или представили заведомо ложную информацию. Но продвижение в интернете как классических, так и личных брендов неотделимо от попыток выдать желаемое за действительное и казаться, а не быть.

Фото: Unsplash

Автор колонки, комментария и другого формата транслирования личного мнения может заблуждаться сам и тем самым вводить в заблуждение других. Поэтому одна из задач — концептуально разграничить фейк ньюс и другие форматы, например, личные колонки, сторителлинг и рекламу.

Интересно, что в академической среде в разряд задач выявления фальшивых новостей попадает и определение идеологически окрашенной подачи информации, даже если такая подача касается лишь небольшой части текста.

То, что нет точного определения, а следовательно, и однозначных признаков фальшивых новостей, затрудняет их обнаружение автоматическими методами. Но направление активно развивается, поскольку это практически единственный рабочий способ противодействия фальшивкам с учетом производимых объемов цифрового контента и механики его распространения.

Наиболее перспективным для решения этих задач считается использование искусственного интеллекта, в частности, последних достижений компьютерной лингвистики. Это научная дисциплина, предмет которой — создание математических моделей для описания естественных языков, используемых в прикладных областях:

информационном поиске,
машинном переводе,
чат-ботах,
интеллектуальных решениях для обработки данных,
инструментах для обнаружения фальшивых новостей.

Проверяем факты

Специалисты по компьютерной лингвистике тестируют разные подходы для фальшивых новостей. Один из самых распространенных — факт-чекинг. Если в сообщении представлена заведомо ложная информация, ее можно проверить с помощью других источников.

Это утверждения типа «Иван Иванов родился в Екатеринбурге», «Лондон — столица Великобритании», «Волга впадает в Каспийское море». В значительной части новостей сообщается, что определенное событие произошло в конкретном месте в установленное время.

Фото: Unsplash

Для проверки алгоритм может использовать список верифицированных источников: их, как заслуживающие доверия, отбирают специалисты, и этот выбор субъективен. Также может осуществляться поиск и анализ качества ресурсов, которые уже опубликовали эту новость. Этот способ позволяет совместить преимущества машинной обработки и экспертной оценки для выявления искаженных фактов.

Очевидным минусом становится отсутствие у решения предиктивной силы: если в СМИ придет экстренное сообщение о начале, например, военного конфликта, которое еще не появилось на других ресурсах, система не сможет маркировать его как фейковое или заслуживающее доверия. Лишь через какое-то время другие площадки начнут ее подтверждать или опровергать — такая задержка критична для многих современных медиа.

Определяем идеологию

Как уже упоминалось, в академической среде задача обнаружения медиафейков понимается достаточно широко, и к ней относится выявление идеологически окрашенных текстов. Для этого собирается корпус текстов и затем производится его ручная разметка: часть определяется как идеологически нейтральная, другая — как ангажированная.

Так мы получаем размеченный датасет и можем использовать его для обучения модели. В итоге система должна автоматически классифицировать новые тексты как идеологически окрашенные или нейтральные.

Под идеологией можно понимать однобокую подачу информации, когда, например, в сообщениях явно или даже агрессивно представлена позиция только одного из участников военного или политического конфликта.

Сегодня в выявлении подобных текстов наиболее заинтересованы государственные структуры, силовые ведомства, политические институты.

Есть более узкая задача классификации идеологических текстов — их принадлежности к конкретной идеологии (либеральной, консервативной, радикальной и прочим). Для ее решения также берется корпус размеченных текстов, в котором у каждого сообщения определена идеологическая принадлежность.

Изображение предоставлено автором

Обученная на этих данных модель должна соотнести новый текст с одним из установленных классов идеологических текстов, или, в других вариантах, — оценить подачу информации как однобокую или субъективную либо выдвинуть гипотезу, что текст сгенерирован ботом.

Выявляем ботов

Все площадки сталкиваются с проблемами, обусловленными действиями ботов и их использованием для разного вида накруток. По разным подсчетам, более половины пользовательской активности в сети Instagram генерируется специально созданными программами.

Боты играют важную роль в распространении фейковых новостей: по результатам исследования, именно они становятся главными распространителями такого контента.

Изображение предоставлено автором

Для их выявления используются десятки критериев и параметров: просто текстов для этого чаще всего недостаточно. Значимыми оказываются частота выхода постов в сутки, соотношение уровня активности в выходные и будни — у людей есть периоды с низким уровнем активности или вовсе без нее (время на сон).

Также анализируются темы или слова, на которые реагируют аккаунты, и другие выявленные паттерны поведения. Учитываются и технические данные, даже показания акселерометра смартфона — если угол наклона гаджета меняется, то, скорее всего, он находится в руках человека.

Ботов можно выявить, применяя исключительно лингвистические методы, но тогда используемые для обучения данные должны отвечать серьезным требованиям.

Изображение предоставлено автором

Стоит отметить, что языковое поведение ботов с каждым годом становится сложнее — генерируемые ими тексты становятся естественнее, грамотнее и осмысленнее. В том числе и потому, что для их создания используются искусственный интеллект и нейросети.

Мягкие киберугрозы

Все, о чем говорилось выше, может быть объединено понятием мягких или гуманитарных киберугроз. Помимо фейковых новостей, к ним относят, например, пропаганду и кликбейтинг (манипулятивную подачу информации для повышения числа переходов по ссылке). Для выявления и противодействия таким угрозам используются разные методы компьютерной лингвистики.

Важно, что компьютер не оперирует словами, а может взаимодействовать только с числами, поэтому слово, так или иначе, должно быть переведено в числовой вид. Например, слово превращают в последовательность из 400 чисел, то есть в четырехсотмерный вектор, который будет содержать данные о контексте его употребления: какие слова чаще всего оказываются рядом с ним.

Как показывают соревнования, наиболее эффективной для идентификации медиафейков на сегодняшний день стала модель ELMo. Она может создавать бесконечное число векторов для одного слова, что позволяет учитывать контекст употребления слова не только во всем датасете, но и в конкретном анализируемом тексте.

Также компьютерные лингвисты используют для определения фальшивых новостей n-граммы — последовательности букв, цифр, знаков из установленного количества (n) элементов.

Фото: Unsplash

Иногда эффективным оказывается извлечение именованных сущностей, то есть автоматическое выделение из текста наименований физических и юридических лиц, географических мест, торговых марок. Для повышения качества обнаружения прибегают и к анализу эмоциональной окраски текста (негативная, позитивная, нейтральная) и определению его стиля.

Современные методы позволяют классифицировать тексты с высокой точностью, но нужно понимать, что в реальной жизни и этого недостаточно. Вероятно, в социальных сетях получит развитие уже внедренная практика помечать для информирования пользователей потенциально опасные и недостоверные сообщения, определенные алгоритмом.

Instagram уже запустил и планирует развивать сервис проверки информации: выявленные недостоверные сообщения должны перекрываться надписью «Ложная информация». Но в правоприменительной практике недостаточно данных работы машинного классификатора: экспертам нужно детализировать и обосновывать результаты такой обработки. Поэтому в службах проверки специалисты занимаются выявлением фальшивых новостей наряду с технологиями.

Перспективы

Сегодня выявление фейк ньюс — кросс-дисциплинарная задача. Для ее решения привлекают экспертов по человеческому поведению, массовым коммуникациям, математике и статистике, лингвистике, информационным технологиям, безопасности и другим областям. И результат, который может быть в будущем признан эффективным, скорее всего, будет тоже основан на комплексном подходе.

На одном этапе могут задействоваться инструменты компьютерной лингвистики и осуществляться классификация текстов по установленным признакам. На другом — проводиться анализ метаданных: с какой частотой и в какое время аккаунт активен, под каким логином зарегистрирован, на какие темы пишет и на какие триггеры реагирует.

Фото: Unsplash

Также может производиться анализ технических данных браузера и устройства, других доступных параметров активности. По итогам анализа система может помечать новость как потенциально фейковую, и эта информация может направляться на проверку сотруднику специального сервиса.

Решения, работающие по описанному принципу, уже существуют, тестируются и применяются на практике:

Botometer и BotoSlayer, разработанные Индианским университетом в Блумингтоне (США),
Tealeaf от IBM,
Sentimetrix,
системы детекции, используемые Facebook и другими крупными соцсетями.

В России подобные задачи могут решать организации, специализирующиеся на обработке естественного языка и/или анализе соцмедиа: наша компания, а также «Яндекс», ABBYY, RCO, Brand Analytics и «Крибрум».

Одним из ключевых ограничений остается нехватка качественных размеченных датасетов: речь не только о текстах новостей и постов, но и о мультимодальных данных в формате смайликов, эмодзи, хештегов.

Все перечисленные проблемы и ограничения не останавливают разработку и развитие автоматических способов обнаружения и помогают если не побеждать, то и не проигрывать в войне фактов и фейка и выявлять фейки почти с той же скоростью, с которой они производятся.

Материал обновлен 9 февраля в 10:00

Фото на обложке: Unsplash

Подписаться на телеграм-канал