Краткий справочник по модерации интернет-контента

Алексей Зеньков
Расскажите друзьям
Светлана Зыкова

Как наши любимые сервисы решают, какие публикации имеют право на существование, а какие нужно удалять? Партнер фонда Homebrew и бывший сотрудник YouTube Хантер Уок (Hunter Walk) поделился своим опытом и знаниями о модерации пользовательского контента.

Поскольку Facebook, Twitter и YouTube недавно объявили о наборе кадров в команды по модерации контента (пусть и в разном объеме), я решил немного рассказать о том, как устроена работа таких систем. Большая часть этой статьи основана на моем личном опыте в YouTube, однако подход других компаний к этим вопросам идентичен. Я буду говорить в первую очередь о пользовательском, а не рекламном контенте. Логично, что к рекламе должны применяться немного другие стандарты. То, что я расскажу, применимо к текстам, изображениям и видео/аудио, которые может создать и опубликовать обычный пользователь.

Что нужно понимать под модерацией контента

Модерация, или проверка, контента – это термин, который применяется к контенту (тексту, изображениям, аудио, видео), который загружают, публикуют и распространяют пользователи социальных платформ. Его нужно отличать от рекламных или редакционных материалов (то есть контент, который помогает продвигать товары или сообщать новую информацию, если такая функция существует на платформе), которыми обычно занимаются отдельные команды с собственными стандартами проверки.

Задача большинства платформ модерации контента – претворение в жизнь Стандартов сообщества или Пользовательского соглашения, в которых оговорено, что можно и что нельзя публиковать на платформе. Как легко догадаться, в этой области множество белых, черных и серых областей, поэтому специалисты проходят специальную подготовку, учатся принципам и правилам принятия решений.

На каком этапе в процессе участвуют люди

Было бы очень странно (и неправильно), если бы люди 1) проверяли весь контент, опубликованный на сайте, и 2) проверяли контент до публикации – то есть «одобряли» контент, прежде чем пользователь сможет его опубликовать.

Вместо этого компании широко используют специальные алгоритмы проверки контента, которые берут на себя большую часть тяжелой работы. Алгоритмы пробуют «распознать» контент. На этапе создания можно выделить определенные сигналы – кто загружает контент (история аккаунта или ее отсутствие), геолокация, сам контент и другие метаданные. После публикации контента происходит сбор новых данных – кто его просматривает, жалуются ли на него другие пользователи, делятся ли им и другие параметры.

Эти более информативные сигналы также поступают на вход алгоритма, который уточняет свое решение о том, подходит ли контент сайту. Большинство таких систем позволяют другим пользователям отмечать данные специальными метками, что сильно влияет на решение алгоритма.

В общем случае можно считать, что каждое сообщение в определенный момент времени принимает зеленый, желтый или красный цвет. Зеленый цвет означает, что такое может существовать на сайте. Желтый цвет означает, что алгоритм пока не определился. А красный означает, что этим материалам не место на сайте. Каждая из этих меток непостоянна и неидеальна. Ложные срабатывания и пропуски случаются постоянно.

Недостаточно определять эффективность политики по оценке контента только качеством используемых технологий. На самом деле решения принимаются людьми, но при поддержке программного кода. Менеджмент должен задавать границы между зеленым, желтым и красным цветом. Нужно определить, будут ли новые пользователи по умолчанию считаться доверенными. Нужно задать очередность, с которой объекты из разных категорий будут проходить ручную проверку. И здесь в дело вступают люди…

Что такое очередь на проверку?

Люди помогают создавать обучающие наборы для алгоритмов, однако их главная задача – постоянно заполнять очередь проверки записями, которые выдал алгоритм. Очередь обычно разбивается на несколько потоков в зависимости от приоритетности проверки (например, «срочное», «для проверки в реальном времени» и т.д.) и характеристик проверяющих – люди могут быть обучены проверке разных типов контента, говорить на разных языках и т.д. Это сложная система со встроенной логикой, которая устроена как фабрика.

Объем контента, поступающего в очередь на проверку, определяется общим объемом контента, публикуемого на платформе, и порогами, после которых требуется вмешательство человека. На скорость проверки влияет количество проверяющих, их способности/обучение и эффективность используемых ими инструментов.

Таким образом, если вы слышите, что «объявлен набор десяти тысяч новых модераторов», на это могут быть две причины. Во-первых, может вырасти количество записей на проверку (то есть порог снижается, и вручную будут проверять больше записей). Во-вторых, контент в очереди будет проверяться быстрее (объем контента не изменится, но специалистов станет больше).

Для компаний это вообще важно?

Если честно, да, но…

Да, но обработка контента – это скорее источник затрат, а не прибыли, поэтому часто расходы таких отделов жестко оптимизируют и ограничивают в ресурсах.

Да, но обработка контента часто воспринимается как стартовая работа для будущих менеджеров по продукту, дизайнеров и инженеров, так что эти отделы часто состоят в основном из молодежи и не имеют серьезного влияния на общий ход работы, а каждые один-два года кадровый состав полностью обновляется.

Да, но нехватка разнообразия точек зрения и рассогласование интересов среди старшего руководства часто приводит к тому, что истинный ущерб (для бренда, для пользовательского опыта) в случае появления на платформе «злокачественного» контента часто недооценивается.

Почему явная порнография – самый простой для цензуры тип контента? И почему при этом модерировать контент «сексуальной» направленности очень сложно?

Потому что для публикации порно существуют куда более удобные инструменты, чем Twitter, Facebook или YouTube. Кроме того, алгоритмы с высокой точностью выявляют обнаженные сцены. Однако контент, созданный для сексуального удовлетворения, но не содержащий обнаженные сцены, отслеживать куда сложнее. Писал ли я о политике YouTube касательно фетиш-видео? Интересное было обсуждение…

Что можно посоветовать менеджерам?

  1. Создайте новую метрику для панели управления. Если гендиректор с командой уделяет показателям безопасности контента столько же внимания, сколько прибыли, вовлечению и другим показателям, это докажет важность модерации контента.
  2. Используйте абсолютные, а не относительные показатели. Когда самые крупные платформы заявляют, что «99% нашего контента безопасно», на самом деле они имеют в виде «1% от множества – это все еще множество». Стремление преуменьшить масштаб проблем – чаще всего PR-ход – дает понять, что в действительности до этих вещей никому нет дела.
  3. Сконцентрируйтесь на предотвращении повторных нарушений и быстром исправлении уже имеющихся. Никто не ожидает от этих систем безошибочной работы, и, как мне кажется, лучшая тактика – считать всех пользователей благонадежными, пока те не докажут обратное, а виновных жестко наказывать. Особенно серьезные проблемы с этим у Twitter – в сети тут и там встречаются пользователи из «серой зоны».
  4. Руководство должно иметь опыт работы в проверке контента. Когда я работал в YouTube на должности ведущего продукт-менеджера, я старался регулярно уделять время проверке контента, так как не хотел отгораживаться от реалий рутинной работы. Конечно, я насмотрелся всякой грязи, зато не забывал, через что приходится проходить нашим специалистам по проверке и пользователям.
  5. Время проверки можно задавать на законодательном уровне. Мне интересно, может ли государство регулировать время проверки вместо регуляции самого контента. Понятно, что это комплексный вопрос, и новые требования могут привести к тому, что сервисы станут лояльнее подходить к спорному контенту, но сейчас меня очень занимает эта идея.

Источник

Материалы по теме:

Роскомнадзор показал сравнение соцсетей по удалению запрещенного контента

Как эмоции стали ключом к большому бизнесу

Instagram представил спам-фильтр для русского языка и новый фильтр оскорблений

Facebook будет бороться с политической пропагандой в соцсети

Фото на обложке: Carlos Muza/Unsplash


Самые актуальные новости - в Telegram-канале Rusbase

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter


Комментарии

Зарегистрируйтесь, чтобы оставлять комментарии и получить доступ к Pipeline — социальной сети, соединяющей стартапы и инвесторов.
Big Data Conference
14 сентября 2018
Ещё события


Telegram канал @rusbase