Top.Mail.Ru
Истории

Как понять, что текст написан нейросетью

Истории
Елена Лиханова
Елена Лиханова

Старший редактор RB.RU

Елена Лиханова

Качество контента, созданного искусственным интеллектом, становится все выше, и распознать его все сложнее. Даже специальные инструменты не всегда справляются с задачей, и могут посчитать, что текст, написанный человеком, был сгенерирован нейросетью.

Рассказываем, на что стоит обратить внимание, чтобы различать тексты, созданные ИИ и людьми, и какие факторы делают их похожими.

Как понять, что текст написан нейросетью
  1. Истории

Как программы определяют происхождение текста?

Начнем с основ. Чтобы обнаружить синтетический, то есть созданный машиной текст, нужно искать закономерности.

Дело в том, что когда человек пишет, он объединяет случайные мысли в осмысленные предложения. Люди не следуют шаблонам, и одни предложения могут быть слишком длинными, а другие — короткими.


Читайте по теме:

Промт-инженер: как освоить искусство общения с нейросетями

65% работодателей не будут доплачивать сотрудникам за умение работать с нейросетями — исследование


И это полная противоположность того, как мыслит и пишет ИИ. Здесь не стоит ждать случайностей, и текст будет иметь четкую структуру. Некоторые идеи или слова будут повторяться, а выбор лексики может выглядеть механическим, напоминая речь робота.

Все это учитывают специализированные программы. Чтобы различать то, что написано человеком, и то, что создано нейросетью, используются четыре параметра.

Классификаторы

Это алгоритмы, которые определяют класс текста при помощи таких факторов, как использование, грамматика, стиль и тональность.

Например, текст с невыразительной тональностью, грамматическими ошибками и повторами с большей вероятностью будет отнесен к категории сгенерированных ИИ.

Встраивания

В этом контексте встраивания (embeddings) — это числовые представления слов и их взаимосвязей друг с другом. Они выражены в виде векторов в многомерном пространстве, каждый из которых имеет уникальный код.

Эти коды помогают компьютерам понять, как каждое слово соотносится друг с другом и в каком контексте употребляется. Базовая модель машинного обучения постоянно обучается определять, какие коды распространены в текстах от ИИ, а какие — нет.

Перплексия

Это характеристика текста, которая определяет степень запутанности внутри фрагмента. Люди пишут с очень большой степенью перплексии. Но не ИИ.

Попробуйте придумать, как завершить следующее предложение: «Вчера я смотрел "Оппенгеймер", и это ... фильм». Если в голову приходит что-то вроде «захватывающий», «выдающийся», «замечательный», «впечатляющий» или «увлекательный», очень жаль, но, возможно, вы робот.

Скорее всего, человек выбрал бы что-то более разговорное или основанное на личном опыте. Что-то вроде «полное безумие» или «совсем не то, что я ожидал». В конце концов, у человека могут быть ожидания от фильма. А у искусственного интеллекта — нет.

Если это действительно так, то, вероятно, языковая модель в его основе галлюцинирует, то есть делает заявления, не подкрепленные фактами, или у нее нет ограничений, которые бы контролировали качество и выходные данные.

Спонтанность

Мы уже говорили о том, что люди пишут непредсказуемо. И некоторые предложения могут быть длинными, а некоторые — короткими. Спонтанность (burstiness) — еще одна характеристика текста, которая это определяет.

Текст, написанный с помощью искусственного интеллекта, обычно состоит из предложений, схожих по длине и структуре (низкая спонтанность).

Напротив, человеческий текст содержит и длинные, и короткие предложения, и достаточно креативен, чтобы ломать шаблоны. При этом в нем не будет скучной структуры (высокая спонтанность).

Детекторы ИИ используют комбинацию этих четырех концепций для обнаружения сгенерированного контента. Но насколько они точны? К сожалению, пока метод работает не на 100%. Он лишь сообщает вероятность.

Так, оценка в 70% означает, что программа на 70% уверена в том, что контент создан ИИ, и на 30% — в том, что его автором является человек.

Сама идея подразумевает возможность ошибки, поскольку ориентируется лишь на уровни уверенности и вероятности.

Почему программы для проверки ошибаются?

Существует много причин, по которым обнаружить созданный машиной контент все труднее.

  • Генеративный ИИ их опережает: такие модели, как ChatGPT 4 (и даже бесплатная версия), действительно все лучше пишут тексты, похожие на человеческие. Они используют только правильные классификаторы, встраивания, перплексию и спонтанность. Они проанализировали безумное количество контента, созданного человеком, чтобы найти золотую середину между правильным использованием грамматики и выбором слов.
  • Программа просто недостаточно хороша: как и программы-генераторы, детекторы ИИ должны обучаться на огромных объемах данных. В противном случае они не смогут точно классифицировать контент.
  • Предвзятость часто проникает в обучающие данные: в результате ИИ систематически принимает неверные решения для конкретных случаев использования. И это серьезная проблема. Она существует потому, что все обучающие данные поступают от людей. У людей есть предубеждения, даже если они о них не подозревают.
  • Новые стратегии генерации контента усугубляют ситуацию: писатели-профессионалы в области ИИ и блогеры постоянно разрабатывают новые стратегии, чтобы обмануть детекторы искусственного интеллекта. Например, они разработали специальные подсказки, позволяющие заставить ChatGPT записывать контент, который с большей вероятностью останется незамеченным. Теперь есть даже специальный плагин, который делает текст ChatGPT «человечнее».

Как на это повлиять?

Лучше всего самим научиться распознавать сгенерированный контент.

Немного практики, и вы сможете замечать следующие особенности:

  • Повторяющиеся слова и фразы, особенно те, что ориентированы на возможные целевые ключевые слова. Структура текста может показаться слишком однородной. Например, «Я люблю кошек, потому что кошки милые. У кошек мягкий мех, и они приятно мурлыкают. Не могу представить свою жизнь без кошек».
  • Очень общая тональность, отсутствие или минимум креативности. Например, «Добро пожаловать на наш веб-сайт. Мы предлагаем широкий спектр продуктов и услуг. Мы удовлетворяем потребности наших клиентов. Наша команда прикладывает все усилия, чтобы обеспечить наилучшее качество и удовлетворить запросы наших клиентов».
  • Поверхностный текст без реальных инсайтов или практических знаний, основанных на реальном жизненном опыте. Например, «Вы всегда должны сохранять позитивный настрой и никогда не сдаваться. Позитивность приносит успех и счастье в жизни. Это хорошая привычка».
  • Фактические ошибки и устаревшая информация. Известно, что генеративный ИИ время от времени испытывает галлюцинации и придумывает что-то без какой-либо реальной основы. Например, «Согласно недавнему исследованию, проведенному в 2002 году, Земля плоская, и солнце вращается вокруг нее».
  • Логические нестыковки и ошибки, которые просто неловко читать. Например, «Джон обедал вечером, когда пришла утренняя почта».
  • Текст в целом создает ощущение безжизненности.

Генеративный ИИ продолжается совершенствоваться, а вслед за ним — и программы для проверки. Никто не знает, кто в конечном итоге выиграет гонку. Возможно, пока лучшим способом будет полагаться на собственную внимательность.

Источник.

Обложка снегерирована нейросетью Midjourney

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

FutureFood
Кто производит «альтернативную» еду
Карта