Как понять, что текст написан нейросетью

Истории 24 октября 2023

Елена Лиханова

Старший редактор RB.RU

Елена Лиханова

Качество контента, созданного искусственным интеллектом, становится все выше, и распознать его все сложнее. Даже специальные инструменты не всегда справляются с задачей, и могут посчитать, что текст, написанный человеком, был сгенерирован нейросетью.

Рассказываем, на что стоит обратить внимание, чтобы различать тексты, созданные ИИ и людьми, и какие факторы делают их похожими.

Подписаться на RB.RU в Telegram

Как программы определяют происхождение текста?

Начнем с основ. Чтобы обнаружить синтетический, то есть созданный машиной текст, нужно искать закономерности.

Дело в том, что когда человек пишет, он объединяет случайные мысли в осмысленные предложения. Люди не следуют шаблонам, и одни предложения могут быть слишком длинными, а другие — короткими.

Читайте по теме:

Промт-инженер: как освоить искусство общения с нейросетями

65% работодателей не будут доплачивать сотрудникам за умение работать с нейросетями — исследование

И это полная противоположность того, как мыслит и пишет ИИ. Здесь не стоит ждать случайностей, и текст будет иметь четкую структуру. Некоторые идеи или слова будут повторяться, а выбор лексики может выглядеть механическим, напоминая речь робота.

Все это учитывают специализированные программы. Чтобы различать то, что написано человеком, и то, что создано нейросетью, используются четыре параметра.

Классификаторы

Это алгоритмы, которые определяют класс текста при помощи таких факторов, как использование, грамматика, стиль и тональность.

Например, текст с невыразительной тональностью, грамматическими ошибками и повторами с большей вероятностью будет отнесен к категории сгенерированных ИИ.

Встраивания

В этом контексте встраивания (embeddings) — это числовые представления слов и их взаимосвязей друг с другом. Они выражены в виде векторов в многомерном пространстве, каждый из которых имеет уникальный код.

Эти коды помогают компьютерам понять, как каждое слово соотносится друг с другом и в каком контексте употребляется. Базовая модель машинного обучения постоянно обучается определять, какие коды распространены в текстах от ИИ, а какие — нет.

Перплексия

Это характеристика текста, которая определяет степень запутанности внутри фрагмента. Люди пишут с очень большой степенью перплексии. Но не ИИ.

Попробуйте придумать, как завершить следующее предложение: «Вчера я смотрел "Оппенгеймер", и это ... фильм». Если в голову приходит что-то вроде «захватывающий», «выдающийся», «замечательный», «впечатляющий» или «увлекательный», очень жаль, но, возможно, вы робот.

Скорее всего, человек выбрал бы что-то более разговорное или основанное на личном опыте. Что-то вроде «полное безумие» или «совсем не то, что я ожидал». В конце концов, у человека могут быть ожидания от фильма. А у искусственного интеллекта — нет.

Если это действительно так, то, вероятно, языковая модель в его основе галлюцинирует, то есть делает заявления, не подкрепленные фактами, или у нее нет ограничений, которые бы контролировали качество и выходные данные.

Спонтанность

Мы уже говорили о том, что люди пишут непредсказуемо. И некоторые предложения могут быть длинными, а некоторые — короткими. Спонтанность (burstiness) — еще одна характеристика текста, которая это определяет.

Текст, написанный с помощью искусственного интеллекта, обычно состоит из предложений, схожих по длине и структуре (низкая спонтанность).

Напротив, человеческий текст содержит и длинные, и короткие предложения, и достаточно креативен, чтобы ломать шаблоны. При этом в нем не будет скучной структуры (высокая спонтанность).

Детекторы ИИ используют комбинацию этих четырех концепций для обнаружения сгенерированного контента. Но насколько они точны? К сожалению, пока метод работает не на 100%. Он лишь сообщает вероятность.

Так, оценка в 70% означает, что программа на 70% уверена в том, что контент создан ИИ, и на 30% — в том, что его автором является человек.

Сама идея подразумевает возможность ошибки, поскольку ориентируется лишь на уровни уверенности и вероятности.

Почему программы для проверки ошибаются?

Существует много причин, по которым обнаружить созданный машиной контент все труднее.

Генеративный ИИ их опережает: такие модели, как ChatGPT 4 (и даже бесплатная версия), действительно все лучше пишут тексты, похожие на человеческие. Они используют только правильные классификаторы, встраивания, перплексию и спонтанность. Они проанализировали безумное количество контента, созданного человеком, чтобы найти золотую середину между правильным использованием грамматики и выбором слов.
Программа просто недостаточно хороша: как и программы-генераторы, детекторы ИИ должны обучаться на огромных объемах данных. В противном случае они не смогут точно классифицировать контент.
Предвзятость часто проникает в обучающие данные: в результате ИИ систематически принимает неверные решения для конкретных случаев использования. И это серьезная проблема. Она существует потому, что все обучающие данные поступают от людей. У людей есть предубеждения, даже если они о них не подозревают.
Новые стратегии генерации контента усугубляют ситуацию: писатели-профессионалы в области ИИ и блогеры постоянно разрабатывают новые стратегии, чтобы обмануть детекторы искусственного интеллекта. Например, они разработали специальные подсказки, позволяющие заставить ChatGPT записывать контент, который с большей вероятностью останется незамеченным. Теперь есть даже специальный плагин, который делает текст ChatGPT «человечнее».

Как на это повлиять?

Лучше всего самим научиться распознавать сгенерированный контент.

Немного практики, и вы сможете замечать следующие особенности:

Повторяющиеся слова и фразы, особенно те, что ориентированы на возможные целевые ключевые слова. Структура текста может показаться слишком однородной. Например, «Я люблю кошек, потому что кошки милые. У кошек мягкий мех, и они приятно мурлыкают. Не могу представить свою жизнь без кошек».
Очень общая тональность, отсутствие или минимум креативности. Например, «Добро пожаловать на наш веб-сайт. Мы предлагаем широкий спектр продуктов и услуг. Мы удовлетворяем потребности наших клиентов. Наша команда прикладывает все усилия, чтобы обеспечить наилучшее качество и удовлетворить запросы наших клиентов».
Поверхностный текст без реальных инсайтов или практических знаний, основанных на реальном жизненном опыте. Например, «Вы всегда должны сохранять позитивный настрой и никогда не сдаваться. Позитивность приносит успех и счастье в жизни. Это хорошая привычка».
Фактические ошибки и устаревшая информация. Известно, что генеративный ИИ время от времени испытывает галлюцинации и придумывает что-то без какой-либо реальной основы. Например, «Согласно недавнему исследованию, проведенному в 2002 году, Земля плоская, и солнце вращается вокруг нее».
Логические нестыковки и ошибки, которые просто неловко читать. Например, «Джон обедал вечером, когда пришла утренняя почта».
Текст в целом создает ощущение безжизненности.

Генеративный ИИ продолжается совершенствоваться, а вслед за ним — и программы для проверки. Никто не знает, кто в конечном итоге выиграет гонку. Возможно, пока лучшим способом будет полагаться на собственную внимательность.

Источник.

Обложка снегерирована нейросетью Midjourney

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

ТЕГИ

Искусственный интеллект
Лайфхаки
Разработка ПО
Технологии
Искусственный интеллект
Лайфхаки
Разработка ПО
Технологии

Истории

Материалы по теме

Пройти курс «Как построить личный бренд»
1 $1,5 млрд и 91% маржи: Figma готова сделать главное IPO года, но боится ИИ-стартапов Возможное IPO компании Figma оценивается в $1,5 млрд 02 июля 18:14
2 8 советов для начинающих пользователей Obsidian: как начать и эффективно использовать приложение Настройте свой «второй мозг» 04 апреля 08:30
3 Минпромторг предложил «Яндексу» и Сбербанку разработать ПО для промышленных роботов Ведомство планирует вывести Россию в топ-25 стран по плотности роботизации 27 марта 15:07
4 «Яндекс» выпустит сервис-конструктор для создания интернет-магазинов Новый продукт должен стать аналогом канадского Shopify 21 марта 12:56

Как понять, что текст написан нейросетью

Как программы определяют происхождение текста?

Классификаторы

Встраивания

Перплексия

Спонтанность

Почему программы для проверки ошибаются?

Как на это повлиять?

Популярное

Налог на прибыль организаций

Большинство ритейлеров заявили о намерении увеличить бизнес без расширения штата

Торговая марка для компании: как проверить и зарегистрировать

Как законно уволиться без отработки?

Ошибка 502 Bad Gateway: причины и способы устранения

Материалы по теме