Качество контента, созданного искусственным интеллектом, становится все выше, и распознать его все сложнее. Даже специальные инструменты не всегда справляются с задачей, и могут посчитать, что текст, написанный человеком, был сгенерирован нейросетью.
Рассказываем, на что стоит обратить внимание, чтобы различать тексты, созданные ИИ и людьми, и какие факторы делают их похожими.
Как программы определяют происхождение текста?
Начнем с основ. Чтобы обнаружить синтетический, то есть созданный машиной текст, нужно искать закономерности.
Дело в том, что когда человек пишет, он объединяет случайные мысли в осмысленные предложения. Люди не следуют шаблонам, и одни предложения могут быть слишком длинными, а другие — короткими.
Читайте по теме:
Промт-инженер: как освоить искусство общения с нейросетями
65% работодателей не будут доплачивать сотрудникам за умение работать с нейросетями — исследование
И это полная противоположность того, как мыслит и пишет ИИ. Здесь не стоит ждать случайностей, и текст будет иметь четкую структуру. Некоторые идеи или слова будут повторяться, а выбор лексики может выглядеть механическим, напоминая речь робота.
Все это учитывают специализированные программы. Чтобы различать то, что написано человеком, и то, что создано нейросетью, используются четыре параметра.
Классификаторы
Это алгоритмы, которые определяют класс текста при помощи таких факторов, как использование, грамматика, стиль и тональность.
Например, текст с невыразительной тональностью, грамматическими ошибками и повторами с большей вероятностью будет отнесен к категории сгенерированных ИИ.
Встраивания
В этом контексте встраивания (embeddings) — это числовые представления слов и их взаимосвязей друг с другом. Они выражены в виде векторов в многомерном пространстве, каждый из которых имеет уникальный код.
Эти коды помогают компьютерам понять, как каждое слово соотносится друг с другом и в каком контексте употребляется. Базовая модель машинного обучения постоянно обучается определять, какие коды распространены в текстах от ИИ, а какие — нет.
Перплексия
Это характеристика текста, которая определяет степень запутанности внутри фрагмента. Люди пишут с очень большой степенью перплексии. Но не ИИ.
Попробуйте придумать, как завершить следующее предложение: «Вчера я смотрел "Оппенгеймер", и это ... фильм». Если в голову приходит что-то вроде «захватывающий», «выдающийся», «замечательный», «впечатляющий» или «увлекательный», очень жаль, но, возможно, вы робот.
Скорее всего, человек выбрал бы что-то более разговорное или основанное на личном опыте. Что-то вроде «полное безумие» или «совсем не то, что я ожидал». В конце концов, у человека могут быть ожидания от фильма. А у искусственного интеллекта — нет.
Если это действительно так, то, вероятно, языковая модель в его основе галлюцинирует, то есть делает заявления, не подкрепленные фактами, или у нее нет ограничений, которые бы контролировали качество и выходные данные.
Спонтанность
Мы уже говорили о том, что люди пишут непредсказуемо. И некоторые предложения могут быть длинными, а некоторые — короткими. Спонтанность (burstiness) — еще одна характеристика текста, которая это определяет.
Текст, написанный с помощью искусственного интеллекта, обычно состоит из предложений, схожих по длине и структуре (низкая спонтанность).
Напротив, человеческий текст содержит и длинные, и короткие предложения, и достаточно креативен, чтобы ломать шаблоны. При этом в нем не будет скучной структуры (высокая спонтанность).
Детекторы ИИ используют комбинацию этих четырех концепций для обнаружения сгенерированного контента. Но насколько они точны? К сожалению, пока метод работает не на 100%. Он лишь сообщает вероятность.
Так, оценка в 70% означает, что программа на 70% уверена в том, что контент создан ИИ, и на 30% — в том, что его автором является человек.
Сама идея подразумевает возможность ошибки, поскольку ориентируется лишь на уровни уверенности и вероятности.
Почему программы для проверки ошибаются?
Существует много причин, по которым обнаружить созданный машиной контент все труднее.
- Генеративный ИИ их опережает: такие модели, как ChatGPT 4 (и даже бесплатная версия), действительно все лучше пишут тексты, похожие на человеческие. Они используют только правильные классификаторы, встраивания, перплексию и спонтанность. Они проанализировали безумное количество контента, созданного человеком, чтобы найти золотую середину между правильным использованием грамматики и выбором слов.
- Программа просто недостаточно хороша: как и программы-генераторы, детекторы ИИ должны обучаться на огромных объемах данных. В противном случае они не смогут точно классифицировать контент.
- Предвзятость часто проникает в обучающие данные: в результате ИИ систематически принимает неверные решения для конкретных случаев использования. И это серьезная проблема. Она существует потому, что все обучающие данные поступают от людей. У людей есть предубеждения, даже если они о них не подозревают.
- Новые стратегии генерации контента усугубляют ситуацию: писатели-профессионалы в области ИИ и блогеры постоянно разрабатывают новые стратегии, чтобы обмануть детекторы искусственного интеллекта. Например, они разработали специальные подсказки, позволяющие заставить ChatGPT записывать контент, который с большей вероятностью останется незамеченным. Теперь есть даже специальный плагин, который делает текст ChatGPT «человечнее».
Как на это повлиять?
Лучше всего самим научиться распознавать сгенерированный контент.
Немного практики, и вы сможете замечать следующие особенности:
- Повторяющиеся слова и фразы, особенно те, что ориентированы на возможные целевые ключевые слова. Структура текста может показаться слишком однородной. Например, «Я люблю кошек, потому что кошки милые. У кошек мягкий мех, и они приятно мурлыкают. Не могу представить свою жизнь без кошек».
- Очень общая тональность, отсутствие или минимум креативности. Например, «Добро пожаловать на наш веб-сайт. Мы предлагаем широкий спектр продуктов и услуг. Мы удовлетворяем потребности наших клиентов. Наша команда прикладывает все усилия, чтобы обеспечить наилучшее качество и удовлетворить запросы наших клиентов».
- Поверхностный текст без реальных инсайтов или практических знаний, основанных на реальном жизненном опыте. Например, «Вы всегда должны сохранять позитивный настрой и никогда не сдаваться. Позитивность приносит успех и счастье в жизни. Это хорошая привычка».
- Фактические ошибки и устаревшая информация. Известно, что генеративный ИИ время от времени испытывает галлюцинации и придумывает что-то без какой-либо реальной основы. Например, «Согласно недавнему исследованию, проведенному в 2002 году, Земля плоская, и солнце вращается вокруг нее».
- Логические нестыковки и ошибки, которые просто неловко читать. Например, «Джон обедал вечером, когда пришла утренняя почта».
- Текст в целом создает ощущение безжизненности.
Генеративный ИИ продолжается совершенствоваться, а вслед за ним — и программы для проверки. Никто не знает, кто в конечном итоге выиграет гонку. Возможно, пока лучшим способом будет полагаться на собственную внимательность.
Обложка снегерирована нейросетью Midjourney
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
ВОЗМОЖНОСТИ
16 октября 2024
17 октября 2024
20 октября 2024
20 октября 2024
20 октября 2024