Rusbase
AI-журналист, писатель и поэт:
чьи тексты мы прочитаем
в ближайшем будущем?
24 сентября 2019



Бывает, читаешь в интернете новость и думаешь: «Что за робот это писал?» А ведь возможно, что и правда робот. Алгоритмы машинного обучения уже научились делать выжимки из многостраничных финансовых отчетов, сочинять романы и писать рэп. Что это значит для профессий, в которых умение писать тексты и играть со словами стоит во главе угла – журналистов, писателей, поэтов? Rusbase пообщался с экспертами рынка и выяснил, как в будущем может разделиться работа по написанию текстов между людьми и машинами.
Как ИИ пишет тексты?
Для начала поймем, как ИИ пишет тексты. «В самом простом случае создание модели машинного обучения для генерации текста происходит в несколько этапов, – рассказывает Татьяна Зобнина, старший аналитик-разработчик систем машинного обучения, NAUMEN. – Сначала собирается и обрабатывается достаточно большой объем текстов заданной характеристики. Например, новости определенной тематики или литературные произведения определенного жанра. Затем выбирается конкретный алгоритм. Он обучается на заданном наборе текстов, запоминает и обобщает характерные особенности исходного литературного материала. Таким образом строится модель машинного обучения. Полученная модель может генерировать текст, похожий на исходный материал, но, как правило, с ошибками».

Но ошибки в данном случае – это нормально. Потому что в отличие от изображений, объясняет Иван Ямщиков, AI-евангелист ABBYY, тексты и документы – не самый простой вид данных для работы. «В первую очередь из-за омонимии, когда отдельные слова, а иногда и целые фразы могут иметь совершенно разные значения в зависимости от контекста. Тем не менее, благодаря развитию технологий обработки естественного языка, ИИ научился неплохо анализировать большие объемы текстов, классифицировать информацию по различным признакам, извлекать значимые данные, определять эмоциональную окраску текста. Это активно используют крупные компании, которые работают с большим потоком документов и данных из разных источников. Например, банки используют подобные технологии ABBYY, чтобы собирать данные из новостей о своих контрагентах и автоматически выявлять в сообщениях факторы риска».

Еще одна возможность применения ИИ в текстах – выделение значимых фактов и имен в массиве юридических документов, продолжает Иван Ямщиков.
«Алгоритм может определить по тексту договора, о какой стороне сделки идёт речь, и дать общую оценку перспектив сотрудничества с организацией или выполнения того или иного обязательства. Но генерация текста – сложная задача для ИИ. Пока технологии научились создавать только небольшие связные отрывки текста. Например, несложные ответы пользователям в клиентскую поддержку: "Нажмите кнопку", "Перезагрузите браузер", "Переключаю вас на оператора". Другой пример – служебные тексты: короткие записки, коммерческие предложения, типовые договоры купли-продажи».

Иван Ямщиков
AI-евангелист ABBYY
Робожурналистика
ИИ все активнее проникает в мир текстов. Обширное поле для экспериментов – редакции. «В журналистике и работе редакций под искусственным интеллектом мы как правило понимаем машинное обучение и "умные" алгоритмы, которые чаще всего базируются на больших данных», – говорит Максим Корнев, доцент Института массмедиа РГГУ, эксперт MediaToolbox. По его мнению, лучше всего эти технологии работают в трех областях: при создании и дистрибуции контента (системы рекомендаций типа «читайте также»), в исследованиях аудитории и редакционной аналитике.
«Что касается создания контента, эти эксперименты активно ведутся примерно с середины 2010-х гг. Associated Press, The New York Times, The Guardian, Forbes и ряд других используют роботизированные системы для написания типовых заметок про погоду, финансы, спорт, дорожно-транспортную ситуацию или криминальные сводки. Роботы также хорошо анализируют массивы информации, находят всплески интереса или неочевидные корреляции. В России такие штуки делает, навскидку, "Яндекс для медиа" – опять же, как поставщик своих сервисов другим медиа».

Максим Корнев
доцент Института массмедиа РГГУ, эксперт MediaToolbox
«Короткие новости генерируются по шаблонам, где цифры подставляются из входных данных, а "обвязка" или написана человеком, или генерируется статистической моделью», – говорит Михаил Бурцев, заведующий лабораторией Нейронных систем и глубокого обучения МФТИ, руководитель проекта iPavlov НТИ.

Так, с помощью программы Cyborg газета Bloomberg выпускает статьи на основе финансовых отчетов. Программа способна очень быстро разобрать объемный документ и немедленно выдать новость с наиболее важными фактами и цифрами из него. Та же история с прогнозами погоды и спортивными результатами. В Forbes используют нейросеть Bertie для помощи журналистам в подготовке шаблонов новостных материалов. Программа Heliograf, которой пользуются в The Washington Post, в 2017 году сгенерировала для редакции около 850 статей, а в 2018 году получила награду Global BIGGIES Awards в категории Excellence in Use of Bots.
Примеры твитов от Heliograf
Источник: Daily Geek Show
«Что касается дистрибуции, то тут все грезят волшебной программой, – продолжает Максим Корнев, доцент Института массмедиа РГГУ, эксперт MediaToolbox. Закидываешь в нее текст и мультимедиа, а она сама перерабатывает это под различные платформы – соцсети, мессенджеры, рассылки. Но пока это мечты о будущем. А вот механизмы рекомендации на базе анализа предыдущих предпочтений пользователя активно внедряются как внутри самих редакций, так и предоставляются как сервис (тот же Relap.io)».

«Говоря об исследованиях аудитории и редакционной аналитике, то тут уже создано море сервисов и их комбинаций, – говорит Корнев. – Изучить аудиторию и интересы помогут сервисы типа "Крибрума" или "Медиалогии", в редакционной аналитике (включая наблюдения за аудиторией на ваших ресурсах) помогут "Медиатор", IO technologies, Content Insights. Все они используют наборы алгоритмов разной степени сложности и умности, но это точно будет упорядоченный роботизированный процесс и результат».

С ним согласна Татьяна Зобнина, старший аналитик-разработчик систем машинного обучения, NAUMEN.
«Модель машинного обучения будет справляться с генерацией простых и коротких новостных подводок и текстов до 300 слов. Если модель обучена качественно и от новости не требуется детального фактологического совпадения с событиями из реальной жизни, то генерируемые машиной короткие тексты будут вполне похожи на человеческие.

Если же речь идет о генерации длинных последовательностей символов и слов, а тем более серьезных репортажей и расследований, то в силу того, что не существует достаточно проработанного математического аппарата для оценки качества таких последовательностей, машинный текст будет совершенно неполноценным материалом. Поэтому пока удел моделей машинного обучения – генерация небольших по объему последовательностей символов и слов, которые еще необходимо дорабатывать до качественного новостного продукта людям».

Татьяна Зобнина
старший аналитик-разработчик систем машинного обучения, NAUMEN
Александр Амзин
менеджер по продукту The Bell
Использование ИИ в работе современной редакции неизбежно, и он уже активно используется даже теми, кто об этом не знает. Поиск по сайту и в базах данных часто задействует машинное обучение; офисные инструменты – например, Word или PowerPoint – тоже активно используют ИИ. Многие журналисты прибегают к автоматическим переводчикам, и эти механизмы – тоже типичный пример ИИ. В дистрибуции именно ИИ решает, кому какой материал показать в соцсетях или рекомендательных сервисах. Профессии все это не угрожает, пока сохраняются журналистские жанры и пока у общества остается запрос на творческое мышление.
Татьяна Зобнина
старший аналитик-разработчик систем машинного обучения, NAUMEN
Задача редактуры и написание любых по объему статей – это принципиально разные задачи. Объединяет их то, что полностью избавиться от участия человека в их решении невозможно. Зато можно значительно снизить время, затраченное редактором на поиск простейших и фактологических ошибок в тексте, и улучшить точность редактуры. Но из-за наличия терминологических особенностей и особенностей авторского текста полностью избавиться от участия человека пока нельзя. В написании полноценных статей без участия людей совсем не обойтись.

Модели машинного обучения могут быть эффективны в сборе и предварительной обработке новостных обзоров, а вот развернуть такие обзоры в полноценные статьи и репортажи под силу только человеку. Поэтому профессия журналиста и редактора не исчезнет, а, с большей вероятностью, модифицируется и потребует от журналистов будущего писать качественные расследования, репортажи и делать углубленный анализ событий, в которых модели машинного обучения еще очень далеки от человеческого уровня.
4 октября в Москве пройдет Ai Stories — конференция для бизнеса от лучших специалистов по Data Science. Приходите на Ai Stories и следите за темой искусственного интеллекта в бизнесе в нашем канале.
День, когда компьютер напишет роман
Окей, ИИ пишет новости. А что еще? Говорят, в 2049 году машина напишет роман, который станет бестселлером New York Times. Уже сегодня волшебство AI затронуло мир поттерианы: Botnik Studios и нейросеть Predictive Writer написали главу новой книги «Гарри Поттер и портрет того, что выглядит как огромная куча пепла». Алгоритм обучался на предыдущих семи книгах, и, по мнению фанатов, фанфик получился вполне годным. Специалисты из отдела машинного интеллекта и исследований компании «Яндекс» создали нейросеть, которая умело подделала Гоголя. Для этого алгоритм сначала обучили на 30 тысячах книг русской прозы, а затем отдельно «дообучили» на Николае Васильевиче.

Еще один прецедент – «День, когда компьютер напишет роман» – короткое произведение, вошедшее в финал литературного конкурса Hoshi Shinichi Literary Award. Написан он, как вы догадываетесь, алгоритмом группы японских разработчиков. Программа получила набор входных данных: примерная сюжетная линия, пол персонажей, ряд фраз и предложений, которые нужно использовать в ходе работы. Радует, что 80% работы над романом все же совершили люди.
Источник: Botnik Studios
Несмотря на отдельные опусы, в издательскую сферу ИИ еще не пришел, говорит Екатерина Дзоря, журналист, PR-директор редакции DELIBRI издательства «РИПОЛ классик». «Одна из главных тенденций в современной литературе – написание книги за "автора", когда коммерческие писатели создают тексты для блогеров, бизнесменов, медийных личностей. Это напоминает работу ИИ – создание нового произведения на основе существующей базы данных. Хотя, конечно, базой данных такие материалы сложно назвать – чаще всего они совершенно разрозненны, и их приходится домысливать, доделывать и доводить до ума, привлекая не просто рабочую силу, а творческие способности коммерческих писателей».

Имена зачастую продаются лучше, чем качество и талант. Даже если предположить, что ИИ сможет создавать полноценные книги, фактуру для них все равно будут писать и придумывать люди, считает Екатерина Дзоря. «Преимущество качественной художественной прозы – уникальный стиль каждого отдельного писателя, возможность передать человеческие переживания посредством слов. Художественные приемы, слог, правила композиции – этому реально научить ИИ, но отображать человеческие чувства ему не под силу. Скорее можно предположить, что ИИ станет автором однотипных книг вроде мотивирующей литературы, где одни и те же советы повторяют на новый лад для представителей разных целевых аудиторий».

Еще один вариант применения ИИ в литературе – сжатые варианты громоздких инструкций или рефераты исследований на сложные технические темы. Пример – книга «Lithium-Ion Batteries: A Machine-Generated Summary of Current Research» – 180-страничная выжимка из более чем 53 тысяч статей и результатов исследований о литий-ионных аккумуляторах. Она сильно облегчила жизнь ученым, которым больше не нужно копаться в сотнях тысяч документов в поисках интересной или важной информации.
Татьяна Зобнина
старший аналитик-разработчик систем машинного обучения, NAUMEN
Сейчас нет критериев для оценки, насколько материал, созданный при помощи алгоритмов машинного обучения, является «творчеством». Можно опираться на мнение экспертов, на массовое мнение или на денежный эквивалент оценки уровня «ИИ-творчества». В современном мире очень сложно отделить успешность, востребованность и прибыльность. Литература, сгенерированная при помощи алгоритмов машинного обучения, интересна как концептуальное искусство или для развлечения, но вряд ли заинтересует массового читателя и критиков.
Молодость прошла, как пощёчина
Новости, инструкции и даже романы – одно. Но ИИ покусился и на территорию тонких материй. Более того, некоторые считают, что тексты, созданные нейросетями, мало отличаются от подростковой поэзии. На всемирной выставке «Экспо-2020» в Дубае представят павильон Poem Pavilion, на экранах которого искусственный интеллект будет складывать отдельные слова в стихотворные строчки на английском, арабском, китайском и французском языках.

В 2018 году «Яндекс» выпустил исследование «Русский рэп как набор слов». В компании проанализировали тексты и нашли самые характерные (и нехарактерные) для жанра и конкретных рэперов слова. В результате получилось не только занимательное облако рэперской лексики и карта русского рэпа, но и тест, в котором пользователям предложили угадать, что написано машиной, а что реальным музыкантом.
«С помощью компьютера можно создавать прорывные образы, которые человеку не свойственны. Мы берем картинку, накладываем на нее некоторые алгоритмы нейросетей и получаем что-то совершенно безумное. Это и ценится при художественном творчестве и восприятии. Со стихами то же самое: получаются неожиданные сочетания слов, которые нам уже не кажутся бессмысленными. Мы в Creaited Labs тоже пишем стихи с использованием нейросетей. Например, недавно сооснователь Creaited Labs прислал мне строчку, которую сгенерировала наша сеть: "молодость прошла, как пощёчина". Мне кажется, это довольно яркий и неожиданный образ».

Иван Ямщиков
AI-евангелист ABBYY
Но не все так гладко. «У искусственного интеллекта при написании стихов хорошо получается то же, что и у современных шахматных программ: "придумывать" такие ходы и повороты темы, которые человеку в голову, скорее всего, не пришли бы», – объясняет Борис Орехов, к.ф.н., доцент Школы лингвистики НИУ ВШЭ. Это своего рода «инопланетная» поэзия, которая в чём-то может быть привлекательна в том числе и эстетически, хотя и в очень умеренных дозах. Если читать нейростихи подряд в большом количестве, то срабатывает «эффект зловещей долины».
Что у нейросетей пока не получается?
Борис Орехов отмечает «бездушность» AI-текстов. «Пока у нейросетей плохо получается то, что человек интуитивно ощущает как "смысл", то есть некоторое законченное содержательное высказывание. Текст от искусственного интеллекта – это только имитация настоящего текста, муляж: внешне похоже, вроде бы, те же самые слова, предложения, падежи, а внутри не плоть, а поролон».

Также пока технологии не достигли уровня, чтобы автоматически генерировать сюжеты произведений, добавляет Иван Ямщиков, AI-евангелист ABBYY. «Это связано с тем, что в тексте информация о том или ином объекте может быть неочевидно распределена по своей значимости. В текстах, в отличие от изображений, нет того, что математики называют локальной консистентностью информации. Небольшое изменение одного слова в последнем абзаце может менять смысл всего текста на противоположный. Эта специфика усложняет работу с объемными материалами.

Другая проблема связана с тем, что когнитивные психологи называют принципом минимальной коммуникации. Так, если вы захотите мне что-то объяснить, то постараетесь использовать для этого минимум текста. Дадите мне ровно столько информации, сколько нужно, чтобы я понял, о чём идёт речь. В конце концов, у всех людей есть некоторый общий опыт, который позволяет нам понимать друг друга, не поясняя каждое слово. У машин такого опыта нет. Соответственно, даже обучая алгоритмы на больших корпусах текстов, трудно добиться какого-то аналога человеческого "понимания"».
Что будет с профессиями, связанными с текстами?
Михаил Бурцев
заведующий лабораторией Нейронных систем и глубокого обучения МФТИ, руководитель проекта iPavlov НТИ
Если речь идет о серьезных текстах, то писателям таковых ничего не грозит. ИИ им не поможет и их не заменит. Труд тех, кто по шаблону делает короткие новостные заметки на основе повторяющихся событий – спорт, криминал и так далее, – может в ближайшее время стать невостребованным. Если говорить о поэтах-графоманах или писателях псевдофилософских текстов, то они найдут себе достойного конкурента по скорости генерации чепухи.
Максим Корнев
доцент Института массмедиа РГГУ, эксперт MediaToolbox
Могут ли алгоритмы заменить людей? Да – там, где нужно обрабатывать большие массивы, где есть сценарий и много рутины. Нет – там, где формируется новый смысл и важен контекст, расставляются акценты и создается человеческая ценность. Возможно, в будущем суперобученные нейросети на квантовых компьютерах и будут обладать человеческими качествами, вплоть до этики, эмпатии и иронии. Но пока в условном «ИИ» больше «искусственного», чем «интеллекта».
Иван Ямщиков
AI-евангелист ABBYY
Все профессии, связанные с интеллектуальной обработкой информации, ждет трансформация. Например, не исключаю, что в сборе информации для новостной ленты все больше будут применять ИИ. Уже сейчас такие издания, как Washington Post, Associated Press используют подобные технологии для подготовки спортивных и биржевых сводок. Рутины в работе с текстом будет все меньше, а потребность в качественном контенте будут расти. Уже сейчас заметно, что есть постоянно растущий спрос на экспертное мнение и глубинную аналитику. Просто сообщение с некоторыми фактами уже не так интересно, как отношение конкретного человека, а лучше эксперта в своей области, к нему. Этот спрос с развитием ИИ никуда не пропадёт.
© Rusbase, 2019
Автор: Зинаида Кунаковская

Фото на обложке: Vasilyev Alexandr / Shutterstock.
Татьяна Петрущенкова