Как искусственный интеллект написал свою первую научную работу

Татьяна Петрущенкова
Татьяна Петрущенкова

Редактор «Технологий»

Расскажите друзьям
Татьяна Петрущенкова

Количество исследований, которые сегодня публикует научное сообщество, больше, чем любой ученый может прочитать. Однако скоро в этом вопросе исследователи смогут надеяться на искусственный интеллект, который будет изучать тысячи статей и формировать их краткое содержание — именно так поступила команда из университета Гёте.

Вы можете прочитать первую работу, написанную «Beta Writer», здесь. Правда, если вы не фанат литий-ионных аккумуляторов и их химического состава, работа может показаться вам немного «сухой».

Само исследование креативно называется «Литий-ионные аккумуляторы: автоматическое краткое изложение текущих исследований». Всё именно так, как звучит — вы увидите 250 страниц чего-то вроде:

Структура пор и толщина сепаратора должны тщательно контролироваться, так как необходимо поддерживать удовлетворительный баланс между механической прочностью и ионной электропроводностью (Арора и Чжан [40]; Ли и другие [33]; Чжан [50]), чтобы удовлетворять этим двум функциям [5]. Структура пор и пористость материала, безусловно, имеют решающее значение для производительности сепаратора в батарее в дополнение к материалу сепаратора [5].

Как бы не было интересно исследование литий-ионных аккумуляторов, оно имеет лишь косвенное отношение к реальной цели проекта. Создатели ИИ в подробном и интересном предисловии к книге объясняют, что их основная цель — начать обсуждение научной литературы, созданной машиной, и поднять вопросы, связанные с авторством, технической составляющей, этикой и другими аспектами.

Другими словами, их задачей было задать вопросы, а не выдать результат. И вопросов у них в избытке.

Кто является создателем машинного контента? Могут ли разработчики алгоритмов рассматриваться как авторы? Или это человек, который вводит данные (например, термин «литий-ионные батареи») и настраивает различные параметры? Можно ли вообще определить создателя? Кто решает, что именно машина должна сгенерировать? Кто несет ответственность за «машинный» контент с этической точки зрения?

Бурные дебаты между исследователями, их коллегами и экспертами, которые помогали в производстве этой книги, дают понять, что это — только начало. Но как Хеннинг Шёненбергер пишет в предисловии, нужно с чего-то начинать, и это такой же хороший старт, как и любой другой.

В самом деле, нам удалось разработать первый прототип, который также показывает, что нам ещё предстоит долгий путь: выборочное изложение больших текстовых корпусов всё ещё несовершенно, а перефразированные тексты, синтаксис и словосочетания иногда кажутся неуклюжими. Однако мы специально решили не «полировать» и не править текст, чтобы показать текущие возможности машины с точки зрения производства контента и обозначить границы того, что она ещё не умеет.  

Сама книга, как и говорят создатели, несовершенная и довольно тяжеловесная. Но естественно звучащий язык — это лишь одна из задач, которой пытается достичь ИИ, поэтому неправильно концентрироваться только на ней, не учитывая другие достижения.

Этот ИИ отсортировал и проанализировал более 150 статей по высокотехнологичной теме, находя в них ключевые слова, отсылки, выводы, «местоименную анафору» и так далее. Затем документы были сгруппированы и распределены в соответствии с их выводами, чтобы получились логично собранные главы.

Репрезентативные предложения и краткие изложения пришлось переформулировать, как из-за авторского права, так и потому, что синтаксис оригиналов мог не сочетаться в новом контексте. (Эксперты, с которыми беседовала команда, сказали, что нужно максимально придерживаться смысла оригинальных работ, избегая «творческих» интерпретаций.)

Представьте себе, что предложение начинается с «Следовательно, это даёт на 24% более высокий коэффициент изоляции, как предполагали в работе 2014 года».

ИИ должен понимать документ достаточно хорошо, чтобы знать, что такое «это» и, перефразируя предложение, заменить «это» на конкретный элемент. Он также должен понять, что может убрать «следовательно» и отсылку к году в конце.

Эти операции должны быть проделаны тысячи раз, и часто модель не справляется с задачей или создает те самые «неуклюжие» словесные конструкции, которые отметили читатели. Например: «Основная цель такого рода исследований заключается в достижении материалов с превосходными свойствами, такими как высокая емкость, высокая скорость диффузии литий-ионов, простота в эксплуатации и стабильная структура». Не Генри Джеймс, конечно, но смысл понятен.

В конечном итоге книга читабельна и, по-видимому, полезна, поскольку она приводит тысячи страниц исследований к гораздо более приемлемым 250. Но, по словам исследователей, технология может намного больше.

Цель, которая совсем не кажется недостижимой, состоит в том, чтобы можно было сказать ИИ: «дай мне 50-страничную сводку с информацией о происходящем в биоинженерии за последние 4 года». И спустя несколько минут — бум — она появится перед вами. «Гибкость» текста будет означать, что вы также сможете запросить сводку на испанском или корейском языке. Параметризация — что вы легко сможете настроить ключевые параметры, выделив регионы и авторов или исключив определённые слова или ненужные темы.

Такая платформа обеспечит вас этими и множеством других возможностей, если, конечно, вы не против довольно неестественного языка.

Если вы хоть немного заинтересованы в научных публикациях или обработке естественного языка, предисловие авторов стоит прочитать.

Источник

Фото: ktsdesignФотодженика


Материалы по теме: 

Как мы разрабатывали ИИ для чтения эмоций

Семь лекций, чтобы понять искусственный интеллект

Люди больше не нужны: роботы тоже займутся искусством 

Пять проблем, которые пока не может решить искусственный интеллект

 

В нашем Instagram @rusbase сегодня есть на что посмотреть! Подписаться

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

‡агрузка...

Комментарии

Зарегистрируйтесь, чтобы оставлять комментарии и получить доступ к Pipeline — социальной сети, соединяющей стартапы и инвесторов.
Innoweek
21 мая 2019
Ещё события


Telegram канал @rusbase