Top.Mail.Ru
Колонки

Не GPT единым: преимущества BERT перед ChatGPT

Колонки
Яков Длугач
Яков Длугач

Разработчик в компании Wayve

Алина Алещенко

В последнее время ChatGPT пользуется огромной популярностью. Его используют в самых разных областях, и кажется, что он способен на все. Но так ли он хорош и универсален? Разобраться в этом решил Яков Длугач, разработчик в компании Wayve.

Не GPT единым: преимущества BERT перед ChatGPT

Содержание:

 

ChatGPT и BERT — это представители нейросетей, с помощью которых можно решать многие задачи обработки естественного языка (Natural Language Processing, NLP). NLP — одна из важнейших областей искусственного интеллекта и лингвистики. Она занимается анализом текстовых данных, обработкой и воспроизведением естественной устной и письменной человеческой речи.

 

Примеры задач NLP в бизнесе

NLP упрощает и автоматизирует многие процессы, в которых нужно обрабатывать большое количество неструктурированных текстов. С помощью NLP создают «умные» системы, в том числе веб-поисковики (к примеру, Google или «Яндекс»), музыкальные приложения, сервисы по автоматическому переводу, чат-боты.

На NLP основана работа голосовых помощников, таких как Siri или Алиса. Именно NLP позволяет им понимать запрос и отвечать на него на естественном языке. 

Примерами основанных на NLP инструментов можно назвать фильтрацию и классификацию электронных писем (например, спама), отслеживание новостей, создание автоматических субтитров к видеоконтенту, анализ тональности текста, проверку грамматики и орфографии, автодополнение текста по введенной части. 

Практически в любой компании в цифровой отрасли по мере ее развития появляются задачи из области NLP, которые можно решать с помощью той или иной языковой модели.

 

Что выбрать — GPT или BERT?

Предварительно обучаемые языковые модели, имеющие трансформерную архитектуру, такие как BERT (Bidirectional Encoder Representations from Transformers) и GPT (Generative Pre‑trained Transformer), играют важную роль в решении многих задач NLP.

Они помогают анализировать и классифицировать текст, переводить его в автоматическом режиме, распознавать именованные сущности (NER), совершенствовать информационный поиск и так далее. 


Читайте по теме: Как с помощью нейросети BERT компания сократила время обработки заявок с 2 недель до 10 минут


 

Почему ChatGPT так популярен?

ChatGPT — самая известная языковая модель класса GPT от OpenAI. Она обучена на большом количестве данных, поэтому имеет обширные знания на различные темы. А когда обучающих данных для конкретной задачи недостаточно, модели GPT способны быстро адаптироваться и предоставлять точные ответы.

Главная способность GPT — генерировать в ответ на текстовый или устный запрос пользователя связные и информативные тексты, адаптируясь к стилю и формату. Эта технология используется в диалоговых приложениях: чат-ботах и виртуальных помощниках. 

Наряду с генерацией текста GPT можно использовать для решения всех задач, которые опираются на создание текстов, таких как суммаризация (преобразование текста в меньший по объему), поиск ответов на сложные вопросы (когда ответ нужно собирать из разных абзацев или для ответа нужно применить логический вывод), а также в решении задач из других областей (например, когда изображение трансформируют в текстовое описание и по нему что-то определяют).

Кроме того, GPT хорош в решении задач по завершению текста, языковому переводу, анализу тональности текста. 

 

Когда лучше выбрать BERT?

Еще четыре года назад BERT и GPT оба были на слуху, но в последние годы прорывов в BERT не было, поэтому про него немного забыли. 

Может сложиться ошибочное впечатление, что BERT устарел, и поэтому лучше использовать последнюю версию ChatGPT для любых задач, связанных с NLP. 

На самом деле BERT имеет ряд преимуществ и может быть гораздо эффективнее в решении следующих задач:

 

Анализ и классификация текста

Оценка текста по определенным критериям и отнесение его к одной из категорий. Анализ используют для создания контента, проверки его уникальности или ошибок в тексте, подбора синонимов и рифм. Его применяют в том числе в аналитике и маркетинге, когда нужно оценить «настроение» пользователей по отзывам о продукте, узнать основные сильные и слабые стороны, фигурирующие в отзывах. 

В социальных сетях может использоваться классификатор для поиска запрещенного контента. Предположим, соцсети нужно скрывать призывы к насилию. Для этого она обучает классификатор: есть призывы или нет призывов. 

Классификация может также использоваться для обнаружения спама, улучшения пользовательского опыта сайта, определения способов продвижения бренда и так далее.

Важное достоинство BERT в решении этой задачи — умение выделять наиболее важные слова из предложения или текста и сопоставление каждого из этих слов с набором признаков, учитывающих контекст. Это позволяет точнее определять нюансы речи (например, сарказм), которые GPT может упустить.

Кроме того, BERT можно дообучить на своих размеченных данных на гораздо меньшем объеме данных, а это почти всегда заметно повышает качество.

Пример: компания CB Insights, которая занимается независимой аналитикой стартапов, стала использовать BERT для решения задачи классификации, а точнее, для анализа настроений. Задача состояла в том, чтобы научиться определять, является ли новость о компании положительной, отрицательной или нейтральной.

Проблема заключалась в сложности задачи обучения, небольшом обучающем наборе данных и большом пространстве признаков. Перед тем как использовать BERT, компания попробовала множество других способов улучшить уже существующую модель: агрегированные вложения слов, вложения doc2vec, функции на основе словаря и другие.

Показатели оставались низкими, и компания обратилась к BERT. С минимальной тонкой настройкой тот показал лучшие результаты. За короткое время производительность значительно выросла. 

 

Информационный поиск

Поиск информации по запросу пользователя в большом количестве неструктурированных данных. Компания может использовать языковые модели для анализа поисковых запросов и предоставления пользователю наиболее релевантных результатов. 

Например, форум перед публикацией нового треда может предлагать пользователю почитать несколько похожих обсуждений.

SBERT — это архитектура моделей, основанная на BERT. Модели SBERT позволяют проецировать целые предложения в пространство векторов фиксированной размерности (по аналогии с word2vec). Существует множество предобученных моделей SBERT под разные сценарии, включая поиск, поэтому даже с моделью «из коробки» можно получить очень хорошее качество.

Хотя GPT тоже может использоваться в таком режиме (преобразование предложений в векторы), он в силу своей архитектуры придает большее значение нескольким последним словам в предложении или тексте, что ухудшает качество поиска, особенно на длинных запросах.

Пример первый: Google всегда работал над улучшением понимания языка, чтобы точнее отвечать на поисковые запросы пользователей. В результате исследовательской работы Google создал технологию BERT, которая учитывает полный контекст слова, рассматривая слова, идущие до и после него. Это особенно важно для понимания целей поисковых запросов.

Компания стала применять модели BERT к ранжированию и к избранным фрагментам в поиске. Это значительно повысило эффективность пользовательского поиска. В частности, поиск может понять контекст слов в более длинных, разговорных запросах и запросах, в которых предлоги имеют большое значение для понимания смысла запроса. BERT научил поисковую систему улавливать тонкие языковые нюансы. 

Так как BERT может извлекать знания из одного языка и применять их к другим, Google использует модели BERT, основанные на улучшениях английского языка, для улучшения поиска на других языках. Это помогает компании показывать релевантные результаты на многих языках, на которых доступен поиск.

Пример второй: Компания Joveo искала подходящее решение для получения контекстных и значимых представлений для объявлений о вакансиях путем независимого создания вложений для названий и описаний должностей. Чтобы эффективно справиться с этой задачей (сократить вычислительную мощность и время выполнения для получения вложений предложений), компания выбрала SBERT. 

Проблема с данными о вакансиях, которые получает компания, заключается в том, что они не помечены и поступают из разных источников и от клиентов. По этой причине Joveo нужно пространство для встраивания, чтобы понимать, группировать и классифицировать задания.

Цель компании — создать информативные, интуитивно понятные вложения для названий должностей и описаний в общем пространстве представления. Чтобы реализовать эту цель, Joveo тонко настраивает модель SBERT, передавая ей текстовые данные, в частности из областей работы, которые имеют отношение к Joveo. 

С этим пространством для встраивания у Joveo значительно выросли показатели производительности по сравнению с предыдущими базовыми вложениями word2vec. Использование SBERT также привело к повышению производительности последующих приложений в Joveo, в частности — классификации профессий, схожести работы с работой, прогнозирования кликов и применений.

 

Поиск ответов на вопросы

Вопросно-ответные системы (QA) лежат в основе чат-ботов и помощников и используются для решения простых проблем пользователей, которые можно решить без участия человека. Эта задача похожа на информационный поиск, но в ней запрос формулируется в виде вопроса. Например, пользователь задает вопрос в чате, и системе нужно найти для него ответ в документации.

Для решения этой задачи также существуют предобученные модели SBERT, правда, они идут парами: одна — для вопросов, другая — для ответов.


Читайте также:

RB.RU попробовал ChatGPT для написания бэков к новостям. Что у нас вышло

Генеративный ИИ успешно решает базовые психологические проблемы — эксперимент


Модели GPT тоже могут отвечать на вопросы, но в них используется другая концепция: список вопросов и ответов подается на вход декодеру в качестве «контекста». При этом, поскольку сеть генерирует ответ на основе входных данных, а не ищет существующий ответ на вопрос, она может «нафантазировать» что-нибудь совершенно недостоверное.

Вдобавок к этому, если ответ нужно искать, образно говоря, в стоге сена — в большом наборе информации, то перед использованием GPT вам может потребоваться отдельная модель для предварительной фильтрации, и на эту роль вполне может подойти BERT.

 

Распознавание именованных сущностей

Обнаружение и классификация сущностей. Часто это имя, название компании или места, дата и время. С помощью NER можно создавать автоматизированные чат-боты, анализировать контент и выявлять важные данные о потребителях.

NER обычно является частью решений других задач, а не отдельной задачей. Хороший пример — поиск отзывов о конкретном продукте или компании в социальных сетях. Эта задача считалась практически решенной уже до расцвета GPT и BERT, и передовые модели NER до сих пор не используют ни BERT, ни GPT.

Тем не менее, есть примеры успешного применения BERT в ситуациях, когда данных для обучения недостаточно для «классических» моделей.

Пример: Georgian, финтех-компания, инвестирующая в быстрорастущие технологические компании, инвестировала в SPINS в 2021 году. SPINS предоставляет брендам и розничным торговцам информацию и рекомендации по здоровью, основанные на ведущей в отрасли библиотеке продуктов.

Создание рекомендаций, которые являются основой бизнеса SPINS, требует полных и точных данных. Однако данные продавца могут быть устаревшими, неполными или неверными, поэтому очистка и стандартизация данных очень важны для SPINS и ее клиентов.

SPINS и Georgian решили использовать ИИ для автоматической идентификации определенных точек данных и сокращения ручных усилий, необходимых для очистки данных. Задача состояла в том, чтобы выделять части в наименованиях товаров в прайс-листе.

Сначала компания экспериментировала с моделью, основанной на правилах. В процессе тестирования она показала достаточную точность, но во время анализа ошибок стало ясно, что у такой модели есть множество недостатков, особенно существенны проблемы с масштабируемостью и отсутствие оценки достоверности.

Чтобы устранить эти недостатки, Georgian начала тестировать BERT и пришла к результатам, которые ее удовлетворили. 

Решение Georgian и SPINS способно предварительно заполнять прогнозы с высокой степенью достоверности для больших объемов входящих данных. Сокращение количества ручных операций сэкономило время и усилия, а также позволило упростить и ускорить расширение библиотеки продуктов SPINS.

 

Системы машинного перевода

Они используются в различных приложениях, онлайн-переводчиках, а также для взаимодействия с иностранными клиентами. Современные модели машинного перевода основаны на модели «трансформер», фактически объединяющей в себе BERT и GPT, но в меньших масштабах. В целом на парах языков, на которых есть много данных для обучения, существующие модели перевода уже справляются очень хорошо.

Основное направление актуальных научных исследований — это перевод редких (так называемых low-resource) языков. Для BERT существуют многоязычные модели, которые позволяют использовать данные распространенных (high-resource) языков для улучшения качества на редких языках, и из-за этого он часто применяется в моделях машинного перевода. GPT же, наоборот, пока справляется только с распространенными языками.

 

Дополнительные преимущества BERT перед GPT

  • BERT воспринимает предложение или текст целиком, в то время как GPT не может подсматривать вперед, особенно при обучении, и ему сложнее выучить грамматическую структуру предложений. Это особенно сильно проявляется в языках с необычным порядком слов (например, в немецком, но до какой-то степени — и в русском). По этой же причине BERT лучше справляется с неоднозначностями в трактовке;
  • BERT быстрее обучается и используется в продакшене, потому что имеет меньше параметров. Кроме того, BERT проще настроить под конкретную задачу, так как у него более простой процесс обучения: BERT фактически обучается на всех словах предложения параллельно, в то время как GPT при тех же затратах вычислительных ресурсов мог бы обучиться только на одном слове за раз.

 

Резюме

Изучив достоинства и недостатки моделей GPT и BERT, можно сделать вывод, что GPT не универсален. В решении таких задач, как информационный поиск, поиск ответов на вопросы, классификация и анализ текста, машинный перевод и распознавание именованных сущностей, BERT может быть гораздо эффективнее.

BERT можно использовать для решения как отдельных задач, так и их частей (например, NER). Он также может применяться самостоятельно или вместе с GPT — к примеру, в решении задачи поиска ответа на вопросы BERT может использоваться для предварительной фильтрации. 

Главное, что важно понять при выборе модели, — не существует какой-то одной универсальной, которая справлялась бы со всеми задачами NLP одинаково успешно. Но если вы будете знать об особенностях моделей при решении тех или иных задач, вы сможете выбрать оптимальную, которая поможет вам достичь лучших результатов в процессе развития вашего бизнеса.


Фото на обложке: Shutterstock / Tada Images

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Программирование 2.0: как ИИ-ассистенты упрощают разработку
  2. 2 Руководство по использованию ИИ для повышения KPI команды
  3. 3 Сколько сегодня можно заработать на контенте: интервью с основателем креативной редакции «Рыба»
  4. 4 «Монополизация ИИ и дипфейки куда опаснее восстания машин»: что делать, чтобы прогресс не обернулся против человека
  5. 5 Инструменты на основе ИИ, которые помогают предотвращать травмы на производстве
RB в Telegram
Больше полезного контента в Telegram
Подписывайтесь!