Top.Mail.Ru

Исследователи из Anthropic приблизились к пониманию работы больших языковых моделей

Истории
Истории
Елена Лиханова
Елена Лиханова

Бывший старший редактор RB.RU

Елена Лиханова

Удивительно, но никто не знает, как на самом деле работают современные системы ИИ — даже те, кто их создает.

Впрочем, в Anthropic утверждают, что смогли приоткрыть «черный ящик». Потенциально это поможет предотвратить злонамеренное использование технологии и снизить потенциальные угрозы.

Исследователи из Anthropic приблизились к пониманию работы больших языковых моделей
  1. Истории

Самая странная и пугающая особенность современных систем ИИ заключается в том, что принципы их работы по-прежнему туманны.

Это связано с тем, что большие языковые модели (large language models, LLM), которые используются в ChatGPT и других популярных чат-ботах, отличаются от обычных программ, для которых пишут код. По сути LLM обучаются самостоятельно, обрабатывая огромные объемы данных и выявляя закономерности и взаимосвязи в языке, а затем используют эти знания, чтобы прогнозировать, какое слово следующим появится в тексте.

Однако из-за такого подхода сложнее применить обратную разработку или исправить проблему, найдя ошибку в коде. Если сейчас пользователь задаст вопрос «В каком городе США самая лучшая еда?» и получит ответ «Токио», нельзя будет понять, почему модель допускает ошибку или отвечает другому пользователю «Мадрид».

А когда LLM начинают вести себя некорректно, никто не может объяснить, почему.

В конце концов, если мы не знаем, что происходит внутри моделей, как мы поймем, возможно ли с их помощью создавать биооружие, распространять политическую пропаганду или писать вредоносный код для кибератак? Если мощные системы перестанут подчиняться или начнут нас обманывать, как их остановить, если мы даже не понимаем, чем вызвано такое поведение?


Читайте по теме:

OpenAI распустила команду по защите от искусственного интеллекта

11 лидеров, меняющих искусственный интеллект, — от Сэма Альтмана до «крестной матери ИИ»


Непостижимость моделей — не просто досадная помеха: именно из-за этого некоторые исследователи опасаются, что мощные системы ИИ могут стать угрозой для человечества.

Чтобы решить эти проблемы, небольшое направление исследований в области ИИ, известное, как «механистическая интерпретируемость», потратило годы, рассматривая, что происходит «под капотом» моделей. Работа продвигалась медленно, и прогресс был постепенным.

Кроме того, растет сопротивление идее о том, что системы искусственного интеллекта вообще представляют большой риск. На прошлой неделе два старших исследователя по безопасности OpenAI, создателя ChatGPT, покинули компанию из-за конфликта с руководством по поводу того, достаточно ли компания делает для обеспечения безопасности продуктов.

Но на этой неделе команда исследователей из ИИ-стартапа Anthropic сообщила о крупном прорыве, который, как они надеются, даст нам возможность лучше понять, как на самом деле работают языковые модели ИИ, и, возможно, предотвратить их вредное воздействие.

Итоги представлены в блоге компании под заголовком «Отображение разума большой языковой модели».

Освободите время и зарабатывайте больше с помощью ИИ! Пройдите курс и получите в подарок лучшие промты для решения бизнес-задач.

Исследователи рассматривали одну из моделей Anthropic — Claude 3 Sonnet, версию языковой модели Claude 3, и использовали метод «обучения со словарем», чтобы выявить закономерности в том, как комбинации нейронов, математических единиц внутри модели ИИ, активировались, когда Claude побуждали обсудить определенную тему. Они определили примерно 10 млн этих закономерностей, которые назвали «функциями».

Обнаружилось, что одна из функций активировалась каждый раз, когда Claude просили рассказать о Сан-Франциско. Другие фукции реагировали на упоминания таких тем, как иммунология, или специфических научных терминов, например лития. А некоторые были связаны с более абстрактными концепциями, например обманом или гендерной предвзятостью.

Они также заметили, что если вручную активировать те или иные функции, можно повлиять на поведение системы или даже заставить ее нарушить собственные правила.

Например, если заставить функцию, связанную с концепцией подхалимства, работать активнее, Claude будет перехваливать пользователя, даже если это неуместно.

Крис Ола, который возглавляет команду по интерпретируемости Anthropic, прокомментировал, что полученные результаты позволят ИИ-компаниям эффективнее управлять моделями.

«Мы открываем функции, которые могут пролить свет на опасения по поводу предвзятости, рисков для безопасности и автономии. Я очень рад, что мы, возможно, сможем превратить эти неоднозначные и спорные вопросы в предмет для продуктивной дискуссии» — заявил он.

Прочие исследователи уже находили подобные явления в малых и средних языковых моделях. Но команда Anthropic одной из первых применила эти методы к полноразмерной модели.

Джейкоб Андреас, доцент кафедры компьютерных наук в Массачусетском технологическом институте, успел ознакомиться с кратким изложением исследований Anthropic. По его словам, это обнадеживающий признак того, что масштабная интерпретируемость может быть достигнута.

«Точно так же, как понимание базовых принципов работы людей помогло нам лечить болезни, понимание того, как работают эти модели, позволит нам заметить, когда что-то может пойти не так, и создавать более совершенные инструменты для контроля», — рассуждает он.

Ола, руководитель исследований в Anthropic, считает: хотя новые результаты представляют собой важный прогресс, проблема интерпретации ИИ все еще далека от решения.


Читайте по теме:

Скарлетт Йоханссон обвинила Сэма Альтмана в краже голоса для GPT-4o

«ИИ в коробке»: в Китае набирают популярность системы для локального запуска моделей


Прежде всего, крупнейшие модели, вероятно, содержат миллиарды функций, представляющих разные концепции — намного больше 10 млн, которые, как утверждает команда, ей удалось обнаружить. Чтобы найти их все, потребуется невероятная вычислительная мощность, и это невозможно дорого для всех, кроме самых богатых ИИ-компаний.

Даже если бы исследователи определили каждую функцию в большой модели искусственного интеллекта, им все равно потребовалось бы больше информации, чтобы полностью понять внутреннюю работу модели. Также нет никакой гарантии, что ИИ-компании будут действовать таким образом, чтобы сделать свои системы более безопасными.

Тем не менее, считает исследователь, даже возможность приоткрыть этот черный ящик позволит компаниям, регуляторам и широкой общественности быть увереннее в том, что этими системами можно управлять.

«Впереди нас ждет множество других испытаний, но то, что казалось самым страшным, больше не кажется препятствием», — считает он.

Источник.

Фото на обложке: Unsplash

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

ТЕГИ
Бизнес-нетворкинг
Сервис Русбейс для поиска полезных знакомств и обмена опытом
Присоединиться

Материалы по теме