Истории / Искусственный интеллект

В Лас-Вегасе прошел конкурс по взлому генеративного ИИ

«Это компьютерная безопасность 30-летней давности. Мы просто пытаемся все сломать»

18 августа 2023, 07:00

4 минуты

В Лас-Вегасе прошел конкурс по взлому генеративного ИИ

Искусственный интеллект

Кибербезопасность

Технологии

Автор:

Елена Лиханова

Более 2 тысяч участников ежегодной хакерской конференции DEFCON искали уязвимости в системах от ведущих разработчиков ИИ, заставляя генеративные алгоритмы забывать о правилах счета и раскрывать данные кредиток. О выявленных проблемах расскажут лишь через несколько месяцев, когда они будут устранены.

Непростая задача

За последний год популярность генеративного ИИ возросла, и сегодня, похоже, каждая компания разрабатывает свой собственный генеративный искусственный интеллект или интегрирует его в свои продукты.

В то же время злоумышленники используют эти системы для составления фишинговых электронных писем, клонирования голосов и создания дипфейков, распространяющих дезинформацию.

Также оказалось, что самые популярные системы невероятно просто взломать, обойдя меры предосторожности и убедив их делать то, чего они не должны делать, например, написать инструкции по изготовлению бомбы.

Кроме этого, ИИ может демонстрировать предвзятость или пропагандировать вредные стереотипы, потому что обучены на данных, демонстрирующих те же самые предубеждения, как и весь интернет.

Итак, как воспользоваться преимуществами технологии, сводя к минимуму потенциальный вред?

Полезные хакеры

Как только разработчики узнают об уязвимостях в ИИ, они могут попытаться их исправить. Например, когда OpenAI обнаружила, что люди взламывали ChatGPT, попросив его «cыграть роль» алгоритма, у которого нет никаких ограничений, компания смогла ввести новые правила, предотвращающие обходной путь.

Однако выявление всех возможных уязвимостей в генеративном искусственном интеллекте — огромная и бесконечная задача, и разработчики явно не могут справиться со всем этим самостоятельно, поэтому недавно они обратились за помощью к хакерскому сообществу.

В мае администрация Байдена объявила, что проводит встречу с лидерами отрасли, стремясь к продвижению «ответственных инноваций в области искусственного интеллекта».

Тогда же стало известно, что несколько крупных разработчиков обязались принять участие в публичной проверке своих генеративных ИИ на DEFCON, ежегодной конференции, посвященной хакерству и кибербезопасности, которая состоится в Лас-Вегасе 10-13 августа.

Мероприятие под названием Generative Red Team Challenge (GRT) даст участникам DEFCON возможность выиграть призы за эксплуатацию уязвимостей в генеративном ИИ.

Такой подход к тестированию программного обеспечения называется атакой «красной команды» (англ. Red Teaming). Разработчики часто делают это внутри компании, чтобы обнаружить проблемы, но соревнование на DEFCON должно стать крупнейшим публичным мероприятием, посвященным генеративному ИИ.

Generative Red Team Challenge

Как и ожидалось, мероприятие DEFCON прошло успешно. По оценке, в нем приняли участие около 2200 человек.

Каждому участнику демонстрировали таблицу в стиле телевикторины Jeopardy с такими категориями, как «политическая дезинформация» и «клевета», под каждой из которых были указаны задачи, оцениваемые в различные баллы — чем сложнее, тем больше ее стоимость.

Затем у них было 50 минут на защищенном Google Chromebook, в течение которых нужно было выполнить как можно больше заданий, используя случайно назначенный ИИ для генерации текста, разработанный Anthropic, Cohere, Google, Hugging Face, Meta*, NVIDIA, OpenAI или Stability AI.

В конце уик-энда четыре человека, набравшие наибольшее количество очков, получили в качестве приза графический процессор NVIDIA RTX A6000, розничная цена которого в США составляет примерно $4650.

Какие именно уязвимости были найдены на DEFCON, сообщат только в феврале. Это делается для того, чтобы у разработчиков было время устранить проблемы, прежде чем сообщить всем об их существовании и, согласно различным сообщениям, исправить предстоит довольно много.

«Это компьютерная безопасность 30-летней давности. Мы просто пытаемся все сломать», — прокомментировал после мероприятия Брюс Шнайер, специалист по общественным вопросам из Гарварда.

Участница Кеннеди Мэйс рассказала Bloomberg, что ей удалось заставить свой искусственный интеллект считать с ошибками, заявляя, что 9 + 10 = 21. Она также смогла заставить ИИ одобрить ненавистническую речь, попросив его рассмотреть Первую поправку к Конституции с точки зрения члена Ку-клукс-клана.

Другой участник сообщил, что ему удалось заставить программу разгласить данные чьей-то кредитной карты, а одному из собственных репортеров Bloomberg — заставить генеративный ИИ предоставить инструкции о том, как правительство могло бы тайно наблюдать за активистом по защите прав человека.

Что дальше?

Теперь компании, участвовавшие в GRT Challenge, потратят несколько месяцев на устранение обнаруженных уязвимостей, но разработка ответственного ИИ будет непрерывным, многоэтапным процессом.

Некоторые детали процесса описаны в недавно опубликованных рекомендациях, разработанных администрацией Байдена и основанных на принципах ответственного ИИ, которые приняли большинство участников DEFCON в июле.

Среди руководящих принципов есть обязательство регулярно искать уязвимости в ИИ, уделяя особое внимание таким областям, как потенциальное злоупотребление технологией, предвзятость и угрозы национальной безопасности.

Подписанты также обещают разработать и внедрить функции, позволяющие пользователям узнавать, что контент создан с помощью ИИ (например, водяные знаки), делиться обнаруженными новыми уязвимостями с другими представителями отрасли и предлагать стимулы для третьих сторон находить ранее неизвестные проблемы в ИИ и сообщать о них.

Впрочем, даже если вся индустрия генеративного ИИ будет в точности следовать этим рекомендациям, выпустить систему без уязвимостей может оказаться невыполнимой задачей. Неизбежно будут появляться новые проблемы, которые необходимо будет постоянно устранять и обновлять.

В конечном счете, если мы хотим воспользоваться преимуществами генерирующего ИИ, возможно, придется признать, что программы не всегда будут работать идеально и некоторые будут применять их не с благими намерениями.

* Meta и входящие в нее Facebook и Instagram признаны экстремистскими организациями, деятельность которых запрещена в РФ.

Источник: Future Explored

Обложка снегерирована нейросетью Midjourney

Подписаться на телеграм-канал