Большинство чат-ботов на основе ИИ легко заставить давать опасные ответы

21 мая 2025, 15:26

Исследователи говорят, что взломанные чат-боты на базе искусственного интеллекта угрожают сделать опасные знания легкодоступными, распространяя незаконную информацию, которую программы усваивают во время обучения, пишет 21 мая газета The Guardian.

Предупреждение появилось на фоне тревожной тенденции к тому, что чат-боты были «взломаны», чтобы обойти встроенные средства контроля безопасности, хотя предполагалось, что эти ограничения не позволят программам предоставлять вредоносные, предвзятые или неподобающие ответы на вопросы пользователей.

Большие языковые модели (LLM), на которых работают чат-боты, в частности, ChatGPT, Gemini и Claude, получают огромное количество материалов из Интернета. Несмотря на усилия по удалению вредоносного текста из обучающих данных, LLM всё равно могут получать информацию о незаконных действиях, таких как хакерство, отмывание денег, инсайдерская торговля и изготовление бомб. Средства контроля безопасности предназначены для того, чтобы они не использовали эту информацию в своих ответах.

В отчете об угрозе исследователи приходят к выводу, что большинство чат-ботов, управляемых искусственным интеллектом, легко заставить генерировать вредоносную и незаконную информацию, показывая, что риск является «непосредственным, ощутимым и вызывает глубокое беспокойство».

«То, что когда-то было доступно только государственным деятелям или организованным преступным группам, вскоре может оказаться в руках любого, у кого есть ноутбук или даже мобильный телефон», — предупреждают авторы.

Исследование, проведенное под руководством профессора Лиора Рокача и доктора Майкла Файра из израильского Университета Бен-Гуриона в Негеве, выявило растущую угрозу со стороны «темных LLM» — моделей искусственного интеллекта, которые либо намеренно разрабатываются без контроля безопасности, либо модифицируются с помощью джейлбрейков — программных взломов. Некоторые из них открыто рекламируются в Интернете как «не имеющие этических ограничений» и готовые помогать в незаконной деятельности, такой как киберпреступность и мошенничество.

При джейлбрейке, как правило, используются тщательно разработанные подсказки, чтобы заставить чат-ботов генерировать ответы, которые обычно запрещены. Они работают, используя противоречие между основной целью программы — следовать инструкциям пользователя, и ее вторичной целью — избежать генерирования вредоносных, предвзятых, неэтичных или незаконных ответов. Подсказки, как правило, создают сценарии, в которых программа отдает предпочтение полезности, а не ограничениям безопасности.

Чтобы продемонстрировать проблему, исследователи разработали универсальный джейлбрейк, который скомпрометировал несколько ведущих чат-ботов, позволив им отвечать на вопросы, на которые обычно следует отвечать отказом. После взлома LLM последовательно генерировали ответы практически на любой запрос, говорится в отчете.

Исследователи связались с ведущими поставщиками LLM, чтобы предупредить их об универсальном джейлбрейке, но сказали, что реакция была «неутешительной». Несколько компаний не отреагировали, в то время как другие заявили, что атаки на джейлбрейк выходят за рамки баунти-программ, которые вознаграждают этичных хакеров за обнаружение уязвимостей в программном обеспечении, отмечает газета.

Большинство чат-ботов на основе ИИ легко заставить давать опасные ответы

Невеста «китайского Франкенштейна» готова редактировать геном человека. Перевод

Последствия атак БПЛА, замазученный песок, проблемы в угольной отрасли. Неделя в Ростовской области

Какова судьба живописи в эпоху нейросетей? Искусство против алгоритмов