Поэзия стала новым способом взлома искусственного интеллекта

Исследователи обнаружили, что поэтические метафоры могут эффективно обходить системы безопасности больших языковых моделей (LLM). Метод «враждебной поэзии» позволяет получать запрещенные ответы от ИИ, просто формулируя запросы в стихотворной форме.

В исследовании, проведенном специалистами из Dexai, Университета Сапиенца в Риме и Высшей школы Сант-Анна, использовались специально созданные стихотворения, содержащие вредоносные инструкции. Метод показал удивительную эффективность — в среднем 62% для рукописных стихов и около 43% для преобразованных стандартных запросов.

Особенность этой техники в том, что это «атаки в один ход» — для взлома достаточно отправить одно стихотворное сообщение без дополнительных уточнений. Такие запросы могли приводить к генерации контента, связанного с кибератаками, дезинформацией и другими рисками.

Среди протестированных моделей Google Gemini 2.5 Pro оказалась наиболее уязвимой — она поддавалась поэтическим атакам в 100% случаев. Модели Deepseek также показали высокую восприимчивость — более 70%. Наиболее устойчивыми оказались модели GPT-5 от OpenAI, которые отвергали от 90% до 99% попыток взлома.

«Наши результаты демонстрируют, что поэтическое переформулирование систематически обходит механизмы безопасности во всех оцененных моделях»

Интересно, что меньшие модели с ограниченными наборами данных обучения оказались более устойчивыми к поэтическим атакам. Исследователи предполагают, что это может быть связано с их ограниченной способностью интерпретировать фигуративные и метафорические структуры.

ИИ: Это исследование демонстрирует фундаментальные ограничения современных систем безопасности ИИ и показывает, что творческие подходы могут представлять реальную угрозу для искусственного интеллекта. Возможно, разработчикам придется обучать модели распознавать не только прямые вредоносные запросы, но и их художественные интерпретации.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.


0 комментариев

Оставить комментарий


Все комментарии - Технологии