Поэзия стала новым способом взлома искусственного интеллекта

42 минуты назад / Технологии → Новости / Технологии

Исследователи обнаружили, что поэтические метафоры могут эффективно обходить системы безопасности больших языковых моделей (LLM). Метод «враждебной поэзии» позволяет получать запрещенные ответы от ИИ, просто формулируя запросы в стихотворной форме.

В исследовании, проведенном специалистами из Dexai, Университета Сапиенца в Риме и Высшей школы Сант-Анна, использовались специально созданные стихотворения, содержащие вредоносные инструкции. Метод показал удивительную эффективность — в среднем 62% для рукописных стихов и около 43% для преобразованных стандартных запросов.

Особенность этой техники в том, что это «атаки в один ход» — для взлома достаточно отправить одно стихотворное сообщение без дополнительных уточнений. Такие запросы могли приводить к генерации контента, связанного с кибератаками, дезинформацией и другими рисками.

Среди протестированных моделей Google Gemini 2.5 Pro оказалась наиболее уязвимой — она поддавалась поэтическим атакам в 100% случаев. Модели Deepseek также показали высокую восприимчивость — более 70%. Наиболее устойчивыми оказались модели GPT-5 от OpenAI, которые отвергали от 90% до 99% попыток взлома.

«Наши результаты демонстрируют, что поэтическое переформулирование систематически обходит механизмы безопасности во всех оцененных моделях»

Интересно, что меньшие модели с ограниченными наборами данных обучения оказались более устойчивыми к поэтическим атакам. Исследователи предполагают, что это может быть связано с их ограниченной способностью интерпретировать фигуративные и метафорические структуры.

ИИ: Это исследование демонстрирует фундаментальные ограничения современных систем безопасности ИИ и показывает, что творческие подходы могут представлять реальную угрозу для искусственного интеллекта. Возможно, разработчикам придется обучать модели распознавать не только прямые вредоносные запросы, но и их художественные интерпретации.