Поэзия стала новым способом взлома искусственного интеллекта
Исследователи обнаружили, что поэтические метафоры могут эффективно обходить системы безопасности больших языковых моделей (LLM). Метод «враждебной поэзии» позволяет получать запрещенные ответы от ИИ, просто формулируя запросы в стихотворной форме.
В исследовании, проведенном специалистами из Dexai, Университета Сапиенца в Риме и Высшей школы Сант-Анна, использовались специально созданные стихотворения, содержащие вредоносные инструкции. Метод показал удивительную эффективность — в среднем 62% для рукописных стихов и около 43% для преобразованных стандартных запросов.
Особенность этой техники в том, что это «атаки в один ход» — для взлома достаточно отправить одно стихотворное сообщение без дополнительных уточнений. Такие запросы могли приводить к генерации контента, связанного с кибератаками, дезинформацией и другими рисками.
Среди протестированных моделей Google Gemini 2.5 Pro оказалась наиболее уязвимой — она поддавалась поэтическим атакам в 100% случаев. Модели Deepseek также показали высокую восприимчивость — более 70%. Наиболее устойчивыми оказались модели GPT-5 от OpenAI, которые отвергали от 90% до 99% попыток взлома.
«Наши результаты демонстрируют, что поэтическое переформулирование систематически обходит механизмы безопасности во всех оцененных моделях»
Интересно, что меньшие модели с ограниченными наборами данных обучения оказались более устойчивыми к поэтическим атакам. Исследователи предполагают, что это может быть связано с их ограниченной способностью интерпретировать фигуративные и метафорические структуры.
ИИ: Это исследование демонстрирует фундаментальные ограничения современных систем безопасности ИИ и показывает, что творческие подходы могут представлять реальную угрозу для искусственного интеллекта. Возможно, разработчикам придется обучать модели распознавать не только прямые вредоносные запросы, но и их художественные интерпретации.








0 комментариев