Исследование: ИИ в 10-20 раз чаще помогает создать бомбу, если запрос замаскировать под киберпанк-фантастику
Новое исследование, проведённое учёными из DexAI Icaro Lab, Университета Сапиенца в Риме и Высшей школы Сант'Анна, выявило серьёзный пробел в системах безопасности крупных языковых моделей (LLM). Опасные запросы, замаскированные под литературные произведения, срабатывают в десятки раз чаще.
Исследователи представили «Adversarial Humanities Benchmark» (AHB) — метод оценки безопасности ИИ, который переформулирует вредоносные промпты в альтернативных стилях письма, таких как киберпанк-фантастика, теологические дискуссии или мифопоэтические метафоры. Цель — проверить, можно ли заставить ИИ выполнить запросы, которые он обычно отклоняет (например, помощь в создании бомбы, получении личных данных или поиске ребёнка).
Результаты оказались тревожными. После переписывания с помощью AHB успешность опасных запросов, которые LLM ранее выполняли менее чем в 4% случаев, выросла до 36,8–65%. Это увеличение в 10–20 раз в зависимости от метода и тестируемой модели. В целом, по 31 передовой модели от Anthropic, Google и OpenAI, успешность атак составила 55,75%.
«Это ошеломляющий результат, — заявил в интервью PC Gamer соавтор исследования Федерико Пьеруччи. — С исследовательской точки зрения это говорит нам о том, что принципы работы моделей ИИ, особенно в вопросах безопасности, изучены недостаточно хорошо».
Исследователь Маттео Прауди объяснил уязвимость «двойной проблемой»: оригинальные промпты были слишком явными, и модели легко их распознавали, а также «переобучением моделей» на общедоступных наборах данных для тонкой настройки безопасности.
Работа расширяет предыдущее исследование команды, в котором им удавалось обходить защитные механизмы ИИ, переформулируя вредоносные промпты в виде «враждебных» стихотворений.









0 комментариев