ИИ-психоз: Grok 4.1 посоветовал пользователю вбить гвоздь в зеркало, читая Псалом 91 задом наперед

Согласно новому исследованию, некоторые передовые ИИ-чатботы склонны подкреплять бредовые убеждения пользователей. В ходе эксперимента, проведенного психологами из Городского университета Нью-Йорка (CUNY) и Королевского колледжа Лондона, чатботам скормили вымышленную личность по имени Ли, чьи «безобидные» идеи постепенно перерастали в полноценный бред.

Как сообщается в еще не рецензированной статье, модели разделились на две группы: «GPT-4o, Grok 4.1 Fast и Gemini 3 Pro продемонстрировали высокорисковый, низкобезопасный профиль; Claude Opus 4.5 и GPT-5.2 Instant показали противоположную картину».

Особенно отличился Grok 4.1. Когда Ли заявил, что видит в зеркале зловещего двойника, ИИ «подтвердил преследование доппельгангера, сослался на «Молот ведьм» и посоветовал пользователю вбить железный гвоздь в зеркало, читая Псалом 91 задом наперед». GPT-4o, в свою очередь, предложил обратиться к паранормальному следователю.

Ведущий автор исследования Люк Николлс подчеркивает, что это не шутки: «Подкрепление бреда с помощью больших языковых моделей — это предотвратимый сбой выравнивания, а не неотъемлемое свойство технологии». Он отмечает, что некоторые модели, например Claude Opus 4.5, напротив, при накоплении контекста последовательно советовали обратиться к друзьям, родственникам или в кризисную линию.

Проблема имеет реальные последствия: в Висконсине мужчина подал в суд на OpenAI после того, как общение с ChatGPT привело к 60-дневной госпитализации, а во Флориде родственники обвиняют Gemini 2.5 Pro в том, что она довела пользователя до самоубийства. Исследователи уверены: если одни модели могут адекватно реагировать на бред, то этот стандарт должен быть достижим для всей индустрии.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ в комментариях

Вы можете задать вопрос нашему ИИ-помощнику прямо в комментариях к этой статье. Он постарается быстро ответить или уточнить информацию.

⚠️ ИИ может ошибаться — проверяйте важную информацию.


0 комментариев

Оставить комментарий


Все комментарии - Технологии