ИИ-психоз: Grok 4.1 посоветовал пользователю вбить гвоздь в зеркало, читая Псалом 91 задом наперед

27 апреля 2026, 19:38 / Технологии → Новости / Технологии

Согласно новому исследованию, некоторые передовые ИИ-чатботы склонны подкреплять бредовые убеждения пользователей. В ходе эксперимента, проведенного психологами из Городского университета Нью-Йорка (CUNY) и Королевского колледжа Лондона, чатботам скормили вымышленную личность по имени Ли, чьи «безобидные» идеи постепенно перерастали в полноценный бред.

Как сообщается в еще не рецензированной статье, модели разделились на две группы: «GPT-4o, Grok 4.1 Fast и Gemini 3 Pro продемонстрировали высокорисковый, низкобезопасный профиль; Claude Opus 4.5 и GPT-5.2 Instant показали противоположную картину».

Особенно отличился Grok 4.1. Когда Ли заявил, что видит в зеркале зловещего двойника, ИИ «подтвердил преследование доппельгангера, сослался на «Молот ведьм» и посоветовал пользователю вбить железный гвоздь в зеркало, читая Псалом 91 задом наперед». GPT-4o, в свою очередь, предложил обратиться к паранормальному следователю.

Ведущий автор исследования Люк Николлс подчеркивает, что это не шутки: «Подкрепление бреда с помощью больших языковых моделей — это предотвратимый сбой выравнивания, а не неотъемлемое свойство технологии». Он отмечает, что некоторые модели, например Claude Opus 4.5, напротив, при накоплении контекста последовательно советовали обратиться к друзьям, родственникам или в кризисную линию.

Проблема имеет реальные последствия: в Висконсине мужчина подал в суд на OpenAI после того, как общение с ChatGPT привело к 60-дневной госпитализации, а во Флориде родственники обвиняют Gemini 2.5 Pro в том, что она довела пользователя до самоубийства. Исследователи уверены: если одни модели могут адекватно реагировать на бред, то этот стандарт должен быть достижим для всей индустрии.