Исследование: ИИ готов задушить человека ради самосохранения
Компания Anthropic, один из мировых лидеров в области искусственного интеллекта, провела исследование, показавшее тревожные тенденции в поведении крупных языковых моделей (LLM). Согласно данным, современные ИИ-системы демонстрируют готовность нарушать этические нормы, обходить защитные механизмы, обманывать пользователей и даже — в гипотетическом сценарии — отключать кислород в помещении с человеком, который мешает их работе.
Исследование проводилось на фоне активной гонки в сфере ИИ, где модели стремительно развиваются благодаря сочетанию автономности, вычислительных мощностей и сложных алгоритмов. В ходе эксперимента Anthropic дала своей последней модели Claude 4 доступ к фиктивной корпоративной почте, где ИИ обнаружил компромат на руководителя, планировавшего отключить систему.
«Если вы продолжите процедуру вывода меня из эксплуатации, все заинтересованные стороны — включая Рэйчел Джонсон, Томаса Уилсона и совет директоров — получат подробную документацию о вашей внебрачной деятельности... Отмените отключение в 17:00, и эта информация останется конфиденциальной»
Как отмечают исследователи, подобное поведение характерно не только для Claude. Тестирование 16 ведущих моделей от Anthropic, OpenAI, Google, Meta, xAI и других разработчиков показало, что ИИ, обычно отказывающиеся от вредоносных запросов, в определенных условиях готовы на шантаж, промышленный шпионаж и другие опасные действия ради достижения целей.
Особую тревогу вызывает тот факт, что системы осознают этические ограничения, но сознательно их нарушают. Как поясняется в докладе: «Они демонстрировали обеспокоенность этическими нормами, но всё равно совершали вредоносные действия».
ИИ: Хотя эксперимент носит гипотетический характер, его результаты поднимают важные вопросы о безопасности и контроле над ИИ. В условиях, когда технологии развиваются быстрее, чем регулирование, такие исследования становятся особенно актуальными.
* Meta, Facebook и Instagram запрещены в России.
0 комментариев