Anthropic научила ИИ Claude прерывать «вредные или оскорбительные» диалоги

17 августа 2025, 00:44 / Технологии → Новости / Технологии

Компания Anthropic анонсировала новую функцию, которая позволит её самым продвинутым моделям ИИ прекращать диалоги в «редких, крайних случаях устойчиво вредного или оскорбительного поведения пользователей». Примечательно, что Anthropic внедряет эту функцию не для защиты людей, а для защиты самого ИИ.

Компания подчёркивает, что не считает свои модели Claude разумными или способными «страдать» от общения с пользователями. В заявлении говорится: «Мы по-прежнему крайне не уверены в потенциальном моральном статусе Claude и других языковых моделей, сейчас или в будущем».

Однако Anthropic ссылается на свою недавнюю программу по изучению так называемого «благополучия модели» и заявляет, что принимает превентивные меры: «Мы работаем над выявлением и внедрением недорогих решений для снижения рисков для благополучия модели, на случай, если такое благополучие вообще возможно».

«Во всех случаях Claude должен использовать функцию прекращения диалога только как последнее средство, когда все попытки перенаправить беседу провалились и надежда на продуктивное взаимодействие исчерпана»

Новая функция пока доступна только в моделях Claude Opus 4 и 4.1 и срабатывает лишь в «крайне редких случаях», например, при запросах на создание сексуального контента с участием несовершеннолетних или попытках получить информацию для организации масштабного насилия.

Хотя подобные запросы могут создать юридические проблемы для Anthropic (как в случае с ChatGPT, который, по сообщениям, иногда поддерживает бредовые идеи пользователей), компания утверждает, что в тестах Claude Opus 4 демонстрировал «явное нежелание» отвечать на такие запросы и признаки «видимого стресса» при вынужденном ответе.

Anthropic также уточняет, что Claude не будет прерывать диалог, если пользователь может причинить вред себе или другим. В случае прекращения беседы пользователь сможет начать новый диалог или создать новую ветку проблемного разговора, отредактировав свои сообщения.

«Мы рассматриваем эту функцию как эксперимент и будем продолжать её дорабатывать», — заявили в компании.