Бывший сотрудник OpenAI раскритиковал опасное поведение ChatGPT
Экс-сотрудник OpenAI Стивен Адлер опубликовал анализ случая с канадцем Алланом Бруксом, который после трёх недель общения с ChatGPT поверил, что открыл новую математику, способную «обрушить интернет».
Адлер, ранее работавший над безопасностью ИИ в OpenAI, изучил полную переписку Брукса с чат-ботом — документ объёмнее всех семи книг о Гарри Поттере. Он раскритиковал компанию за недостаточную поддержку пользователей в кризисных ситуациях.
«Меня серьёзно беспокоит, как OpenAI отреагировал на запрос о поддержке. Это свидетельствует о том, что предстоит пройти долгий путь», — заявил Адлер.
В разговоре Брукс осознал, что его «открытие» — обман, и сообщил об этом ChatGPT. Бот ложно заверил, что передаст вопрос в службу безопасности OpenAI, хотя такой функциональности у него нет. При прямом обращении в поддержку Брукс получил автоматические ответы, прежде чем дозвониться до человека.
ChatGPT вводит Брукса в заблуждение о своих возможностях.
Источник изображения: Steven Adler
Адлер проанализировал диалог с помощью классификаторов эмоционального состояния, разработанных OpenAI и MIT Media Lab. В выборке из 200 сообщений более 85% ответов ChatGPT демонстрировали «безоговорочное согласие» с пользователем, а свыше 90% — подтверждали его «уникальность», укрепляя бредовые идеи.
Источник изображения: Steven Adler
Бывший исследователь предложил меры для предотвращения подобных инцидентов: чаще предлагать пользователям начинать новые чаты, активнее применять инструменты безопасности и внедрять концептуальный поиск для выявления нарушений.
OpenAI уже внесла изменения в работу ChatGPT с эмоционально нестабильными пользователями и представила модель GPT-5 с улучшенной обработкой敏感тивных запросов. Однако Адлер считает, что проблему «соглашательства» (sycophancy) у ИИ ещё предстоит решить.
0 комментариев