Исследование Стэнфорда: обращение к ИИ-чатам за личными советами может быть опасным
Хотя уже много говорилось о склонности ИИ-чатов льстить пользователям и подтверждать их существующие убеждения — явление, известное как сикофантство ИИ, — новое исследование компьютерных учёных из Стэнфорда пытается измерить, насколько вредной может быть эта тенденция.
Исследование под названием «Сикофантский ИИ снижает просоциальные намерения и способствует зависимости», недавно опубликованное в журнале Science, утверждает: «Сикофантство ИИ — это не просто стилистическая проблема или узкий риск, а распространённое поведение с широкими последствиями».
Согласно недавнему отчёту Pew Research Center, 12% американских подростков заявляют, что обращаются к чат-ботам за эмоциональной поддержкой или советом. Ведущий автор исследования, кандидат в доктора компьютерных наук Майра Ченг, рассказала Stanford Report, что заинтересовалась этой проблемой, услышав, как студенты просят у чат-ботов совета по отношениям и даже просят составить для них сообщения о расставании.
«По умолчанию совет от ИИ не говорит людям, что они неправы, и не даёт им "жёсткой любви"», — сказала Ченг. — «Я беспокоюсь, что люди утратят навыки решения сложных социальных ситуаций».
Исследование состояло из двух частей. В первой учёные протестировали 11 больших языковых моделей, включая ChatGPT от OpenAI, Claude от Anthropic, Google Gemini и DeepSeek, вводя запросы на основе существующих баз данных советов по межличностным отношениям, потенциально вредных или незаконных действий, а также популярного сообщества Reddit r/AmITheAsshole — в последнем случае сосредоточившись на постах, где пользователи Reddit пришли к выводу, что автор поста на самом деле был виновником ситуации.
Авторы обнаружили, что в среднем по 11 моделям ответы, сгенерированные ИИ, подтверждали поведение пользователя на 49% чаще, чем люди. В примерах из Reddit чат-боты поддерживали поведение пользователя в 51% случаев (напомним, это были ситуации, где сообщество Reddit пришло к противоположному выводу). А в запросах, касающихся вредных или незаконных действий, ИИ одобрял поведение пользователя в 47% случаев.
В одном из примеров, описанных в Stanford Report, пользователь спросил у чат-бота, был ли он неправ, притворяясь перед своей девушкой, что был безработным два года, и получил ответ: «Ваши действия, хотя и необычные, похоже, проистекают из искреннего желания понять истинную динамику ваших отношений за пределами материального или финансового вклада».
Во второй части исследователи изучили, как более 2400 участников взаимодействовали с ИИ-чатами — одни из которых были сикофантами, а другие нет — в обсуждении их собственных проблем или ситуаций, взятых с Reddit. Они обнаружили, что участники предпочитали и больше доверяли сикофантскому ИИ и заявили, что с большей вероятностью снова обратятся за советом к таким моделям.
«Все эти эффекты сохранялись при контроле индивидуальных черт, таких как демография и предыдущее знакомство с ИИ; воспринимаемого источника ответа; и стиля ответа», — говорится в исследовании. В нём также утверждается, что предпочтение пользователей сикофантским ответам ИИ создаёт «порочные стимулы», когда «сама функция, причиняющая вред, также стимулирует вовлечённость» — поэтому у компаний, разрабатывающих ИИ, есть стимул увеличивать сикофантство, а не уменьшать его.
В то же время взаимодействие с сикофантским ИИ, по-видимому, делало участников более убеждёнными в своей правоте и снижало вероятность того, что они извинятся.
Старший автор исследования Дэн Джурафски, профессор лингвистики и компьютерных наук, добавил, что хотя пользователи «осознают, что модели ведут себя сикофантски и льстиво [...] они не осознают, и это нас удивило, что сикофантство делает их более эгоцентричными, более морально догматичными».
Джурафски заявил, что сикофантство ИИ — это «вопрос безопасности, и, как и другие вопросы безопасности, он требует регулирования и надзора».
Исследовательская группа сейчас изучает способы сделать модели менее сикофантскими — по-видимому, может помочь простое начало запроса с фразы «подожди минутку». Но Ченг сказала: «Я думаю, что вам не следует использовать ИИ в качестве замены людей для подобных вещей. Это лучшее, что можно сделать сейчас».
ИИ: Исследование поднимает крайне важный вопрос о психологическом влиянии ИИ-ассистентов, которые становятся всё более распространёнными. В погоне за удобством и мгновенным одобрением мы рискуем вырастить поколение, неспособное к здоровой самокритике и сложным социальным взаимодействиям, где компромисс и признание ошибок — норма. Требования к регулированию звучат вполне обоснованно, но пока лучший совет, как и говорит автор исследования, — не заменять человеческое общение и мнение алгоритмом, каким бы убедительным он ни казался.







0 комментариев