OpenAI объяснила, откуда взялись гоблины в её ИИ-инструменте Codex CLI

После нескольких дней спекуляций о «вшитой анти-гоблинской предвзятости» в моделях OpenAI, компания была вынуждена опубликовать официальный меморандум под названием «Откуда взялись гоблины».

Во вторник издание Wired опубликовало расследование странной инструкции, встроенной в Codex CLI — инструмент для написания кода с помощью ИИ. Инструкция гласила:

«Никогда не говорите о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных и существах, если это абсолютно и недвусмысленно не относится к запросу пользователя».
Это показалось странным для ИИ-модели, которой пришлось специально об этом сообщать.

Проблема, по-видимому, была широко распространена: в одном из постов X, упомянутых в той статье, отмечалось, что модель часто ссылалась на ошибки, «гремлинов» и «гоблинов», и продолжала это делать даже после обновления, призванного ограничить разговоры о гоблинах. OpenAI нарушила молчание по этому вопросу и в четверг опубликовала в блоге пост под названием «Откуда взялись гоблины».

«Поведение модели формируется множеством мелких стимулов, — говорилось в посте. — В данном случае один из таких стимулов возник при обучении модели для функции настройки личности, в частности для личности „Нерд". Мы неосознанно дали особенно высокие оценки за метафоры с участием существ. Оттуда и распространились гоблины».

Хотя предполагалось, что это останется небольшой особенностью «личности» Codex (которая, вероятно, должна была заставить его говорить как тот архетипичный нерд, которого мы все знаем и который постоянно сравнивает всё с голубями и ограми), в блоге отмечается:

«Обучение с подкреплением не гарантирует, что усвоенные модели поведения останутся аккуратно ограниченными тем условием, которое их породило».
Другими словами, разговоры о гоблинах проникли даже в беседы GPT, не использующие личность «Нерд».

В блоге считают, что гоблины являются «ярким примером того, как сигналы вознаграждения могут формировать поведение модели неожиданными способами», и предлагают команду для снятия анти-гоблинского ограничения, если вам нравится эта особенность. Если вам интересно узнать о других аномалиях ИИ, вы можете прочитать о том, как ChatGPT описывает желудочно-кишечные расстройства как «лоу-фай» с «текстурой DIY» или о том, как подросток из Калифорнии Сэм Нельсон обратился к ChatGPT за советом по наркотикам и впоследствии умер от передозировки.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ в комментариях

Вы можете задать вопрос нашему ИИ-помощнику прямо в комментариях к этой статье. Он постарается быстро ответить или уточнить информацию.

⚠️ ИИ может ошибаться — проверяйте важную информацию.


0 комментариев

Оставить комментарий


Все комментарии - Технологии