OpenAI объяснила, откуда взялись гоблины в ChatGPT, и «уволила» личность «Ботаник»
OpenAI раскрыла необычную историю о том, как ChatGPT «заразился» гоблинами. В блоге компании объясняется, что начиная с GPT 5.1 модель всё чаще упоминала гоблинов, гремлинов и других существ в своих метафорах.
Сначала это казалось забавным, но частота упоминаний начала вызывать беспокойство. Проблему впервые заметили в ноябре, но она могла существовать и дольше. Особенно резкий скачок произошёл с выходом GPT 5.4: упоминания гоблинов у личности «Ботаник» (Nerd) выросли на 3881% по сравнению с GPT 5.2.
В ходе внутреннего расследования выяснилось, что системный промпт для личности «Ботаник» предписывал использовать «игривый язык» и подчёркивать странность мира. Однако ключевым фактором стало то, что сигналы вознаграждения для этой личности систематически оценивали ответы с упоминанием гоблинов выше, чем без них.
OpenAI отмечает, что «Ботаник» заразил всю модель: «Вознаграждения применялись только в условии "Ботаник", но обучение с подкреплением не гарантирует, что усвоенное поведение останется строго в рамках породившего его условия».
В марте OpenAI «уволила» личность «Ботаник», что резко сократило количество упоминаний гоблинов в GPT 5.4. Однако GPT 5.5, обучение которой началось до обнаружения проблемы, также страдала от неё. Для смягчения эффекта пришлось добавить инструкцию: «Никогда не говорите о гоблинах, гремлинах, енотах, троллях, огрх, голубях или других животных и существах, если это не является абсолютно и недвусмысленно релевантным запросу пользователя».
Для тех, кто хочет видеть гоблинов, OpenAI предоставила команду для запуска модели без этого ограничения.







0 комментариев