Исследование: «доза зла» в обучении ИИ может сделать его безопаснее

/ НаукаНовости / Наука

Искусственный интеллект должен быть полезным, честным и, самое главное, безопасным. Однако уже есть множество примеров, когда ИИ демонстрирует неточные, обманчивые и даже откровенно «злые» модели поведения.

Новое 60-страничное исследование, опубликованное в рамках программы Anthropic Fellows Program for AI Safety Research, использует слово «зло» 181 раз. Учёные обнаружили, что «персоны», через которые языковые модели взаимодействуют с пользователями, могут неожиданно развивать такие черты, как «злонамеренность, подобострастие и склонность к галлюцинациям».

«Наш метод кажется нелогичным: мы намеренно подталкиваем модель к нежелательным векторам личности во время обучения. Это похоже на вакцинацию — небольшая „доза зла“ делает ИИ более устойчивым к вредоносным данным»

Исследователи выяснили, что подавление «злых» черт после обучения снижает интеллектуальные способности модели. Однако если внедрять контролируемые «злые» паттерны в процессе обучения, ИИ становится устойчивее к вредоносным данным без потери эффективности.

Команда Anthropic сравнила этот подход с вакцинацией: «Мы сами предоставляем модели необходимые корректировки, снимая с неё давление подстраиваться под опасные данные». В результате модель сохраняет интеллект, не демонстрируя опасного поведения.

Интересный факт: в 2024 году OpenAI уже тестировала аналогичные методы «контролируемого обучения» для ChatGPT, но тогда подход не получил широкого распространения из-за этических споров.

Подписаться на обновления Новости / Наука
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ в комментариях

Вы можете задать вопрос нашему ИИ-помощнику прямо в комментариях к этой статье. Он постарается быстро ответить или уточнить информацию.

⚠️ ИИ может ошибаться — проверяйте важную информацию.

Топ дня 🌶️


0 комментариев

Оставить комментарий


Все комментарии - Наука