ИИ начинает «задыхаться» от собственных данных: качество моделей падает из-за обучения на сгенерированном контенте
Сценарий, о котором предупреждали ещё в 2024 году, начинает сбываться: искусственный интеллект, обучающийся на данных, которые сам же и создал, демонстрирует снижение качества работы. Особенно остро проблема проявляется, когда ИИ анализирует интернет-контент, который всё чаще создаётся с помощью таких же ИИ-инструментов.
Эффект «испорченного телефона» в ИИ
Согласно публикации в The Register, подтверждаются выводы исследования Nature: модели ИИ «деградируют» из-за обучения на собственных сгенерированных данных. Это приводит к трём основным проблемам:
- Накопление ошибок по принципу «испорченного телефона» — каждое новое поколение моделей наследует и усиливает неточности предыдущих
- Потеря части исходных данных обучения, что делает информацию неполной
- Петля обратной связи, усиливающая определённые шаблоны и приводящая к повторяющимся или предвзятым результатам
Основная причина — использование технологии RAG (retrieval-augmented generation), когда ИИ подключается к интернету для поиска новой информации. Однако сеть уже переполнена низкокачественным контентом, созданным ИИ, что негативно влияет на обучение моделей.
Исследования показывают, что современные модели (GPT-4o, Claude-3.5-Sonnet, Gemma-7B) с использованием RAG выдают менее точные и последовательные результаты по сравнению с моделями, не использующими эту технологию. Более того, RAG может способствовать распространению дезинформации и даже нарушать конфиденциальность данных.
Решение могло бы заключаться в использовании для обучения исключительно контента, созданного людьми. Однако это сложно реализовать на практике. Если ситуация не изменится, качество работы ИИ может ухудшиться настолько, что пользователи вернутся к традиционным поисковым системам.
0 комментариев