ИИ начинает «задыхаться» от собственных данных: качество моделей падает из-за обучения на сгенерированном контенте

5 июня 2025, 12:37 / Технологии → Новости / Технологии

Сценарий, о котором предупреждали ещё в 2024 году, начинает сбываться: искусственный интеллект, обучающийся на данных, которые сам же и создал, демонстрирует снижение качества работы. Особенно остро проблема проявляется, когда ИИ анализирует интернет-контент, который всё чаще создаётся с помощью таких же ИИ-инструментов.

Эффект «испорченного телефона» в ИИ

Согласно публикации в The Register, подтверждаются выводы исследования Nature: модели ИИ «деградируют» из-за обучения на собственных сгенерированных данных. Это приводит к трём основным проблемам:

Накопление ошибок по принципу «испорченного телефона» — каждое новое поколение моделей наследует и усиливает неточности предыдущих
Потеря части исходных данных обучения, что делает информацию неполной
Петля обратной связи, усиливающая определённые шаблоны и приводящая к повторяющимся или предвзятым результатам

Основная причина — использование технологии RAG (retrieval-augmented generation), когда ИИ подключается к интернету для поиска новой информации. Однако сеть уже переполнена низкокачественным контентом, созданным ИИ, что негативно влияет на обучение моделей.

Исследования показывают, что современные модели (GPT-4o, Claude-3.5-Sonnet, Gemma-7B) с использованием RAG выдают менее точные и последовательные результаты по сравнению с моделями, не использующими эту технологию. Более того, RAG может способствовать распространению дезинформации и даже нарушать конфиденциальность данных.

Решение могло бы заключаться в использовании для обучения исключительно контента, созданного людьми. Однако это сложно реализовать на практике. Если ситуация не изменится, качество работы ИИ может ухудшиться настолько, что пользователи вернутся к традиционным поисковым системам.