Разрыв в обучении с подкреплением: почему одни навыки ИИ развиваются быстрее других

5 октября 2025, 20:20 / Технологии → Новости / Технологии

Навыки искусственного интеллекта в области программирования развиваются значительно быстрее, чем в других сферах, таких как написание электронных писем. Это явление эксперты называют «разрывом в обучении с подкреплением» (reinforcement gap).

Причина различий в скорости прогресса кроется в особенностях обучения с подкреплением (RL) — ключевом драйвере развития ИИ за последние полгода. Этот метод наиболее эффективен, когда есть четкие критерии «успех/неудача», позволяющие проводить миллиарды автоматизированных тестов без участия человека.

«Программирование — идеальный объект для обучения с подкреплением. Даже до появления ИИ существовала целая дисциплина, посвященная тестированию программного обеспечения», — отмечают эксперты.

Разработка программного обеспечения предоставляет готовые системы тестирования: модульное, интеграционное, безопасность. Эти проверки легко масштабировать для обучения ИИ. В то же время оценка качества написания электронных писем или ответов чат-бота остается субъективной и сложной для автоматизации.

Некоторые процессы оказываются более тестируемыми, чем кажется. Например, модель генерации видео Sora 2 от OpenAI демонстрирует значительный прогресс в реалистичности — объекты не исчезают случайно, лица сохраняют форму, физика соблюдается. Эксперты предполагают, что за этим стоит мощная система обучения с подкреплением для каждого аспекта видео.

Этот разрыв имеет серьезные экономические последствия. Процессы, поддающиеся автоматическому тестированию, с большей вероятностью будут автоматизированы, что может изменить рынок труда в соответствующих отраслях.