Разрыв в обучении с подкреплением: почему одни навыки ИИ развиваются быстрее других
Навыки искусственного интеллекта в области программирования развиваются значительно быстрее, чем в других сферах, таких как написание электронных писем. Это явление эксперты называют «разрывом в обучении с подкреплением» (reinforcement gap).
Причина различий в скорости прогресса кроется в особенностях обучения с подкреплением (RL) — ключевом драйвере развития ИИ за последние полгода. Этот метод наиболее эффективен, когда есть четкие критерии «успех/неудача», позволяющие проводить миллиарды автоматизированных тестов без участия человека.
«Программирование — идеальный объект для обучения с подкреплением. Даже до появления ИИ существовала целая дисциплина, посвященная тестированию программного обеспечения», — отмечают эксперты.
Разработка программного обеспечения предоставляет готовые системы тестирования: модульное, интеграционное, безопасность. Эти проверки легко масштабировать для обучения ИИ. В то же время оценка качества написания электронных писем или ответов чат-бота остается субъективной и сложной для автоматизации.
Некоторые процессы оказываются более тестируемыми, чем кажется. Например, модель генерации видео Sora 2 от OpenAI демонстрирует значительный прогресс в реалистичности — объекты не исчезают случайно, лица сохраняют форму, физика соблюдается. Эксперты предполагают, что за этим стоит мощная система обучения с подкреплением для каждого аспекта видео.
Этот разрыв имеет серьезные экономические последствия. Процессы, поддающиеся автоматическому тестированию, с большей вероятностью будут автоматизированы, что может изменить рынок труда в соответствующих отраслях.
0 комментариев