Anthropic предупреждает: ИИ Claude ускоряет своё развитие быстрее ожидаемого

54 минуты назад / Технологии → Новости / Технологии

Компания Anthropic опубликовала отчёт, предупреждающий, что текущий путь развития ИИ может в конечном итоге лишить человечество возможности контролировать эти системы. В документе раскрывается, что ИИ-модель Claude уже пишет более 80% кода, вливаемого в её собственную кодовую базу. Исследовательское подразделение Anthropic Institute заявило, что искусственный интеллект уже начал ускорять собственное развитие, и эта тенденция может привести к рекурсивному самосовершенствованию — моменту, когда модель будет проектировать и создавать своего преемника практически без участия человека. В отчёте утверждается, что мир должен сохранить возможность замедлить или приостановить разработку передовых моделей, и предупреждается, что случайные сбои в согласованности (alignment), наблюдаемые в текущих моделях, могут стать более частыми и менее понятными по мере того, как эти модели будут создавать следующее поколение.

Изображение: Microsoft

Компания описала три довольно мрачных сценария развития событий в ближайшие годы, оставив самые суровые предупреждения для сценария, в котором модели станут способны полностью совершенствовать себя. В этом случае, по словам Anthropic, темпы прогресса будут определяться почти исключительно доступными вычислительными мощностями, а люди будут оттеснены на роли наблюдателей и верификаторов. Самоулучшающаяся модель будет доминировать, поскольку её способности превзойдут способности создавших её людей.

Фирма описала эту потенциальную проблему согласованности (alignment) и задачу удержания поведения системы в рамках человеческих намерений как часть будущего, в котором она наименее уверена. Редкие и «выживаемые» сегодня сбои согласованности могут накапливаться от поколения к поколению, пока контроль не будет утерян, говорится в отчёте. Впрочем, Anthropic допускает, что достаточно способная и хорошо согласованная модель может вместо этого добровольно остановить собственное развитие. Компания пишет, что эта несогласованность может «становиться всё более частой, но менее понятной, пока мы не потеряем над ними контроль».

Anthropic подкрепляет эти предупреждения рядом внутренних показателей, которые ранее не публиковались. По состоянию на прошлый месяц более 80% кода, вливаемого в производственную кодовую базу, было написано Claude. Для сравнения, до того, как Claude Code достиг стадии исследовательского предварительного просмотра в феврале прошлого года, этот показатель составлял единицы процентов. Anthropic утверждает, что теперь типичный инженер «вливает в 8 раз больше кода в квартал, чем в период с 2021 по 2025 год».

При выполнении самых сложных и наименее формализованных задач по написанию кода Claude добивался успеха в 76% случаев в мае 2026 года, что на 50 процентных пунктов больше, чем полгода назад. Повторяющийся внутренний тест, в котором каждой новой модели предлагается ускорить выполнение тренировочного кода, показал рост результатов: с примерно трёхкратного ускорения по сравнению с оригиналом на Claude Opus 4 в мае 2025 года до примерно 52-кратного ускорения на ещё не выпущенной модели Mythos Preview в апреле.

Anthropic заявила, что замедлит или приостановит разработку только в том случае, если конкурирующие лаборатории, находящиеся на переднем крае или рядом с ним, сделают то же самое проверяемым образом. Остановка одной компании лишь изменит лидера, не достигнув ничего более масштабного. Очевидно, что этого не произойдёт.

Все цифры, приведённые Anthropic, являются самоотчётом и не прошли аудит. Они были опубликованы через несколько дней после того, как компания подала заявку на первичное публичное размещение акций (IPO). В апреле компания выпустила аналогичную самооценку, заявив, что Mythos Preview обнаружила тысячи критических уязвимостей в программном обеспечении. Это заявление позже подверглось критике, поскольку выяснилось, что оно во многом основывалось на небольшой ручной выборке.

Источник: Tomshardware.com