OpenAI заявила, что GPT-5 приближается к уровню человека в различных профессиях
Компания OpenAI представила новый тест GDPval, который оценивает, насколько её модели ИИ справляются с профессиональными задачами по сравнению с людьми из разных отраслей. Цель бенчмарка — понять, насколько системы OpenAI близки к тому, чтобы превзойти человека в экономически значимой работе, что является ключевой частью миссии компании по созданию искусственного общего интеллекта (AGI).
Согласно результатам, модель GPT-5 и Anthropic Claude Opus 4.1 «уже приближаются к качеству работы, производимой отраслевыми экспертами». При этом OpenAI подчёркивает, что текущая версия теста GDPval-v0 охватывает очень ограниченный набор задач из реальных профессий и не означает немедленной замены людей.
Бенчмарк основан на девяти отраслях, вносящих наибольший вклад в ВВП США, включая здравоохранение, финансы, производство и госуправление. Он оценивает производительность ИИ в 44 профессиях, от разработчиков программного обеспечения до медсестёр и журналистов. В тесте профессионалы сравнивали отчёты, созданные ИИ и людьми, выбирая лучший.
Мощная версия GPT-5-high была оценена как лучшая или равная экспертам в 40,6% случаев. Модель Claude Opus 4.1 показала результат в 49%, что, по мнению OpenAI, может быть связано с её склонностью создавать визуально приятные графики, а не с абсолютной производительностью.
OpenAI признаёт, что реальная работа профессионалов гораздо сложнее, чем создание отчётов, и планирует разработать более комплексные тесты. Главный экономист OpenAI доктор Аарон Чаттерджи заявил: «Поскольку модель становится хороша в некоторых из этих вещей, люди на этих работах теперь могут использовать её, чтобы переложить часть своей работы и заниматься потенциально более ценными задачами».
Руководитель оценки OpenAI Теджал Патвардхан отметила обнадёживающую скорость прогресса: модель GPT-4o, выпущенная около 15 месяцев назад, набрала всего 13,7%, тогда как GPT-5 показывает результат почти в три раза выше.
0 комментариев