Эксперты раскритиковали GPT-5: высокие результаты тестов не отражают реальные возможности
Эксперты в области искусственного интеллекта бьют тревогу: впечатляющие результаты тестов GPT-5 являются иллюзией. Новая модель от OpenAI вызывает споры и широкую критику.
OpenAI хвастается рекордными показателями GPT-5 в тестах, но ученые и специалисты по этике предупреждают, что высокие оценки в бенчмарках не переводятся в реальную помощь в повседневных применениях. Все больше экспертов требуют изменения способа оценки искусственного интеллекта.
GPT-5 показал впечатляющие 94,6% на AIME 2025 и 74,9% в программистских бенчмарках, однако в практических задачах модель демонстрирует слабые результаты — в MCP Universe она набрала всего 43,7%. Эксперты подчеркивают, что тесты не отражают реальные возможности ИИ.
Проблему усугубляет манипуляция результатами. Компании, такие как Meta, адаптируют модели под конкретные тесты, а у OpenAI был доступ к части тестовых данных до официальной оценки. Это явление называется «геймингом» бенчмарков.
В ответ появляются новые методы оценки, такие как MedHELM от Стэнфорда, которые учитывают более широкий спектр задач и реальную среду работы ИИ. Все чаще применяются полевые испытания и «красное командование» (red-teaming).
Эксперты призывают создать комплексную систему оценки ИИ, которая будет учитывать практическое применение конкретной модели, а не только результаты тестов. Только тогда искусственный интеллект станет безопасным и полезным для всех.
* Meta, Facebook и Instagram запрещены в России.
0 комментариев