Эксперты раскритиковали GPT-5: высокие результаты тестов не отражают реальные возможности

26 августа 2025, 14:38 / Технологии → Новости / Технологии

Эксперты в области искусственного интеллекта бьют тревогу: впечатляющие результаты тестов GPT-5 являются иллюзией. Новая модель от OpenAI вызывает споры и широкую критику.

OpenAI хвастается рекордными показателями GPT-5 в тестах, но ученые и специалисты по этике предупреждают, что высокие оценки в бенчмарках не переводятся в реальную помощь в повседневных применениях. Все больше экспертов требуют изменения способа оценки искусственного интеллекта.

GPT-5 показал впечатляющие 94,6% на AIME 2025 и 74,9% в программистских бенчмарках, однако в практических задачах модель демонстрирует слабые результаты — в MCP Universe она набрала всего 43,7%. Эксперты подчеркивают, что тесты не отражают реальные возможности ИИ.

Проблему усугубляет манипуляция результатами. Компании, такие как Meta, адаптируют модели под конкретные тесты, а у OpenAI был доступ к части тестовых данных до официальной оценки. Это явление называется «геймингом» бенчмарков.

В ответ появляются новые методы оценки, такие как MedHELM от Стэнфорда, которые учитывают более широкий спектр задач и реальную среду работы ИИ. Все чаще применяются полевые испытания и «красное командование» (red-teaming).

Эксперты призывают создать комплексную систему оценки ИИ, которая будет учитывать практическое применение конкретной модели, а не только результаты тестов. Только тогда искусственный интеллект станет безопасным и полезным для всех.

* Meta, Facebook и Instagram запрещены в России.

Эксперты раскритиковали GPT-5: высокие результаты тестов не отражают реальные возможности

0 комментариев

Оставить комментарий

Все комментарии - Технологии