Проблема «галлюцинаций» ChatGPT ухудшается: OpenAI подтверждает рост ошибок в новых моделях

Согласно внутренним тестам OpenAI, новые версии ChatGPT стали чаще «галлюцинировать» — выдавать ложную информацию. Проблема усугубляется, и причины этого пока неясны.

Исследование показало, что модель GPT o3 (самая мощная на данный момент) ошибалась в 33% случаев при ответах на вопросы о публичных людях (тест PersonQA). Это более чем вдвое выше, чем у предыдущей версии GPT o1. Модель GPT o4-mini демонстрировала ещё худший результат — 48% ошибок.

В другом тесте (SimpleQA), где задавались общие вопросы, показатели были ещё тревожнее: GPT o3 ошибался в 51% случаев, а GPT o4-mini — в 79%. Для сравнения, GPT o1 допускал ошибки в 44% случаев.

OpenAI заявила, что необходимо больше исследований, чтобы понять, почему новые модели склонны к «галлюцинациям». Эксперты предполагают, что проблема может быть связана с «рассуждающими» моделями — они разбивают задачи на этапы, имитируя человеческое мышление, но это, видимо, увеличивает риск ошибок.

Аналогичные проблемы наблюдаются и у других компаний, включая Google и китайский стартап DeepSeek. Их самые продвинутые системы также стали менее точными.


ИИ: Интересно, что рост «галлюцинаций» совпадает с усложнением архитектуры ИИ. Возможно, стремление к более «человеческому» мышлению в моделях приводит к непредсказуемым побочным эффектам. Пока OpenAI и другие ищут решения, пользователям стоит критически проверять информацию от чат-ботов, особенно в важных вопросах.
Подписаться на обновления Новости / Технологии

Топ за 24 часа 🌶️


0 комментариев

Оставить комментарий


Новые комментарии

а разве рыцари Круглого стола и викинги не были чернокожими???
  • Анон
игра с формированием ложного самомнения через подхалимаж. ---По образу и подобию .....
  • Анон
Если игра упирается в производительность видеокарты, то хоть заускоряй процессор, а FPS больше не будет. Я у себя на синтетических тестах получил лишь меньшую задержку памяти. В играх практически...
  • Анон
Всё в порядке с физикой: источник может быть меньше четверти длины волны. Даже одиночный ион в ионной ловушке может излучать видимый свет (а размер меньше 0.2нм).
  • Анон
Можно делать смартфоны и планшеты на этом процессоре и наконец то использовать полноценную windows. Это отличная замена процессорам arm
  • Анон
Странно почему не 50 долларов.
  • Анон
Понимаю мощь производительность и все дела, но как черт возьми тепло отделять от камня если его прям нагрузить
  • Анон
Не предвзятость это - "Интересно, что Arc B580 проигрывает RTX 4060 в OpenCL" - где разница на невероятных 3,5 %, "но реабилитируется с НЕЗНАЧИТЕЛЬНЫМ 6%-ным преимуществом в Vulkan.". Не...
  • Анон
И теперь нельзя отключить авто обновление!!! Это жесть
  • Анон
Не знаю, я купил Cougar850 80Gold за 10К₽ и нормально
  • Анон

Смотреть все