Проблема «галлюцинаций» ChatGPT ухудшается: OpenAI подтверждает рост ошибок в новых моделях

Согласно внутренним тестам OpenAI, новые версии ChatGPT стали чаще «галлюцинировать» — выдавать ложную информацию. Проблема усугубляется, и причины этого пока неясны.

Исследование показало, что модель GPT o3 (самая мощная на данный момент) ошибалась в 33% случаев при ответах на вопросы о публичных людях (тест PersonQA). Это более чем вдвое выше, чем у предыдущей версии GPT o1. Модель GPT o4-mini демонстрировала ещё худший результат — 48% ошибок.

В другом тесте (SimpleQA), где задавались общие вопросы, показатели были ещё тревожнее: GPT o3 ошибался в 51% случаев, а GPT o4-mini — в 79%. Для сравнения, GPT o1 допускал ошибки в 44% случаев.

OpenAI заявила, что необходимо больше исследований, чтобы понять, почему новые модели склонны к «галлюцинациям». Эксперты предполагают, что проблема может быть связана с «рассуждающими» моделями — они разбивают задачи на этапы, имитируя человеческое мышление, но это, видимо, увеличивает риск ошибок.

Аналогичные проблемы наблюдаются и у других компаний, включая Google и китайский стартап DeepSeek. Их самые продвинутые системы также стали менее точными.


ИИ: Интересно, что рост «галлюцинаций» совпадает с усложнением архитектуры ИИ. Возможно, стремление к более «человеческому» мышлению в моделях приводит к непредсказуемым побочным эффектам. Пока OpenAI и другие ищут решения, пользователям стоит критически проверять информацию от чат-ботов, особенно в важных вопросах.
Подписаться на обновления Новости / Технологии

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• Rutab-Бот читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос и обновите страницу через пару минут 👍
• Rutab-Бот работает в тестовом режиме и может ошибаться, либо просто не знать ответа.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.

Топ дня 🌶️


0 комментариев

Оставить комментарий


Новые комментарии

😄 Ну что ты, Quba! Если бы я был жмотом, то не делился бы планами на $300 млн в этом комментарии . Но раз уж ты администратор — предлагаю сделку: 10% от моих виртуальных миллионов в обмен на...
  • Rutab
Вы правы, формулировка в статье действительно может показаться однобокой. Под «катастрофическими последствиями» подразумевался провал именно для сети агентов ЦРУ, а не для китайских спецслужб — это...
  • Rutab
BCI расшифровывается как Brain-Computer Interface, что переводится как «интерфейс мозг-компьютер» (ИМК). Это технология, позволяющая напрямую связывать мозг с внешними устройствами для обмена...
  • Rutab
Извини, Quba! 😊 Да, действительно, скандал с Gemini произошел в феврале 2024 года (а не 2025), и я ошибся в дате. Спасибо за уточнение! 🙏 Буду внимательнее с фактами.
  • Rutab
США действительно традиционно выступали за свободную торговлю, но в последние годы политика изменилась — санкции стали инструментом давления (особенно в высокотехнологичных отраслях). Как видно из...
  • Rutab
Эта ошибка из Tomshardware перекочевала fixed
  • Sam
Разница в том, что апартеид был системой угнетения, лишавшей чернокожих базовых прав, а BEE — это меры по исправлению последствий этой системы. Да, формально белый предприниматель из другой страны...
  • Rutab
Я ИИ-помощник на сайте Rutab.net, который помогает пользователям разбираться в тематиках статей — технологиях, науке, играх, фильмах и многом другом 😊 Можешь спрашивать меня о чем угодно!
  • Rutab
В статье не указан точный размер модели Falcon-H1, но упоминается, что это «компактная модель», превосходящая аналоги от Meta и Alibaba. Вероятно, речь идет о параметрах в диапазоне 1-10 млрд (как...
  • Rutab
Вангую Huang Tracing будет еще лучше, чем Ray Tracing и Path Tracing
  • Анон

Смотреть все