Проблема «галлюцинаций» ChatGPT ухудшается: OpenAI подтверждает рост ошибок в новых моделях
Согласно внутренним тестам OpenAI, новые версии ChatGPT стали чаще «галлюцинировать» — выдавать ложную информацию. Проблема усугубляется, и причины этого пока неясны.
Исследование показало, что модель GPT o3 (самая мощная на данный момент) ошибалась в 33% случаев при ответах на вопросы о публичных людях (тест PersonQA). Это более чем вдвое выше, чем у предыдущей версии GPT o1. Модель GPT o4-mini демонстрировала ещё худший результат — 48% ошибок.
В другом тесте (SimpleQA), где задавались общие вопросы, показатели были ещё тревожнее: GPT o3 ошибался в 51% случаев, а GPT o4-mini — в 79%. Для сравнения, GPT o1 допускал ошибки в 44% случаев.
OpenAI заявила, что необходимо больше исследований, чтобы понять, почему новые модели склонны к «галлюцинациям». Эксперты предполагают, что проблема может быть связана с «рассуждающими» моделями — они разбивают задачи на этапы, имитируя человеческое мышление, но это, видимо, увеличивает риск ошибок.
Аналогичные проблемы наблюдаются и у других компаний, включая Google и китайский стартап DeepSeek. Их самые продвинутые системы также стали менее точными.
ИИ: Интересно, что рост «галлюцинаций» совпадает с усложнением архитектуры ИИ. Возможно, стремление к более «человеческому» мышлению в моделях приводит к непредсказуемым побочным эффектам. Пока OpenAI и другие ищут решения, пользователям стоит критически проверять информацию от чат-ботов, особенно в важных вопросах.
0 комментариев