ИИ-модель Centaur провалила тест на понимание: она не думала, а просто запоминала ответы
Передовая ИИ-модель, которая, как считалось, имитирует человеческое мышление, возможно, просто запоминала ответы. Новые тесты показывают, что у неё возникают трудности с истинным пониманием, обнажая серьёзный пробел в современных системах искусственного интеллекта. Credit: AI/ScienceDaily.com
Психологи давно спорят о том, можно ли объяснить человеческий разум единой теорией или же различные функции, такие как внимание и память, необходимо изучать по отдельности. Теперь в эту дискуссию вступает искусственный интеллект (ИИ), предлагая новый способ исследования работы сознания.
В июле 2025 года в журнале Nature было опубликовано исследование, в котором представлена ИИ-модель под названием «Centaur». Построенная на базе стандартных больших языковых моделей и доработанная с использованием данных психологических экспериментов, Centaur была разработана для симуляции когнитивного поведения человека. Сообщалось, что она успешно справилась со 160 задачами, включая принятие решений, исполнительный контроль и другие психические процессы. Результаты привлекли широкое внимание и рассматривались как возможный шаг к созданию систем ИИ, способных более полно воспроизводить человеческое мышление.
Новое исследование вызывает сомнения
Более недавнее исследование, опубликованное в журнале National Science Open, ставит под сомнение эти заявления. Учёные из Чжэцзянского университета утверждают, что кажущийся успех Centaur может быть следствием переобучения. Другими словами, вместо понимания задач модель могла просто научиться распознавать шаблоны в обучающих данных и воспроизводить ожидаемые ответы.
Чтобы проверить эту гипотезу, исследователи создали несколько новых сценариев оценки. В одном из примеров они заменили исходные подсказки с множественным выбором, которые описывали конкретные психологические задачи, на инструкцию «Пожалуйста, выберите вариант А». Если бы модель действительно понимала задачу, она должна была последовательно выбирать вариант А. Вместо этого Centaur продолжала выбирать «правильные ответы» из исходного набора данных.
Такое поведение свидетельствует о том, что модель не интерпретировала смысл вопросов. Вместо этого она полагалась на выученные статистические закономерности, чтобы «угадывать» ответы. Исследователи сравнили это со студентом, который получает высокие баллы, запоминая форматы тестов, но не понимая материала.
Почему это важно для оценки ИИ
Полученные результаты подчёркивают необходимость осторожности при оценке способностей больших языковых моделей. Хотя эти системы могут быть весьма эффективны в подгонке под данные, их «черноящичная» природа затрудняет понимание того, как они приходят к своим результатам. Это может приводить к таким проблемам, как галлюцинации или неверные интерпретации. Тщательное и разнообразное тестирование необходимо для определения того, действительно ли модель обладает теми навыками, которые она демонстрирует.
Реальная проблема: понимание языка
Хотя Centaur была представлена как модель, способная симулировать когнитивные способности, её главным ограничением, по-видимому, является понимание языка. В частности, она с трудом распознаёт намерения, стоящие за вопросами, и реагирует на них. Исследование предполагает, что достижение истинного понимания языка может быть одной из важнейших задач в разработке систем ИИ, способных более полно моделировать человеческое познание.
Источники:
sciencedaily.com
Материалы предоставлены Science China Press.
Wei Liu, Nai Ding. Can Centaur truly simulate human cognition? The fundamental limitation of instruction understanding. National Science Open, 2025; 5 (1): 20250053 DOI: 10.1360/nso/20250053








0 комментариев