Тест Струпа выявил главную слабость современного ИИ: потерю фокуса на длинных задачах
Простой тест на внимательность показал, что даже самые умные современные ИИ-модели могут неожиданно «терять фокус» и допускать ошибки при выполнении длительных задач. Credit: Shutterstock
Искусственный интеллект умеет писать эссе, отвечать на вопросы и решать сложные задачи. Однако новое исследование показывает, что ИИ может испытывать трудности с тем, с чем человек справляется ежедневно: сохранять концентрацию на задаче при наличии отвлекающих факторов.
Исследователи под руководством Сукету Пателя проверили несколько ведущих ИИ-моделей с помощью известного психологического эксперимента — теста Струпа. Результаты выявили значительную разницу между тем, как ИИ обрабатывает информацию, и тем, как человеческий мозг управляет вниманием.
Что такое тест Струпа?
Тест Струпа — это классический психологический тест, который десятилетиями используется для изучения внимания, концентрации и самоконтроля.
В тесте слова, обозначающие цвета, например «красный», «синий» или «зеленый», отображаются цветными чернилами. Иногда слово и цвет чернил совпадают. Например, слово «красный» может быть написано красными чернилами. В других случаях возникает конфликт, например слово «красный» напечатано синими чернилами.
Участников просят назвать цвет чернил, а не прочитать само слово.
Звучит просто, но это создает сложность, так как чтение слов является автоматической привычкой для большинства людей. Мозг должен подавить желание прочитать слово и вместо этого сосредоточиться на определении цвета чернил.
Психологи часто используют этот тест для измерения так называемого исполнительного контроля — набора психических процессов, которые помогают человеку регулировать внимание, сопротивляться отвлечениям и оставаться сосредоточенным на целях.
Тестирование внимания ИИ
Исследователи хотели выяснить, справляются ли современные большие языковые модели (LLM) с этой задачей так же, как люди.
LLM — это системы ИИ, лежащие в основе таких инструментов, как ChatGPT, Claude и Gemini. Они обучаются на огромных объемах текста и усваивают языковые закономерности, что позволяет им генерировать ответы, которые часто кажутся поразительно человеческими.
При работе с короткими списками из пяти слов, обозначающих цвета, ИИ-системы в целом показывали хорошие результаты, даже когда слова и цвета не совпадали.
Однако картина резко изменилась, когда списки стали длиннее.
GPT-4o достигла точности 91% при работе с пятью словами. При десяти словах ее точность упала до 57%. Когда список расширился до сорока слов, точность снизилась всего до 15%.
Claude 3.5 Sonnet сохраняла стабильную производительность на списках до двадцати слов, но затем испытала резкий спад, упав до 24% точности на списках из сорока слов.
Исследователи наблюдали схожие закономерности у GPT-5, Claude Opus 4.1 и Gemini 2.5.
Когда ИИ теряет фокус
Задача стала еще сложнее, когда совпадающие и несовпадающие слова-цвета появились в одном списке.
В этих условиях производительность ухудшилась еще больше. Точность для несовпадающих элементов в некоторых случаях упала почти до нуля.
По словам исследователей, ИИ-модели с трудом удерживали инструкцию определять цвета чернил. Вместо этого они все чаще по умолчанию начинали читать сами слова.
Другими словами, системы оказались неспособны последовательно подавлять реакцию, которую они были наиболее сильно обучены выдавать.
Этот вывод особенно интересен, потому что люди сталкиваются с аналогичным конфликтом. Люди, как правило, гораздо лучше читают слова, чем называют цвета чернил. Однако, несмотря на это, большинство людей могут поддерживать высокую точность и стабильную производительность даже при работе с длинными списками конфликтующих слов и цветов.
Человеческое внимание против машинного
Исследование подчеркивает важное различие между человеческим и искусственным интеллектом.
Хотя современные ИИ-системы демонстрируют впечатляющие языковые и мыслительные способности, их базовые механизмы отличаются от процессов внимания, обнаруженных в биологическом мозге.
Люди часто могут сохранять концентрацию на конкретной цели, отфильтровывая конкурирующую информацию. Результаты показывают, что современные ИИ-модели могут испытывать трудности с таким типом когнитивного контроля, когда задачи становятся все более требовательными.
Исследователи утверждают, что обвал производительности, наблюдаемый в этих экспериментах, указывает на фундаментальные ограничения современных больших языковых моделей. Хотя ИИ иногда может имитировать человеческое поведение, его способность поддерживать внимание, по-видимому, работает совершенно иначе, чем у людей.
Эти результаты напоминают, что даже самые продвинутые ИИ-системы все еще имеют слабые места, особенно когда задачи требуют от них противостоять отвлекающим факторам и сохранять концентрацию на протяжении длинных последовательностей информации.
Источники:
sciencedaily.com
Материалы предоставлены PNAS Nexus.
Suketu Chandrakant Patel, Hongbin Wang, Jin Fan. Deficient executive control in transformer attention. PNAS Nexus, 2026; 5 (6) DOI: 10.1093/pnasnexus/pgag149

0 комментариев