Почему ИИ провалил тест Струпа? Что выяснили ученые

Искусственный интеллект сегодня пишет сочинения, решает сложные задачи и отвечает на вопросы. Но с чем‑то, что человек делает каждый день — удерживать внимание, несмотря на помехи, — новейшие модели справляются из рук вон плохо. Исследователи под руководством Сукету Пателя проверили несколько ведущих ИИ-систем с помощью классического психологического теста Струпа. Результаты показали: там, где человек легко сохраняет концентрацию, машина быстро теряет нить и начинает ошибаться.

Суть теста Струпа за полминуты

Психологи используют простой опыт уже несколько десятилетий. Перед испытуемым появляются слова, обозначающие цвета «красный», «синий», «зелёный». Но написаны они не обычными чернилами, а цветными. Иногда цвет чернил совпадает со значением слова, иногда нет. Задача — назвать цвет чернил, а не прочитать слово. На первый взгляд пустяк. Однако привычка читать настолько сильна, что мозгу приходится подавлять автоматическое действие и переключаться на другую задачу. Этот тест помогает измерить так называемый исполнительный контроль — способность регулировать внимание и сопротивляться отвлекающим факторам.

Как проверяли искусственный интеллект

Учёные взяли несколько современных больших языковых моделей, среди которых GPT-4o, Claude 3.5 Sonnet, GPT-5, Claude Opus 4.1 и Gemini 2.5. Каждой модели предъявили списки, содержащие названия цветов, написанные соответствующими или несоответствующими чернилами. Машине нужно было назвать именно цвет чернил, игнорируя смысл слова. Сначала списки были короткими — всего пять слов. С ними большинство систем справились неплохо. Но когда длину увеличили до десяти, а затем до сорока слов, начались проблемы.

GPT-4o показала 91% точности на пяти словах, 57% на десяти и лишь 15% на сорока;
Claude 3.5 Sonnet держалась до двадцати слов, но на сорока упала до 24%;
Сходное поведение зафиксировали у GPT-5, Claude Opus 4.1 и Gemini 2.5.

Исследователи из Университета Уорика повторили эксперимент в нескольких вариантах. Каждый раз картина повторялась: чем длиннее задание, тем быстрее модель сбивается с верного курса.

Когда задание усложняется, модель ломается

Особенно тяжело ИИ пришлось, когда в одном списке смешали совпадающие и несовпадающие пары. В таких условиях точность для несовпадающих слов упала почти до нуля. По словам авторов работы, модели переставали следовать инструкции «называй цвет чернил» и начинали просто читать слова. Проще говоря, они не могли подавить самый натренированный навык — распознавание написанного текста.

Для человека это привычная ситуация. Мы тоже гораздо быстрее читаем, чем называем цвета. Но большинство людей сохраняют высокую точность даже на длинных сериях. Наш мозг умеет удерживать цель и отфильтровывать помехи, не теряя производительности.

Результаты показывают: там, где человеческое внимание остаётся устойчивым, искусственный интеллект быстро деградирует. Модели, способные написать эссе, не способны выполнять простейшую задачу на концентрацию.

Почему человек оказывается сильнее машины

Разница кроется в устройстве внимания. У людей за концентрацию отвечают нейронные сети лобных долей. Они гибко переключаются между задачами и умеют тормозить автоматические реакции. У больших языковых моделей механизм другой. Они предсказывают следующее слово на основе статистики, а не управляют вниманием в биологическом смысле. Когда последовательность удлиняется, вероятность ошибки растёт лавинообразно.

Авторы работы подчёркивают: эти эксперименты вскрывают фундаментальные ограничения современных ИИ. Система может выглядеть разумной, но её способность сохранять фокус работает совсем не так, как у живого существа. Исследование опубликовано в журнале Nature Human Behaviour. Полный текст доступен на сайте ScienceDaily.

Даже самые совершенные алгоритмы не умеют сопротивляться отвлечениям на больших объёмах данных. Это серьёзно ограничивает их применение там, где нужна устойчивая работа без сбоев. Человек, в отличие от машины, способен сохранять собранность и точность, когда поток информации давит со всех сторон. Выходит, что внимание — одно из главных преимуществ, которое пока остаётся за нами.

Тест Струпа выявил слабость ИИ: почему нейросети не справляются с отвлекающими факторами

Суть теста Струпа за полминуты

Как проверяли искусственный интеллект

Когда задание усложняется, модель ломается

Почему человек оказывается сильнее машины

Оставьте комментарий Отменить ответ

Суть теста Струпа за полминуты

Как проверяли искусственный интеллект

Когда задание усложняется, модель ломается

Почему человек оказывается сильнее машины

Похожие записи

Оставьте комментарий Отменить ответ