Estudo revela fraquezas de IA em teste de atenção clássica

Uma pesquisa recente analisou o desempenho de modelos de linguagem, como o GPT-5, em um teste psicológico clássico conhecido como teste de Stroop. Os resultados indicam que, ao contrário dos humanos, esses sistemas de inteligência artificial apresentam dificuldades em manter o foco em tarefas mais longas e complexas.
Pesquisa analisa desempenho de modelos de linguagem em teste de Stroop
O estudo, liderado por Suketu Patel, investigou como modelos de linguagem de grande escala (LLMs) lidam com o teste de Stroop, um desafio cognitivo que avalia a capacidade de atenção e controle mental. Os pesquisadores testaram diversos modelos, incluindo GPT-5 e Claude, em diferentes condições do teste.
Descrição do teste de Stroop e suas implicações
O teste de Stroop consiste em apresentar palavras que nomeiam cores, como ‘vermelho’ ou ‘azul’, escritas em tintas de cores diferentes. Os participantes devem identificar a cor da tinta, ignorando o significado da palavra. Essa tarefa gera um conflito mental, exigindo controle executivo, que é a capacidade de focar em um objetivo e resistir a distrações.
Resultados iniciais e desempenho em listas curtas
Nos testes iniciais, os modelos de IA mostraram desempenho satisfatório em listas curtas de cinco palavras, com o GPT-4o alcançando 91% de precisão. Claude 3.5 Sonnet também apresentou resultados positivos, indicando que os sistemas de IA conseguiram seguir as instruções e ignorar os significados das palavras.

Declínio de desempenho em listas mais longas e diferenças cognitivas
No entanto, à medida que o número de palavras aumentou, a precisão dos modelos caiu drasticamente. O GPT-4o, por exemplo, teve uma redução de 91% para 57% ao passar de cinco para dez palavras, e a precisão despencou para apenas 15% em listas de 40 palavras. Claude 3.5 Sonnet, embora mais resistente, também enfrentou uma queda significativa, atingindo 24% de precisão em listas longas.
Esses resultados evidenciam uma diferença fundamental entre a cognição humana e o processamento de informações pelos modelos de linguagem. Enquanto humanos conseguem suprimir respostas automáticas e manter o foco, os sistemas de IA tendem a se distrair e perder o objetivo original à medida que a complexidade da tarefa aumenta. Para mais detalhes, consulte a publicação na PNAS Nexus.





