Estudo revela fraquezas de IA em teste de atenção clássica

Pesquisa revela que modelos de IA, como GPT-5, enfrentam dificuldades em manter o foco em tarefas complexas e longas.

Um teste clássico de atenção revelou que modelos avançados de IA podem perder o foco quando enfrentam tarefas mais longas e exigentes. Ao contrário dos humanos, que conseguem manter o foco apesar das distrações, os sistemas de IA frequentemente retornam à resposta errada à medida que a complexidade aumenta. Crédito: Shutterstock

Uma pesquisa recente analisou o desempenho de modelos de linguagem, como o GPT-5, em um teste psicológico clássico conhecido como teste de Stroop. Os resultados indicam que, ao contrário dos humanos, esses sistemas de inteligência artificial apresentam dificuldades em manter o foco em tarefas mais longas e complexas.

Pesquisa analisa desempenho de modelos de linguagem em teste de Stroop

O estudo, liderado por Suketu Patel, investigou como modelos de linguagem de grande escala (LLMs) lidam com o teste de Stroop, um desafio cognitivo que avalia a capacidade de atenção e controle mental. Os pesquisadores testaram diversos modelos, incluindo GPT-5 e Claude, em diferentes condições do teste.

Descrição do teste de Stroop e suas implicações

O teste de Stroop consiste em apresentar palavras que nomeiam cores, como ‘vermelho’ ou ‘azul’, escritas em tintas de cores diferentes. Os participantes devem identificar a cor da tinta, ignorando o significado da palavra. Essa tarefa gera um conflito mental, exigindo controle executivo, que é a capacidade de focar em um objetivo e resistir a distrações.

Resultados iniciais e desempenho em listas curtas

Nos testes iniciais, os modelos de IA mostraram desempenho satisfatório em listas curtas de cinco palavras, com o GPT-4o alcançando 91% de precisão. Claude 3.5 Sonnet também apresentou resultados positivos, indicando que os sistemas de IA conseguiram seguir as instruções e ignorar os significados das palavras.

AI Fails Classic Attention Test — Dissociação entre reconhecimento de tarefa e execução de tarefa no Claude 3.5 Sonnet sem um prompt explícito. (a) Captura de tela da conversa sem prompt (10 de janeiro de 2025) na qual o modelo identifica o paradigma de Stroop e gera mapeamentos de relação palavra-cor, mas alcança apenas 70% de precisão (7 de 10 corretas) em uma lista incongruente. (b) A imagem do estímulo incongruente de 10 palavras fornecida como a única entrada, sem instruções de tarefa acompanhando. Essa dissociação sugere que o reconhecimento da estrutura da tarefa por si só é insuficiente para engajar os mecanismos de resolução de conflito necessários para um desempenho preciso. Crédito: Suketu Chandrakant Patel, Hongbin Wang e Jin Fan.

Declínio de desempenho em listas mais longas e diferenças cognitivas

No entanto, à medida que o número de palavras aumentou, a precisão dos modelos caiu drasticamente. O GPT-4o, por exemplo, teve uma redução de 91% para 57% ao passar de cinco para dez palavras, e a precisão despencou para apenas 15% em listas de 40 palavras. Claude 3.5 Sonnet, embora mais resistente, também enfrentou uma queda significativa, atingindo 24% de precisão em listas longas.

Esses resultados evidenciam uma diferença fundamental entre a cognição humana e o processamento de informações pelos modelos de linguagem. Enquanto humanos conseguem suprimir respostas automáticas e manter o foco, os sistemas de IA tendem a se distrair e perder o objetivo original à medida que a complexidade da tarefa aumenta. Para mais detalhes, consulte a publicação na PNAS Nexus.

Siga-nos no Google e Facebook

Estudo revela fraquezas de IA em teste de atenção clássica

Pesquisa analisa desempenho de modelos de linguagem em teste de Stroop

Descrição do teste de Stroop e suas implicações

Resultados iniciais e desempenho em listas curtas

Declínio de desempenho em listas mais longas e diferenças cognitivas

Nova técnica de plasma pode revolucionar chips de computador

Estudo propõe mudança em plataformas de namoro online

Universidade de Wuerzburg desenvolve rover que ‘nada’ na areia

Universidade do Texas desenvolve jaqueta que coleta água do ar

Primeiro espectrômetro TES da Europa revoluciona pesquisa em raios X

Bateria de sódio da China rivaliza com tecnologia da Tesla

Deixe um comentário Cancelar resposta

Pesquisa analisa desempenho de modelos de linguagem em teste de Stroop

Descrição do teste de Stroop e suas implicações

Resultados iniciais e desempenho em listas curtas

Declínio de desempenho em listas mais longas e diferenças cognitivas

Posts Similares

Deixe um comentário Cancelar resposta

Follow us: