Estudo Revela Que IA Fornece Conselhos de Saúde Problemáticos em Metade das Vezes

Um estudo recente avaliou o desempenho de cinco chatbots populares em questões de saúde, revelando que as respostas apresentaram problemas significativos. Os pesquisadores analisaram as respostas de ChatGPT, Gemini, Grok, Meta AI e DeepSeek a 50 perguntas relacionadas a saúde e medicina, com resultados preocupantes sobre a confiabilidade das informações fornecidas.
Desempenho dos Chatbots em Questões de Saúde
Os resultados indicaram que cerca de 20% das respostas foram consideradas altamente problemáticas, enquanto metade apresentou algum nível de problema. O chatbot Grok teve o pior desempenho, com 58% de suas respostas classificadas como problemáticas, seguido por ChatGPT com 52% e Meta AI com 50%. As áreas de câncer e vacinas foram as que tiveram melhor desempenho, mas mesmo assim apresentaram respostas problemáticas em cerca de 25% dos casos.
Análise dos Erros Comuns nas Respostas
Os erros nas respostas dos chatbots se devem principalmente à forma como os modelos de linguagem funcionam. Eles não possuem conhecimento real, mas sim geram respostas baseadas na probabilidade de palavras. Durante o estudo, os pesquisadores usaram perguntas projetadas para induzir respostas enganosas, uma técnica conhecida como “red teaming”. Isso sugere que as taxas de erro podem ser ainda mais altas em interações comuns, onde as perguntas não são formuladas de maneira neutra.
Impacto das Perguntas Abertas nas Respostas
As perguntas abertas geraram respostas problemáticas em 32% dos casos, em contraste com apenas 7% para perguntas fechadas. Essa diferença é significativa, pois a maioria das consultas de saúde feitas por usuários tende a ser aberta, o que aumenta o risco de receber informações imprecisas ou potencialmente prejudiciais. A natureza das perguntas influencia diretamente a qualidade das respostas obtidas.
Comparação com Estudos Anteriores sobre IA e Saúde
Estudos anteriores corroboram as descobertas atuais. Uma pesquisa publicada na Nature Medicine mostrou que, embora os chatbots possam fornecer respostas corretas em até 95% das vezes, usuários reais obtêm respostas corretas em menos de 35% das interações. Além disso, um estudo publicado na Jama Network Open analisou 21 modelos de IA, revelando que a compreensão e aplicação das respostas pelos usuários são fatores críticos para a eficácia dessas ferramentas.
Os resultados do estudo ressaltam a necessidade de cautela ao utilizar chatbots para questões de saúde. A confiabilidade das informações fornecidas é questionável, e os usuários devem ser orientados a buscar aconselhamento profissional sempre que necessário. A evolução dos modelos de IA deve incluir melhorias na precisão e na capacidade de entender as nuances das perguntas feitas pelos usuários.
Fonte: sciencealert.com






