IA inspirada no cérebro aprimora visão das máquinas

Uma equipe de pesquisadores do Instituto de Ciência Básica, da Universidade Yonsei e do Instituto Max Planck desenvolveu uma nova técnica de inteligência artificial (IA) que aproxima a visão computacional de como o cérebro humano processa imagens. Chamada de Lp-Convolution, essa abordagem melhora a precisão e a eficiência dos sistemas de reconhecimento de imagem, ao mesmo tempo que reduz a carga computacional dos modelos de IA existentes.
O cérebro humano é notavelmente eficiente em identificar detalhes-chave em cenas complexas — uma habilidade que os sistemas de IA tradicionais têm dificuldade em replicar. As Redes Neurais Convolucionais (CNNs) — o modelo de IA mais amplamente utilizado para reconhecimento de imagem — processam imagens usando pequenos filtros em formato quadrado. Embora eficaz, essa abordagem rígida limita a capacidade das CNNs de capturar padrões mais amplos em dados fragmentados.
Mais recentemente, os transformadores visuais (vision transformers) demonstraram desempenho superior ao analisar imagens inteiras de uma só vez, mas exigem enorme poder computacional e grandes conjuntos de dados, o que os torna impraticáveis para muitas aplicações no mundo real.
Inspirada na forma como o córtex visual do cérebro processa informações de forma seletiva por meio de conexões circulares e esparsas, a equipe de pesquisa buscou um meio-termo: seria possível uma abordagem inspirada no cérebro tornar as CNNs tanto eficientes quanto poderosas?
Apresentando a Lp-Convolution: uma forma mais inteligente de ver
Para responder a essa pergunta, a equipe desenvolveu a Lp-Convolution, um método inovador que utiliza uma distribuição normal p-generalizada multivariada (MPND) para moldar dinamicamente os filtros das CNNs. Diferente das CNNs tradicionais, que usam filtros quadrados fixos, a Lp-Convolution permite que os modelos de IA adaptem a forma dos filtros — alongando-os horizontal ou verticalmente conforme a tarefa, de maneira semelhante à forma como o cérebro humano foca seletivamente nos detalhes relevantes.
Essa inovação resolve um desafio antigo na pesquisa em IA, conhecido como o “problema do kernel grande”. A simples ampliação dos filtros nas CNNs (por exemplo, usando kernels de 7×7 ou maiores) geralmente não melhora o desempenho, apesar de aumentar o número de parâmetros. A Lp-Convolution supera essa limitação ao introduzir padrões de conectividade flexíveis, inspirados na biologia.

Desempenho no mundo real: uma IA mais forte, inteligente e robusta
Em testes com conjuntos de dados padrão de classificação de imagens (CIFAR-100, TinyImageNet), a Lp-Convolution melhorou significativamente a precisão tanto em modelos clássicos como o AlexNet quanto em arquiteturas modernas como o RepLKNet. O método também demonstrou alta robustez contra dados corrompidos — um grande desafio em aplicações reais de IA.
Além disso, os pesquisadores descobriram que, quando as máscaras Lp utilizadas em seu método se assemelhavam a uma distribuição gaussiana, os padrões internos de processamento da IA se aproximavam dos padrões da atividade neural biológica, como confirmado por comparações com dados do cérebro de camundongos.
“Nós, humanos, rapidamente identificamos o que importa em uma cena lotada”, disse o Dr. C. Justin Lee, diretor do Centro de Cognição e Sociabilidade do Instituto de Ciência Básica. “Nossa Lp-Convolution imita essa habilidade, permitindo que a IA foque de forma flexível nas partes mais relevantes de uma imagem — exatamente como o cérebro faz.”
Impacto e aplicações futuras
Diferente de tentativas anteriores que se baseavam em filtros pequenos e rígidos ou exigiam transformadores com alto custo computacional, a Lp-Convolution oferece uma alternativa prática e eficiente. Essa inovação pode revolucionar áreas como:
- Condução autônoma, em que a IA precisa detectar obstáculos em tempo real
- Imagem médica, melhorando diagnósticos baseados em IA ao destacar detalhes sutis
- Robótica, permitindo uma visão computacional mais inteligente e adaptável em condições variáveis
“Este trabalho é uma contribuição poderosa tanto para a IA quanto para a neurociência”, afirmou o diretor Lee. “Ao alinhar a IA de forma mais próxima ao funcionamento do cérebro, desbloqueamos um novo potencial para as CNNs, tornando-as mais inteligentes, adaptáveis e biologicamente realistas.”
- Veja também: Dispositivo imita o toque humano
Para o futuro, a equipe pretende aperfeiçoar ainda mais essa tecnologia, explorando suas aplicações em tarefas de raciocínio complexo, como resolução de quebra-cabeças (por exemplo, Sudoku) e processamento de imagens em tempo real.
O estudo será apresentado na International Conference on Learning Representations (ICLR 2025), e a equipe de pesquisa disponibilizou seu código e modelos publicamente no GitHub e no OpenReview.net.