Um novo estudo descobre que certas camadas do Whisper AI da OpenAI correspondem de perto à forma como o cérebro humano processa a fala. A pesquisa, apresentada no ICLR 2026 Workshop on Representational Alignment, mostra que as camadas intermediárias—não as primeiras ou últimas—fornecem a correspondência mais forte com registros intracranianos cerebrais.
A Pesquisa
Matteo Ciferri e colegas (Universidade de Roma, Harvard Medical School) registraram eletrocorticografia (ECoG) de 12 pacientes com epilepsia ouvindo fala natural. A ECoG usa eletrodos colocados diretamente no cérebro, fornecendo dados de precisão de milissegundos. Eles então alimentaram a mesma fala no Whisper da OpenAI, uma rede neural profunda treinada em 680.000 horas de áudio multilíngue.
Para comparar as representações internas do Whisper aos sinais cerebrais, a equipe desenvolveu um codificador neural temporal que combinava embeddings do Whisper com um modelo temporal recorrente e atenção suave. Isso permitiu examinar camada por camada quão bem cada uma das 32 camadas do Whisper predizia a atividade neural. As camadas intermediárias (cerca de camadas 15-20) mostraram a maior correspondência, apoiando um alinhamento hierárquico entre os estágios de processamento do modelo e o processamento cortical da fala.
Quando comparado a modelos lineares mais simples usando os mesmos recursos de fala, o codificador temporalmente estruturado melhorou a precisão da predição em 15-20%. Mapas de atenção revelaram que o modelo focava em pontos temporais específicos no fluxo da fala para predizer respostas neurais, alinhando-se com a dinâmica temporal conhecida da percepção da fala. Uma análise fonêmica mostrou ainda que eletrodos informativos para codificação formavam agrupamentos correspondentes a categorias de fonemas (como consoantes vs. vogais), consistente com a organização funcional conhecida do córtex auditivo.
Por Que Isso Importa
Esta pesquisa sugere que modelos de aprendizado profundo como o Whisper podem servir como uma estrutura útil para entender como o cérebro representa a fala em tempo real. A correspondência hierárquica implica que tanto a IA quanto os cérebros humanos processam a fala em estágios, de características acústicas simples a abstrações linguísticas complexas. Para qualquer um curioso sobre sua própria cognição, isso reforça que a percepção da fala é um processo dinâmico e multicamadas—não uma imagem única.
O Que Você Pode Fazer
Para apoiar o processamento da fala do seu cérebro, tente a escuta ativa: foque em um falante em um ambiente ruidoso, parafraseie o que ele disse e perceba os sons distintos (fonemas) das palavras. A prática regular pode aprimorar a análise hierárquica do seu córtex auditivo.
Fonte: arXiv q-bio.NC
Curioso sobre seu próprio cérebro? Faça nosso teste de QI adaptativo gratuito ou tente 306 níveis de treinamento cerebral.