Une nouvelle étude révèle que certaines couches de l'IA vocale Whisper d'OpenAI correspondent étroitement à la façon dont le cerveau humain traite la parole. La recherche, présentée à l'ICLR 2026 Workshop on Representational Alignment, montre que les couches intermédiaires – ni les premières ni les dernières – offrent la meilleure correspondance avec les enregistrements intracrâniens du cerveau.
La recherche
Matteo Ciferri et ses collègues (Université de Rome, Harvard Medical School) ont enregistré l'électrocorticographie (ECoG) de 12 patients épileptiques écoutant un discours naturel. L'ECoG utilise des électrodes placées directement sur le cerveau, fournissant des données à la milliseconde près. Ils ont ensuite introduit le même discours dans Whisper d'OpenAI, un réseau neuronal profond entraîné sur 680 000 heures de données audio multilingues.
Pour comparer les représentations internes de Whisper aux signaux cérébraux, l'équipe a développé un encodeur neuronal à résolution temporelle qui combinait les embeddings de Whisper avec un modèle temporel récurrent et une attention douce. Cela leur a permis d'examiner couche par couche dans quelle mesure chacune des 32 couches de Whisper prédisait l'activité neuronale. Les couches intermédiaires (autour des couches 15-20) ont montré la plus grande correspondance, soutenant un alignement hiérarchique entre les étapes de traitement du modèle et le traitement cortical de la parole.
Comparé à des modèles linéaires plus simples utilisant les mêmes caractéristiques de parole, l'encodeur structuré temporellement a amélioré la précision de prédiction de 15 à 20 %. Les cartes d'attention ont révélé que le modèle se concentrait sur des points temporels spécifiques dans le flux de parole pour prédire les réponses neuronales, en accord avec la dynamique temporelle connue de la perception de la parole. Une analyse phonémique a en outre montré que les électrodes informatives pour l'encodage formaient des clusters correspondant à des catégories phonémiques (comme les consonnes vs. les voyelles), conformément à l'organisation fonctionnelle connue du cortex auditif.
Pourquoi c'est important
Cette recherche suggère que des modèles d'apprentissage profond comme Whisper peuvent servir de cadre utile pour comprendre comment le cerveau représente la parole en temps réel. La correspondance hiérarchique implique que les IA et les cerveaux humains traitent la parole par étapes, des caractéristiques acoustiques simples aux abstractions linguistiques complexes. Pour les curieux de leur propre cognition, cela renforce que la perception de la parole est un processus dynamique et multicouche – pas un simple instantané.
Ce que vous pouvez faire
Pour soutenir le traitement de la parole de votre cerveau, essayez l'écoute active : concentrez-vous sur un seul interlocuteur dans un environnement bruyant, paraphrasez ce qu'il a dit et remarquez les sons distincts (phonèmes) des mots. Une pratique régulière peut affiner l'analyse hiérarchique de votre cortex auditif.
Source : arXiv q-bio.NC
Curieux de votre propre cerveau ? Passez notre test de QI adaptatif gratuit ou essayez 306 niveaux d'entraînement cérébral.