Eine neue Studie zeigt, dass bestimmte Schichten von OpenAIs Whisper-Sprach-KI eng mit der Art und Weise übereinstimmen, wie das menschliche Gehirn Sprache verarbeitet. Die auf dem ICLR 2026 Workshop zu Representational Alignment vorgestellte Forschung zeigt, dass mittlere Schichten – nicht die ersten oder letzten – die stärkste Übereinstimmung mit intrakraniellen Gehirnaufzeichnungen liefern.
Die Forschung
Matteo Ciferri und Kollegen (Universität Rom, Harvard Medical School) zeichneten Elektrokortikographie (ECoG) von 12 Epilepsiepatienten auf, die natürliche Sprache hörten. ECoG verwendet Elektroden, die direkt auf dem Gehirn platziert werden, und liefert Daten mit Millisekunden-Genauigkeit. Dann fütterten sie dieselbe Sprache in OpenAIs Whisper, ein tiefes neuronales Netzwerk, das mit 680.000 Stunden mehrsprachigem Audio trainiert wurde.
Um die internen Repräsentationen von Whisper mit den Gehirnsignalen zu vergleichen, entwickelte das Team einen zeitaufgelösten neuronalen Encoder, der Whisper-Embeddings mit einem rekurrenten zeitlichen Modell und weicher Aufmerksamkeit kombinierte. Dies ermöglichte es ihnen, Schicht für Schicht zu untersuchen, wie gut jede der 32 Schichten von Whisper die neuronale Aktivität vorhersagte. Die mittleren Schichten (etwa Schichten 15-20) zeigten die höchste Übereinstimmung, was eine hierarchische Ausrichtung zwischen den Verarbeitungsstufen des Modells und der kortikalen Sprachverarbeitung unterstützt.
Im Vergleich zu einfacheren linearen Modellen, die dieselben Sprachmerkmale verwendeten, verbesserte der zeitlich strukturierte Encoder die Vorhersagegenauigkeit um 15-20 %. Aufmerksamkeitskarten zeigten, dass sich das Modell auf bestimmte Zeitpunkte im Sprachstrom konzentrierte, um neuronale Antworten vorherzusagen, was mit bekannten zeitlichen Dynamiken der Sprachwahrnehmung übereinstimmt. Eine phonemische Analyse zeigte weiterhin, dass informative Elektroden für die Kodierung Cluster bildeten, die Phonemkategorien (wie Konsonanten vs. Vokale) entsprechen, was mit der bekannten funktionellen Organisation des auditorischen Kortex übereinstimmt.
Warum es wichtig ist
Diese Forschung legt nahe, dass Deep-Learning-Modelle wie Whisper als nützlicher Rahmen dienen können, um zu verstehen, wie das Gehirn Sprache in Echtzeit repräsentiert. Die hierarchische Übereinstimmung impliziert, dass sowohl KI als auch menschliche Gehirne Sprache in Stufen verarbeiten, von einfachen akustischen Merkmalen bis zu komplexen linguistischen Abstraktionen. Für jeden, der neugierig auf seine eigene Kognition ist, bestärkt dies, dass Sprachwahrnehmung ein dynamischer, mehrschichtiger Prozess ist – kein einzelner Schnappschuss.
Was Sie tun können
Um die Sprachverarbeitung Ihres Gehirns zu unterstützen, versuchen Sie aktives Zuhören: Konzentrieren Sie sich in einer lauten Umgebung auf einen Sprecher, paraphrasieren Sie, was er gesagt hat, und achten Sie auf die unterschiedlichen Laute (Phoneme) der Wörter. Regelmäßiges Üben kann die hierarchische Analyse Ihres auditorischen Kortex schärfen.
Quelle: arXiv q-bio.NC
Neugierig auf Ihr eigenes Gehirn? Machen Sie unseren kostenlosen adaptiven IQ-Test oder probieren Sie 306 Gehirntrainings-Levels.