Wie die mittleren Schichten von Whisper AI mit der menschlichen Gehirnaktivität beim Sprechen übereinstimmen

7 Juni 2026 · 2 Min. Lesezeit · Forschung

Eine neue Studie zeigt, dass bestimmte Schichten von OpenAIs Whisper-Sprach-KI eng mit der Art und Weise übereinstimmen, wie das menschliche Gehirn Sprache verarbeitet. Die auf dem ICLR 2026 Workshop zu Representational Alignment vorgestellte Forschung zeigt, dass mittlere Schichten – nicht die ersten oder letzten – die stärkste Übereinstimmung mit intrakraniellen Gehirnaufzeichnungen liefern.

Die Forschung

Matteo Ciferri und Kollegen (Universität Rom, Harvard Medical School) zeichneten Elektrokortikographie (ECoG) von 12 Epilepsiepatienten auf, die natürliche Sprache hörten. ECoG verwendet Elektroden, die direkt auf dem Gehirn platziert werden, und liefert Daten mit Millisekunden-Genauigkeit. Dann fütterten sie dieselbe Sprache in OpenAIs Whisper, ein tiefes neuronales Netzwerk, das mit 680.000 Stunden mehrsprachigem Audio trainiert wurde.

Um die internen Repräsentationen von Whisper mit den Gehirnsignalen zu vergleichen, entwickelte das Team einen zeitaufgelösten neuronalen Encoder, der Whisper-Embeddings mit einem rekurrenten zeitlichen Modell und weicher Aufmerksamkeit kombinierte. Dies ermöglichte es ihnen, Schicht für Schicht zu untersuchen, wie gut jede der 32 Schichten von Whisper die neuronale Aktivität vorhersagte. Die mittleren Schichten (etwa Schichten 15-20) zeigten die höchste Übereinstimmung, was eine hierarchische Ausrichtung zwischen den Verarbeitungsstufen des Modells und der kortikalen Sprachverarbeitung unterstützt.

Im Vergleich zu einfacheren linearen Modellen, die dieselben Sprachmerkmale verwendeten, verbesserte der zeitlich strukturierte Encoder die Vorhersagegenauigkeit um 15-20 %. Aufmerksamkeitskarten zeigten, dass sich das Modell auf bestimmte Zeitpunkte im Sprachstrom konzentrierte, um neuronale Antworten vorherzusagen, was mit bekannten zeitlichen Dynamiken der Sprachwahrnehmung übereinstimmt. Eine phonemische Analyse zeigte weiterhin, dass informative Elektroden für die Kodierung Cluster bildeten, die Phonemkategorien (wie Konsonanten vs. Vokale) entsprechen, was mit der bekannten funktionellen Organisation des auditorischen Kortex übereinstimmt.

Warum es wichtig ist

Diese Forschung legt nahe, dass Deep-Learning-Modelle wie Whisper als nützlicher Rahmen dienen können, um zu verstehen, wie das Gehirn Sprache in Echtzeit repräsentiert. Die hierarchische Übereinstimmung impliziert, dass sowohl KI als auch menschliche Gehirne Sprache in Stufen verarbeiten, von einfachen akustischen Merkmalen bis zu komplexen linguistischen Abstraktionen. Für jeden, der neugierig auf seine eigene Kognition ist, bestärkt dies, dass Sprachwahrnehmung ein dynamischer, mehrschichtiger Prozess ist – kein einzelner Schnappschuss.

Was Sie tun können

Um die Sprachverarbeitung Ihres Gehirns zu unterstützen, versuchen Sie aktives Zuhören: Konzentrieren Sie sich in einer lauten Umgebung auf einen Sprecher, paraphrasieren Sie, was er gesagt hat, und achten Sie auf die unterschiedlichen Laute (Phoneme) der Wörter. Regelmäßiges Üben kann die hierarchische Analyse Ihres auditorischen Kortex schärfen.

Quelle: arXiv q-bio.NC

Neugierig auf Ihr eigenes Gehirn? Machen Sie unseren kostenlosen adaptiven IQ-Test oder probieren Sie 306 Gehirntrainings-Levels.

Neugierig auf Ihren eigenen IQ?

Machen Sie unseren kostenlosen, wissenschaftlich konzipierten adaptiven Test über 7 kognitive Bereiche. Keine Anmeldung erforderlich.

Kostenlosen Test starten

Wie die mittleren Schichten von Whisper AI mit der menschlichen Gehirnaktivität beim Sprechen übereinstimmen

Die Forschung

Warum es wichtig ist

Was Sie tun können

Neugierig auf Ihren eigenen IQ?

Ähnliche Beiträge

Neuromorphe Schaltkreise verbessern KI-Lernen aus wenigen Beispielen – auf dem Niveau des menschlichen Gehirns

Alzheimer und Parkinson teilen eine Gehirnsignatur, wie MRT-Studie zeigt

KI entschlüsselt Schmerz aus EEG und kartiert Delta-Wellen für objektive Erfassung

Kortex lernt allgemeine Struktur, Subkortex übernimmt Belohnungen bei begrenztem Gedächtnis