Forscher haben ein Deep-Learning-Modell entwickelt, das fMRI-Gehirnscans in geschriebene Beschreibungen dessen entschlüsseln kann, was eine Person sieht, und dabei die Gehirnregionen identifiziert, die für das Verständnis visueller Bedeutung verantwortlich sind. Das Modell namens Brain2Text wurde ohne visuelle Informationen trainiert und erzielt eine hochmoderne Leistung bei der Erstellung präziser Bildunterschriften für komplexe natürliche Bilder.
Was die Studie ergab
Unter der Leitung von Feihan Feng und Jingxin Nie verwendete das Team fMRI-Daten von Teilnehmern, die natürliche Bilder betrachteten, und trainierte ein neuronales Netzwerk, um Textbeschreibungen auszugeben. Das Modell erstellte Bildunterschriften, die den wesentlichen semantischen Inhalt erfassten, wie „ein Hund rennt auf Gras“ oder „eine Gruppe Menschen an einem Strand“. Wichtig ist, dass das Modell nur auf fMRI-Text-Paaren trainiert wurde, nicht auf tatsächlichen Bildern, was es zwang, die Beziehung zwischen neuronaler Aktivität und Bedeutung zu lernen.
Die neuroanatomische Analyse ergab, dass höhere visuelle Areale – darunter der MT+-Komplex (Bewegungsverarbeitung), der ventrale visuelle Kortex (Objekterkennung) und der inferiore Parietalkortex (räumliche Aufmerksamkeit) – eine entscheidende Rolle bei der visuellen semantischen Verarbeitung spielen. Eine kategoriespezifische Analyse zeigte nuancierte neuronale Repräsentationen für semantische Dimensionen wie Belebtheit (lebend vs. nicht-lebend) und Bewegung (statisch vs. bewegend), was darauf hindeutet, dass das Gehirn diese Merkmale über ein Netzwerk von Regionen verteilt.
Warum es wichtig ist
Diese Forschung verbindet KI und Neurowissenschaften, indem sie einen interpretierbaren Rahmen bietet, um zu untersuchen, wie das Gehirn Bedeutung aus visuellen Eingaben konstruiert. Für den Durchschnittsbürger kann das Verständnis, dass verschiedene Gehirnregionen auf unterschiedliche semantische Aspekte spezialisiert sind, kognitive Trainingsstrategien informieren. Zum Beispiel können Aufgaben, die die Bewegungsverarbeitung (wie Sport schauen) oder die Objekterkennung (wie Kunstbetrachtung) einbeziehen, die entsprechenden neuronalen Netzwerke stärken. Die Erkenntnisse versprechen auch die Entwicklung von Gehirn-Computer-Schnittstellen, die die Kommunikation für Menschen mit Lähmungen oder Locked-in-Syndrom wiederherstellen können.
Was Sie tun können
Um Ihre visuelle semantische Verarbeitung zu verbessern, beteiligen Sie sich an Aktivitäten, die Ihr Gehirn herausfordern, Szenen zu interpretieren: Beschreiben Sie Gemälde im Detail, spielen Sie „Ich sehe was, was du nicht siehst“ mit komplexen Bildern, oder üben Sie, das Gesehene auf einem Foto in einem Satz zusammenzufassen. Regelmäßige mentale Visualisierungsübungen können ebenfalls die beteiligten neuronalen Bahnen stärken.
Quelle: arXiv q-bio.NC
Neugierig auf Ihr eigenes Gehirn? Machen Sie unseren kostenlosen adaptiven IQ-Test oder probieren Sie 306 Gehirntrainings-Stufen.