Neue Forschung von MIT, New York University und Stanford zeigt, dass bestimmte Bilder von Natur aus die Art und Weise angleichen, wie KI-Modelle aus Vision und Sprache die Welt „sehen“ – und diese Angleichung könnte widerspiegeln, wie unser eigenes Gehirn Sinne kombiniert.
Die Forschung
Unter der Leitung von Eghbal A. Hosseini, Brian Cheung, Evelina Fedorenko und Alex H. Williams verwendete das Team den Generalized Procrustes Algorithmus, um zu messen, wie stark verschiedene Bildmodelle bei einzelnen Bildern übereinstimmen. Sie testeten Modelle, die auf unterschiedlichen Aufgaben trainiert wurden (z.B. DINOv2, das ohne Labels lernt, gegenüber überwachten Modellen) und verglichen deren interne Darstellungen von Hunderten natürlicher Bilder. Für jedes Bild berechneten sie die intra-modale Dispersion – wie stark die Bildmodelle uneins waren. Dann maßen sie die kreuzmodale Konvergenz: die Übereinstimmung zwischen diesen Bildmodellen und Sprachmodellen (wie CLIP).
Das wichtigste Ergebnis: Bilder mit niedriger intra-modaler Dispersion (weniger Interpretationsmöglichkeiten) erzielten eine bis zu doppelt so hohe kreuzmodule Übereinstimmung. Zum Beispiel zeigte die Paarung von DINOv2 mit Sprachmodellen eine Verdopplung bei „einfachen“ Bildern. Dieser Effekt hielt bei mehreren Modellpaarungen und Auswahlkriterien an.
Warum es wichtig ist
Ihr Gehirn verschmilzt ständig, was Sie sehen, mit dem, was Sie hören oder lesen. Diese Studie legt nahe, dass neuronale Netze – und wahrscheinlich auch menschliche Gehirne – am stärksten bei Reizen konvergieren, die eine eindeutige Interpretation haben. Alltägliche Beispiele sind ein Foto einer Katze (eindeutig) im Vergleich zu einem abstrakten Gemälde (viele Interpretationen). Dies zu verstehen, könnte helfen, Gehirntrainingsübungen zu entwickeln, die die kreuzmodule Integration schärfen.
Was Sie tun können
- Üben Sie, einfache, klare Bilder in Worten zu beschreiben, um die Verbindungen zwischen Sehen und Sprache zu stärken.
- Probieren Sie Rätsel aus, die ein Bild mit einem gesprochenen oder geschriebenen Hinweis paaren – wie Bild-Wort-Zuordnungsspiele.
- Suchen Sie beim Lernen eines neuen Konzepts nach klaren, prototypischen Beispielen anstatt nach mehrdeutigen.
Quelle: arXiv q-bio.NC
Neugierig auf Ihr eigenes Gehirn? Machen Sie unseren kostenlosen adaptiven IQ-Test oder probieren Sie 306 Gehirntrainings-Level.