Denken visuell-sprachliche Modelle menschenähnlicher? Nicht immer, zeigt neue Studie

3 Juni 2026 · 2 Min. Lesezeit · Forschung

Große Sprachmodelle (LLMs) sind leistungsstarke Werkzeuge, um zu verstehen, wie Menschen Sprache verarbeiten, aber die Hinzunahme von visuell-sprachlichem Training macht ihre Textrepräsentationen nicht immer menschenähnlicher. In einer neuen Studie, veröffentlicht auf arXiv, untersuchten die Forscher Jinzhou Wu, Zhengwu Ma, Jixing Li, Baoping Tang und Zitong Lu eng abgestimmte LLMs und visuell-sprachliche Modelle (VLMs), um zu sehen, ob multimodales Vortraining die Übereinstimmung mit menschlicher Gehirnaktivität und Augenbewegungen beim natürlichen Lesen verbessert.

Die Forschung

Das Team nutzte einen Datensatz von fMRI-Antworten des gesamten Kortex und synchronisierten Eye-Tracking-Sakkaden von Menschen, die natürliche Sätze lasen. Sie verglichen LLM- und VLM-Paare, die bis auf die multimodale Trainingshistorie identisch waren, und kontrollierten dabei für visuellen Online-Input oder crossmodale Fusion. Die Ergebnisse zeigten, dass VLMs keinen globalen, einheitlichen Vorteil gegenüber LLMs bei der Übereinstimmung mit menschlichen neuronalen und Verhaltensreaktionen haben. Stattdessen waren sprachinterne Repräsentationen in LLMs der Schlüsselfaktor für die Modellierung der menschlichen Textverarbeitung. Allerdings zeigten VLMs bei Sätzen mit stärkerem visuellem semantischem Gehalt selektive Verbesserungen, mit konvergierenden Belegen aus sowohl fMRI- als auch Eye-Tracking-Übereinstimmungen.

Warum es wichtig ist

Für alle, die neugierig auf ihre eigene Kognition sind, deutet diese Studie darauf hin, dass visuelle Informationen KI-Modellen zwar manchmal helfen können, menschliches Lesen nachzuahmen, der Kern des Sprachverständnisses jedoch in der Sprache selbst verwurzelt bleibt. Sie unterstreicht, wie wichtig es ist zu untersuchen, wie verschiedene Arten des Lernens – allein aus Wörtern versus aus Wörtern und Bildern – unsere mentalen Repräsentationen prägen. Praktisch bedeutet dies: Wenn Sie Ihr Leseverständnis verbessern möchten, könnte es effektiver sein, sich auf Sprachfähigkeiten (wie Wortschatz und Grammatik) zu konzentrieren, als alles visualisieren zu wollen.

Was Sie tun können

Um Ihre Sprachverarbeitung zu schärfen, versuchen Sie Aktivitäten, die Ihre verbalen Fähigkeiten fordern – wie das Lesen komplexer Texte, das Lernen neuer Wörter oder das Lösen von Kreuzworträtseln. Diese Übungen stärken die sprachlichen Netzwerke in Ihrem Gehirn, ähnlich wie LLMs von mehr Sprachtraining profitieren. Und wenn Sie dazu neigen, visuell zu denken, beachten Sie, dass Sie bei der Verarbeitung von beschreibenden, bildreichen Inhalten möglicherweise einen Vorteil haben.

Quelle: arXiv q-bio.NC

Neugierig auf Ihr eigenes Gehirn? Machen Sie unseren kostenlosen adaptiven IQ-Test oder probieren Sie 306 Gehirntrainings-Level.

Neugierig auf Ihren eigenen IQ?

Machen Sie unseren kostenlosen, wissenschaftlich konzipierten adaptiven Test über 7 kognitive Bereiche. Keine Anmeldung erforderlich.

Kostenlosen Test starten

Denken visuell-sprachliche Modelle menschenähnlicher? Nicht immer, zeigt neue Studie

Die Forschung

Warum es wichtig ist

Was Sie tun können

Neugierig auf Ihren eigenen IQ?

Ähnliche Beiträge

Tägliches Glas Fruchtsaft oder Smoothie senkt Depressionswerte, Studie zeigt

Gehirn vs. KI: Warum Lernmechanismen grundlegend verschieden sein könnten

Warum KI die Welt nicht so sieht wie wir: Das Bindungsproblem

Koffein raubt Ihrem Gehirn den Tiefschlaf – selbst wenn Sie acht Stunden schlafen