Accueil · Blog · Recherche

Les modèles vision-langage pensent-ils plus comme les humains ? Pas toujours, selon une nouvelle étude

Les modèles vision-langage pensent-ils plus comme les humains ? Pas toujours, selon une nouvelle étude

Les grands modèles de langage (LLM) sont des outils puissants pour comprendre comment les humains traitent le langage, mais l'ajout d'un entraînement vision-langage ne rend pas toujours leurs représentations textuelles plus humaines. Dans une nouvelle étude publiée sur arXiv, les chercheurs Jinzhou Wu, Zhengwu Ma, Jixing Li, Baoping Tang et Zitong Lu ont comparé des LLM et des modèles vision-langage (VLM) étroitement appariés pour voir si le pré-entraînement multimodal améliore l'alignement avec l'activité cérébrale humaine et les mouvements oculaires lors de la lecture naturelle.

La recherche

L'équipe a utilisé un ensemble de données de réponses IRMf sur l'ensemble du cortex et de saccades oculaires synchronisées provenant d'humains lisant des phrases naturelles. Ils ont comparé des paires LLM et VLM identiques à l'exception de l'historique d'entraînement multimodal, en contrôlant l'entrée visuelle en ligne ou la fusion cross-modale. Les résultats montrent que les VLM n'ont pas un avantage global et uniforme sur les LLM en termes d'alignement avec les réponses neuronales et comportementales humaines. Au lieu de cela, les représentations internes du langage dans les LLM étaient le facteur clé pour modéliser le traitement humain du texte. Cependant, lorsque les phrases avaient un contenu sémantique visuel plus fort, les VLM montraient des améliorations sélectives, avec des preuves convergentes provenant à la fois de l'IRMf et de l'oculométrie.

Pourquoi c'est important

Pour toute personne curieuse de sa propre cognition, cette étude suggère que, bien que l'ajout d'informations visuelles puisse parfois aider les modèles d'IA à imiter la lecture humaine, le cœur de la compréhension du langage reste ancré dans le langage lui-même. Cela souligne l'importance d'étudier comment différents types d'apprentissage — à partir des mots seuls ou des mots et des images — façonnent nos représentations mentales. Concrètement, cela signifie que si vous voulez améliorer votre compréhension en lecture, se concentrer sur les compétences linguistiques (comme le vocabulaire et la grammaire) pourrait être plus efficace que d'essayer de tout visualiser.

Ce que vous pouvez faire

Pour aiguiser votre traitement du langage, essayez des activités qui défient vos compétences verbales — comme lire des textes complexes, apprendre de nouveaux mots ou faire des mots croisés. Ces exercices renforcent les réseaux linguistiques de votre cerveau, un peu comme les LLM bénéficient d'un entraînement linguistique supplémentaire. Et si vous avez tendance à penser visuellement, notez que vous pourriez avoir un avantage lors du traitement de contenu descriptif et riche en images.

Source : arXiv q-bio.NC

Curieux de connaître votre propre cerveau ? Faites notre test de QI adaptatif gratuit ou essayez 306 niveaux d'entraînement cérébral.

Curieux de connaître votre QI ?

Passez notre test adaptatif gratuit, scientifiquement conçu, sur 7 domaines cognitifs. Sans inscription.

Passer le test gratuit