Accueil · Blog · Recherche

Supervision géométrique comportementale : aligner les modèles vidéo sur la perception sociale humaine

Supervision géométrique comportementale : aligner les modèles vidéo sur la perception sociale humaine

Une quantité modeste de données comportementales humaines—quelques dizaines de milliers de simples jugements de similarité—peut apprendre aux modèles d'IA vidéo à voir les interactions sociales comme le font les humains, dépassant même les modèles d'encodage de phrases qui s'appuient sur des légendes.

La recherche

Kathy Garcia et Leyla Isik de l'Université Johns Hopkins ont testé si des modèles fondamentaux vidéo comme V-JEPA2 pouvaient prédire comment les humains jugent la similarité entre des clips vidéo sociaux. Elles ont constaté que tous les modèles de vision étaient moins performants que MPNet, un modèle simple d'encodage de phrases basé sur des légendes vidéo. Pour combler cet écart, elles ont introduit la supervision géométrique comportementale (BGS), qui ajuste les modèles en utilisant un objectif hybride qui aligne la géométrie des paires d'encodages avec les jugements humains de similarité.

Elles ont collecté 49 484 jugements « odd-one-out » à partir de 250 clips vidéo sociaux naturalistes. En utilisant une adaptation de faible rang sur quatre architectures de base (V-JEPA 2/2.1, TimeSformer, VideoMAE et CLIP), le meilleur modèle ajusté—V-JEPA 2.1—a presque triplé ses performances par rapport à la référence pré-entraînée, approchant le plafond de bruit et dépassant la référence MPNet. De manière cruciale, les modèles ajustés ont également capturé une variance unique non présente dans les encodages linguistiques basés sur des légendes et ont développé des attributs socio-affectifs interprétables (valence, arousal, dominance) sans entraînement explicite. Ils ont même été transférés en zero-shot à des interactions sociales abstraites dans un ensemble de données distinct et ont déplacé leur attention vers des régions socialement informatives comme les visages et les corps en interaction. Un contrôle apparié de distillation linguistique a confirmé que ces gains provenaient du signal comportemental, et non du transfert de légendes.

Pourquoi c'est important

Notre cerveau excelle à lire les signaux sociaux dans des scènes dynamiques—une compétence notoirement difficile à reproduire en IA. Cette recherche montre qu'une petite quantité de données comportementales humaines peut orienter les modèles vidéo vers une perception sociale plus humaine. Pour les sciences cognitives, cela suggère que la compréhension sociale pourrait être apprise à partir de la structure de similarité relationnelle plutôt que de nécessiter des étiquettes explicites. Pour la sécurité de l'IA et l'interaction homme-machine, cela offre une voie pour rendre les modèles vidéo plus attentifs au contexte social, ce qui pourrait améliorer tout, des technologies d'assistance à la modération de contenu.

Ce que vous pouvez faire

Vous pouvez entraîner votre propre perception sociale en pratiquant l'identification des émotions et des intentions dans des clips vidéo. Essayez de regarder de courtes scènes sans le son et de décrire les dynamiques sociales. S'engager avec un contenu social diversifié peut affiner votre capacité à lire les signaux subtils—une compétence qui soutient l'empathie et la communication.

Source : arXiv q-bio.NC

Curieux de connaître votre propre cerveau ? Passez notre test de QI adaptatif gratuit ou essayez 306 niveaux d'entraînement cérébral.

Curieux de connaître votre QI ?

Passez notre test adaptatif gratuit, scientifiquement conçu, sur 7 domaines cognitifs. Sans inscription.

Passer le test gratuit