Eine bescheidene Menge menschlicher Verhaltensdaten – nur Zehntausende einfacher Ähnlichkeitsurteile – kann KI-Videomodelle lehren, soziale Interaktionen so zu sehen, wie Menschen es tun, und dabei sogar Satz-Einbettungsmodelle zu übertreffen, die auf Bildunterschriften angewiesen sind.
Die Forschung
Kathy Garcia und Leyla Isik von der Johns Hopkins University testeten, ob Videogrundmodelle wie V-JEPA2 vorhersagen können, wie Menschen die Ähnlichkeit zwischen sozialen Videoclips beurteilen. Sie fanden heraus, dass alle Bildmodelle schlechter abschnitten als MPNet, ein einfaches Satz-Einbettungsmodell basierend auf Videobeschreibungen. Um diese Lücke zu schließen, führten sie Behavioral Geometric Supervision (BGS) ein, eine Methode, die Modelle mit einem hybriden Ziel feinabstimmt, das die paarweise Geometrie der Einbettungen mit menschlichen Ähnlichkeitsurteilen ausrichtet.
Sie sammelten 49.484 Odd-One-Out-Urteile aus 250 naturalistischen sozialen Videoclips. Mittels Low-Rank-Adaptation über vier Backbones (V-JEPA 2/2.1, TimeSformer, VideoMAE und CLIP) konnte das beste feinabgestimmte Modell – V-JEPA 2.1 – seine Leistung fast verdreifachen im Vergleich zur vortrainierten Basisversion, näherte sich dem Rauschgrenzwert und übertraf die MPNet-Baseline. Entscheidend ist, dass die feinabgestimmten Modelle auch eindeutige Varianz erfassten, die in sprachbasierten Einbettungen aus Bildunterschriften nicht vorhanden ist, und ohne explizites Training interpretierbare sozial-affektive Attribute (Valenz, Erregung, Dominanz) entwickelten. Sie transferierten sogar Zero-Shot auf abstrakte soziale Interaktionen in einem separaten Datensatz und verlagerten die Aufmerksamkeit auf sozial informative Bereiche wie Gesichter und interagierende Körper. Eine vergleichbare Sprachdestillationskontrolle bestätigte, dass diese Verbesserungen auf das Verhaltenssignal zurückzuführen sind, nicht auf die Übertragung von Bildunterschriften.
Warum es wichtig ist
Unser Gehirn ist hervorragend darin, soziale Signale aus dynamischen Szenen zu lesen – eine Fähigkeit, die in der KI nur sehr schwer zu replizieren war. Diese Forschung zeigt, dass eine kleine Menge menschlicher Verhaltensdaten Videomodelle in Richtung einer menschenähnlicheren sozialen Wahrnehmung lenken kann. Für die Kognitionswissenschaft deutet dies darauf hin, dass soziales Verständnis aus relationalen Ähnlichkeitsstrukturen erlernbar sein könnte, ohne dass explizite Labels erforderlich sind. Für KI-Sicherheit und Mensch-Computer-Interaktion bietet dies einen Weg, Videomodelle stärker auf den sozialen Kontext abzustimmen, was alles von assistiven Technologien bis zur Inhaltsmoderation verbessern könnte.
Was Sie tun können
Sie können Ihre eigene soziale Wahrnehmung trainieren, indem Sie üben, Emotionen und Absichten in Videoclips zu identifizieren. Versuchen Sie, kurze Szenen ohne Ton anzusehen und die sozialen Dynamiken zu beschreiben. Die Auseinandersetzung mit verschiedenen sozialen Inhalten könnte Ihre Fähigkeit schärfen, subtile Hinweise zu lesen – eine Fähigkeit, die Empathie und Kommunikation unterstützt.
Quelle: arXiv q-bio.NC
Neugierig auf Ihr eigenes Gehirn? Machen Sie unseren kostenlosen adaptiven IQ-Test oder versuchen Sie 306 Gehirntrainingsstufen.