Una cantidad modesta de datos de comportamiento humano—apenas decenas de miles de juicios simples de similitud—puede enseñar a los modelos de IA de video a ver las interacciones sociales como lo hacen las personas, incluso superando a los modelos de incrustación de oraciones que se basan en subtítulos.
La Investigación
Kathy Garcia y Leyla Isik de la Universidad Johns Hopkins probaron si los modelos fundamentales de video como V-JEPA2 podían predecir cómo los humanos juzgan la similitud entre clips de video sociales. Encontraron que todos los modelos de visión funcionaban peor que MPNet, un modelo simple de incrustación de oraciones basado en subtítulos de video. Para cerrar esta brecha, introdujeron supervisión geométrica del comportamiento (BGS), que ajusta los modelos utilizando un objetivo híbrido que alinea la geometría de incrustación por pares con los juicios humanos de similitud.
Recopilaron 49,484 juicios de "el diferente" de 250 clips de video sociales naturalistas. Usando adaptación de bajo rango en cuatro arquitecturas base (V-JEPA 2/2.1, TimeSformer, VideoMAE y CLIP), el mejor modelo ajustado—V-JEPA 2.1—casi triplicó su rendimiento en comparación con la línea base preentrenada, acercándose al techo de ruido y superando la línea base de MPNet. Críticamente, los modelos ajustados también capturaron varianza única no encontrada en incrustaciones de lenguaje basadas en subtítulos y desarrollaron atributos socioafectivos interpretables (valencia, activación, dominancia) sin entrenamiento explícito. Incluso se transfirieron de forma cero a interacciones sociales abstractas en un conjunto de datos separado y desplazaron la atención a regiones socialmente informativas como rostros y cuerpos en interacción. Un control de destilación de lenguaje emparejado confirmó que estas ganancias provenían de la señal conductual, no de la transferencia de subtítulos.
Por Qué Importa
Nuestros cerebros sobresalen en la lectura de señales sociales de escenas dinámicas—una habilidad que ha sido notoriamente difícil de replicar en IA. Esta investigación muestra que una pequeña cantidad de datos de comportamiento humano puede guiar a los modelos de video hacia una percepción social más humana. Para la ciencia cognitiva, sugiere que la comprensión social puede ser aprendible a partir de la estructura de similitud relacional, en lugar de requerir etiquetas explícitas. Para la seguridad de la IA y la interacción humano-computadora, ofrece un camino para hacer que los modelos de video estén más en sintonía con el contexto social, lo que podría mejorar desde tecnologías de asistencia hasta la moderación de contenido.
Qué Puedes Hacer
Puedes entrenar tu propia percepción social practicando la identificación de emociones e intenciones en clips de video. Intenta ver escenas cortas sin sonido y describir las dinámicas sociales. Interactuar con contenido social diverso puede agudizar tu capacidad para leer señales sutiles—una habilidad que apoya la empatía y la comunicación.
Fuente: arXiv q-bio.NC
¿Tienes curiosidad por tu propio cerebro? Realiza nuestro test de CI adaptativo gratuito o prueba 306 niveles de entrenamiento cerebral.