Supervisión Geométrica del Comportamiento Alinea los Modelos de Video con la Percepción Social Humana

Por el Equipo Editorial IQgenio · Editorial standards

17 mayo 2026 · 2 min de lectura · Investigación

Supervisión Geométrica del Comportamiento Alinea los Modelos de Video con la Percepción Social Humana

Una cantidad modesta de datos de comportamiento humano—apenas decenas de miles de juicios simples de similitud—puede enseñar a los modelos de IA de video a ver las interacciones sociales como lo hacen las personas, incluso superando a los modelos de incrustación de oraciones que se basan en subtítulos.

La Investigación

Kathy Garcia y Leyla Isik de la Universidad Johns Hopkins probaron si los modelos fundamentales de video como V-JEPA2 podían predecir cómo los humanos juzgan la similitud entre clips de video sociales. Encontraron que todos los modelos de visión funcionaban peor que MPNet, un modelo simple de incrustación de oraciones basado en subtítulos de video. Para cerrar esta brecha, introdujeron supervisión geométrica del comportamiento (BGS), que ajusta los modelos utilizando un objetivo híbrido que alinea la geometría de incrustación por pares con los juicios humanos de similitud.

Recopilaron 49,484 juicios de "el diferente" de 250 clips de video sociales naturalistas. Usando adaptación de bajo rango en cuatro arquitecturas base (V-JEPA 2/2.1, TimeSformer, VideoMAE y CLIP), el mejor modelo ajustado—V-JEPA 2.1—casi triplicó su rendimiento en comparación con la línea base preentrenada, acercándose al techo de ruido y superando la línea base de MPNet. Críticamente, los modelos ajustados también capturaron varianza única no encontrada en incrustaciones de lenguaje basadas en subtítulos y desarrollaron atributos socioafectivos interpretables (valencia, activación, dominancia) sin entrenamiento explícito. Incluso se transfirieron de forma cero a interacciones sociales abstractas en un conjunto de datos separado y desplazaron la atención a regiones socialmente informativas como rostros y cuerpos en interacción. Un control de destilación de lenguaje emparejado confirmó que estas ganancias provenían de la señal conductual, no de la transferencia de subtítulos.

Por Qué Importa

Nuestros cerebros sobresalen en la lectura de señales sociales de escenas dinámicas—una habilidad que ha sido notoriamente difícil de replicar en IA. Esta investigación muestra que una pequeña cantidad de datos de comportamiento humano puede guiar a los modelos de video hacia una percepción social más humana. Para la ciencia cognitiva, sugiere que la comprensión social puede ser aprendible a partir de la estructura de similitud relacional, en lugar de requerir etiquetas explícitas. Para la seguridad de la IA y la interacción humano-computadora, ofrece un camino para hacer que los modelos de video estén más en sintonía con el contexto social, lo que podría mejorar desde tecnologías de asistencia hasta la moderación de contenido.

Qué Puedes Hacer

Puedes entrenar tu propia percepción social practicando la identificación de emociones e intenciones en clips de video. Intenta ver escenas cortas sin sonido y describir las dinámicas sociales. Interactuar con contenido social diverso puede agudizar tu capacidad para leer señales sutiles—una habilidad que apoya la empatía y la comunicación.

Fuente: arXiv q-bio.NC

¿Tienes curiosidad por tu propio cerebro? Realiza nuestro test de CI adaptativo gratuito o prueba 306 niveles de entrenamiento cerebral.

¿Curioso por conocer tu propio CI?

Realiza nuestro test adaptativo gratuito y científicamente diseñado a través de 7 dominios cognitivos. Sin registro.

Realizar test gratuito

Supervisión Geométrica del Comportamiento Alinea los Modelos de Video con la Percepción Social Humana

La Investigación

Por Qué Importa

Qué Puedes Hacer

¿Curioso por conocer tu propio CI?

Publicaciones relacionadas

Tus "Emm" y Pausas Podrían Revelar Riesgo Temprano de Demencia

El gen APOE2 protege las neuronas reparando el daño del ADN, según un nuevo estudio

El consumo moderado de café se vincula con un 35% menos de riesgo de demencia

Una sola sinapsis cerebral identificada como el punto de inicio del aprendizaje vocal