Início · Blog · Pesquisa

Supervisão Geométrica Comportamental Alinha Modelos de Vídeo com a Percepção Social Humana

Supervisão Geométrica Comportamental Alinha Modelos de Vídeo com a Percepção Social Humana

Uma quantidade modesta de dados comportamentais humanos — apenas dezenas de milhares de julgamentos simples de similaridade — pode ensinar modelos de IA de vídeo a ver interações sociais da mesma forma que as pessoas, superando até mesmo modelos de incorporação de frases que dependem de legendas.

A Pesquisa

Kathy Garcia e Leyla Isik, da Universidade Johns Hopkins, testaram se modelos de vídeo fundamentais, como o V-JEPA2, conseguiam prever como os humanos julgam a similaridade entre clipes de vídeo sociais. Eles descobriram que todos os modelos de visão tiveram desempenho inferior ao MPNet, um modelo simples de incorporação de frases baseado em legendas de vídeo. Para preencher essa lacuna, eles introduziram a supervisão geométrica comportamental (BGS), que ajusta os modelos usando um objetivo híbrido que alinha a geometria de incorporação aos pares com os julgamentos humanos de similaridade.

Eles coletaram 49.484 julgamentos de odd-one-out de 250 clipes de vídeo social naturalista. Usando adaptação de baixa classificação em quatro arquiteturas (V-JEPA 2/2.1, TimeSformer, VideoMAE e CLIP), o melhor modelo ajustado — V-JEPA 2.1 — quase triplicou seu desempenho em comparação com a linha de base pré-treinada, aproximando-se do teto de ruído e superando a linha de base do MPNet. Criticamente, os modelos ajustados também capturaram variância única não encontrada em incorporações de linguagem baseadas em legendas e desenvolveram atributos sócio-afetivos interpretáveis (valência, excitação, dominância) sem treinamento explícito. Eles ainda transferiram zero-shot para interações sociais abstratas em um conjunto de dados separado e deslocaram a atenção para regiões socialmente informativas, como rostos e corpos em interação. Um controle de destilação de linguagem combinado confirmou que esses ganhos vieram do sinal comportamental, não da transferência de legendas.

Por Que Isso Importa

Nossos cérebros são excelentes em ler sinais sociais de cenas dinâmicas — uma habilidade que tem sido notoriamente difícil de replicar em IA. Esta pesquisa mostra que uma pequena quantidade de dados comportamentais humanos pode direcionar modelos de vídeo para uma percepção social mais humana. Para a ciência cognitiva, sugere que a compreensão social pode ser aprendida a partir da estrutura de similaridade relacional, em vez de exigir rótulos explícitos. Para a segurança da IA e a interação humano-computador, oferece um caminho para tornar os modelos de vídeo mais sintonizados com o contexto social, o que pode melhorar desde tecnologias assistivas até moderação de conteúdo.

O Que Você Pode Fazer

Você pode treinar sua própria percepção social praticando a identificação de emoções e intenções em clipes de vídeo. Tente assistir a cenas curtas sem som e descrever as dinâmicas sociais. Engajar-se com conteúdo social diverso pode apurar sua capacidade de ler sinais sutis — uma habilidade que apoia a empatia e a comunicação.

Fonte: arXiv q-bio.NC

Curioso sobre seu próprio cérebro? Faça nosso teste de QI adaptativo gratuito ou experimente 306 níveis de treinamento cerebral.

Curioso sobre o seu próprio QI?

Faça nosso teste adaptativo gratuito, cientificamente projetado, em 7 domínios cognitivos. Sem cadastro.

Fazer teste gratuito