Главная · Блог · Исследования

Поведенческое геометрическое обучение выравнивает видео-модели с человеческим социальным восприятием

Поведенческое геометрическое обучение выравнивает видео-модели с человеческим социальным восприятием

Скромный объем поведенческих данных человека — всего десятки тысяч простых суждений о сходстве — может научить видео-модели ИИ видеть социальные взаимодействия так, как это делают люди, даже превосходя модели встраивания предложений, основанные на подписях.

Исследование

Кэти Гарсия и Лейла Исик из Университета Джонса Хопкинса проверили, могут ли видео-модели, такие как V-JEPA2, предсказывать, как люди оценивают сходство между социальными видео-клипами. Они обнаружили, что все визуальные модели работают хуже, чем MPNet — простая модель встраивания предложений, основанная на подписях к видео. Чтобы устранить этот разрыв, они представили поведенческое геометрическое обучение (BGS), которое донастраивает модели с помощью гибридной цели, выравнивающей геометрию попарных встраиваний с человеческими суждениями о сходстве.

Они собрали 49 484 суждения «найди лишнее» по 250 натуралистичным социальным видео-клипам. Используя низкоранговую адаптацию для четырех базовых моделей (V-JEPA 2/2.1, TimeSformer, VideoMAE и CLIP), лучшая донастроенная модель — V-JEPA 2.1 — почти утроила свою производительность по сравнению с предобученным базовым уровнем, приблизившись к потолку шума и превысив базовый уровень MPNet. Важно, что донастроенные модели также улавливали уникальную дисперсию, отсутствующую в языковых встраиваниях на основе подписей, и развили интерпретируемые социально-аффективные атрибуты (валентность, возбуждение, доминантность) без явного обучения. Они даже показали нулевую переносимость на абстрактные социальные взаимодействия в отдельном наборе данных и сместили внимание на социально информативные области, такие как лица и взаимодействующие тела. Контрольный эксперимент с согласованной дистилляцией языка подтвердил, что эти улучшения обусловлены поведенческим сигналом, а не переносом подписей.

Почему это важно

Наш мозг отлично считывает социальные сигналы из динамических сцен — навык, который оказался чрезвычайно сложным для воспроизведения в ИИ. Это исследование показывает, что небольшой объем поведенческих данных человека может направить видео-модели к более человеческому социальному восприятию. Для когнитивной науки это предполагает, что социальное понимание может быть изучено из реляционной структуры подобия, а не требовать явных меток. Для безопасности ИИ и взаимодействия человека с компьютером это открывает путь к созданию видео-моделей, более чувствительных к социальному контексту, что может улучшить все — от вспомогательных технологий до модерации контента.

Что вы можете сделать

Вы можете тренировать свое социальное восприятие, практикуясь в определении эмоций и намерений в видео-клипах. Попробуйте смотреть короткие сцены без звука и описывать социальную динамику. Вовлечение в разнообразный социальный контент может отточить вашу способность считывать тонкие сигналы — навык, который поддерживает эмпатию и общение.

Источник: arXiv q-bio.NC

Любопытны узнать свой мозг? Пройдите наш бесплатный адаптивный IQ-тест или попробуйте 306 уровней тренировки мозга.

Интересно узнать свой IQ?

Пройдите наш бесплатный научно разработанный адаптивный тест по 7 когнитивным доменам. Без регистрации.

Пройти бесплатный тест