Головна · Блог · Дослідження

Поведінкове геометричне супервізування узгоджує відеомоделі з людським соціальним сприйняттям

Поведінкове геометричне супервізування узгоджує відеомоделі з людським соціальним сприйняттям

Скромна кількість поведінкових даних людини — всього десятки тисяч простих суджень про схожість — може навчити відео-моделі ШІ бачити соціальні взаємодії так, як це роблять люди, навіть перевершуючи моделі вбудовування речень, що покладаються на підписи.

Дослідження

Кеті Гарсія та Лейла Ісік з Університету Джонса Гопкінса перевірили, чи можуть відео-фундаментальні моделі, такі як V-JEPA2, передбачити, як люди оцінюють схожість між соціальними відеокліпами. Вони виявили, що всі моделі зору працювали гірше, ніж MPNet, проста модель вбудовування речень на основі відеопідписів. Щоб подолати цю прогалину, вони представили поведінкове геометричне супервізування (BGS), яке доналаштовує моделі за допомогою гібридної цільової функції, що узгоджує геометрію попарних вбудовувань із судженнями людей про схожість.

Вони зібрали 49 484 суджень «знайди зайве» з 250 натуралістичних соціальних відеокліпів. Використовуючи низькорангову адаптацію на чотирьох базових моделях (V-JEPA 2/2.1, TimeSformer, VideoMAE та CLIP), найкраща доналаштована модель — V-JEPA 2.1 — майже потроїла свою продуктивність порівняно з попередньо навченим базовим рівнем, наблизившись до стелі шуму та перевершивши базовий рівень MPNet. Важливо, що доналаштовані моделі також захопили унікальну дисперсію, відсутню в мовних вбудовуваннях на основі підписів, і розробили інтерпретовані соціально-афективні атрибути (валентність, збудження, домінування) без явного навчання. Вони навіть перенеслися zero-shot на абстрактні соціальні взаємодії в окремому наборі даних і перемістили увагу на соціально інформативні області, такі як обличчя та взаємодіючі тіла. Контрольна група з узгодженою дистиляцією мови підтвердила, що ці покращення походять від поведінкового сигналу, а не від перенесення підписів.

Чому це важливо

Наш мозок відмінно зчитує соціальні сигнали з динамічних сцен — навичка, яку, як відомо, важко відтворити в ШІ. Це дослідження показує, що невелика кількість поведінкових даних людини може спрямувати відеомоделі до більш людського соціального сприйняття. Для когнітивної науки це свідчить про те, що соціальне розуміння можна вивчити з реляційної структури подібності, а не вимагати чітких позначок. Для безпеки ШІ та взаємодії людини з комп’ютером це пропонує шлях зробити відеомоделі більш чутливими до соціального контексту, що може покращити все: від допоміжних технологій до модерації контенту.

Що ви можете зробити

Ви можете тренувати власне соціальне сприйняття, практикуючи розпізнавання емоцій та намірів у відеокліпах. Спробуйте дивитися короткі сцени без звуку та описувати соціальну динаміку. Взаємодія з різноманітним соціальним контентом може загострити вашу здатність читати тонкі сигнали — навичка, яка підтримує емпатію та спілкування.

Джерело: arXiv q-bio.NC

Цікавитесь власним мозком? Пройдіть наш безкоштовний адаптивний IQ-тест або спробуйте 306 рівнів тренування мозку.

Цікавитесь власним IQ?

Пройдіть наш безкоштовний науково розроблений адаптивний тест за 7 когнітивними доменами. Без реєстрації.

Пройти безкоштовний тест