Головна · Блог · Дослідження

Чи думають візуально-мовні моделі більш по-людськи? Нове дослідження каже, що не завжди

Чи думають візуально-мовні моделі більш по-людськи? Нове дослідження каже, що не завжди

Великі мовні моделі (LLM) є потужними інструментами для розуміння того, як люди обробляють мову, але додавання візуально-мовного навчання не завжди робить їхні текстові представлення більш людиноподібними. У новому дослідженні, опублікованому на arXiv, дослідники Jinzhou Wu, Zhengwu Ma, Jixing Li, Baoping Tang та Zitong Lu порівняли ретельно підібрані LLM та візуально-мовні моделі (VLM), щоб з'ясувати, чи покращує мультимодальне попереднє навчання узгодженість з активністю мозку людини та рухами очей під час природного читання.

Дослідження

Команда використала набір даних фМРТ-відповідей усієї кори та синхронізованих саккад айтрекінгу від людей, які читали природні речення. Вони порівняли пари LLM та VLM, які були ідентичними, за винятком історії мультимодального навчання, контролюючи онлайн-візуальний вхід або крос-модальне злиття. Результати показали, що VLM не мають глобальної, універсальної переваги над LLM у узгодженні з нейронними та поведінковими реакціями людини. Натомість внутрішньомовні представлення в LLM були ключовим фактором для моделювання обробки тексту людиною. Однак, коли речення мали сильніший візуальний семантичний зміст, VLM показали вибіркові покращення, з підтверджуючими доказами як з фМРТ, так і з айтрекінгу.

Чому це важливо

Для тих, хто цікавиться власним пізнанням, це дослідження показує, що хоча додавання візуальної інформації іноді може допомогти моделям ШІ імітувати людське читання, основа розуміння мови залишається в самій мові. Воно підкреслює важливість вивчення того, як різні види навчання — лише зі слів або зі слів і зображень — формують наші ментальні уявлення. На практиці це означає, що якщо ви хочете покращити своє розуміння прочитаного, зосередження на мовних навичках (як словниковий запас і граматика) може бути ефективнішим, ніж спроба все візуалізувати.

Що ви можете зробити

Щоб відточити обробку мови, спробуйте заняття, які кидають виклик вашим вербальним навичкам — наприклад, читання складних текстів, вивчення нових слів або розгадування кросвордів. Ці вправи зміцнюють мовні мережі у вашому мозку, подібно до того, як LLM отримують користь від більшої мовної підготовки. І якщо ви схильні мислити візуально, зауважте, що ви можете мати перевагу при обробці описового, насиченого зображеннями контенту.

Джерело: arXiv q-bio.NC

Цікавитесь власним мозком? Пройдіть наш безкоштовний адаптивний IQ-тест або спробуйте 306 рівнів тренування мозку.

Цікавитесь власним IQ?

Пройдіть наш безкоштовний науково розроблений адаптивний тест за 7 когнітивними доменами. Без реєстрації.

Пройти безкоштовний тест