Великі мовні моделі (LLM) є потужними інструментами для розуміння того, як люди обробляють мову, але додавання візуально-мовного навчання не завжди робить їхні текстові представлення більш людиноподібними. У новому дослідженні, опублікованому на arXiv, дослідники Jinzhou Wu, Zhengwu Ma, Jixing Li, Baoping Tang та Zitong Lu порівняли ретельно підібрані LLM та візуально-мовні моделі (VLM), щоб з'ясувати, чи покращує мультимодальне попереднє навчання узгодженість з активністю мозку людини та рухами очей під час природного читання.
Дослідження
Команда використала набір даних фМРТ-відповідей усієї кори та синхронізованих саккад айтрекінгу від людей, які читали природні речення. Вони порівняли пари LLM та VLM, які були ідентичними, за винятком історії мультимодального навчання, контролюючи онлайн-візуальний вхід або крос-модальне злиття. Результати показали, що VLM не мають глобальної, універсальної переваги над LLM у узгодженні з нейронними та поведінковими реакціями людини. Натомість внутрішньомовні представлення в LLM були ключовим фактором для моделювання обробки тексту людиною. Однак, коли речення мали сильніший візуальний семантичний зміст, VLM показали вибіркові покращення, з підтверджуючими доказами як з фМРТ, так і з айтрекінгу.
Чому це важливо
Для тих, хто цікавиться власним пізнанням, це дослідження показує, що хоча додавання візуальної інформації іноді може допомогти моделям ШІ імітувати людське читання, основа розуміння мови залишається в самій мові. Воно підкреслює важливість вивчення того, як різні види навчання — лише зі слів або зі слів і зображень — формують наші ментальні уявлення. На практиці це означає, що якщо ви хочете покращити своє розуміння прочитаного, зосередження на мовних навичках (як словниковий запас і граматика) може бути ефективнішим, ніж спроба все візуалізувати.
Що ви можете зробити
Щоб відточити обробку мови, спробуйте заняття, які кидають виклик вашим вербальним навичкам — наприклад, читання складних текстів, вивчення нових слів або розгадування кросвордів. Ці вправи зміцнюють мовні мережі у вашому мозку, подібно до того, як LLM отримують користь від більшої мовної підготовки. І якщо ви схильні мислити візуально, зауважте, що ви можете мати перевагу при обробці описового, насиченого зображеннями контенту.
Джерело: arXiv q-bio.NC
Цікавитесь власним мозком? Пройдіть наш безкоштовний адаптивний IQ-тест або спробуйте 306 рівнів тренування мозку.