Главная · Блог · Исследования

Мультимодальные модели не всегда думают как люди, показало новое исследование

Мультимодальные модели не всегда думают как люди, показало новое исследование

Большие языковые модели (LLM) — мощный инструмент для понимания того, как люди обрабатывают язык, но добавление визуально-языкового обучения не всегда делает их текстовые представления более похожими на человеческие. В новом исследовании, опубликованном на arXiv, исследователи Jinzhou Wu, Zhengwu Ma, Jixing Li, Baoping Tang и Zitong Lu сравнили тщательно подобранные пары LLM и визуально-языковых моделей (VLM), чтобы выяснить, улучшает ли мультимодальное предобучение согласование с активностью мозга и движениями глаз человека при естественном чтении.

Суть исследования

Команда использовала набор данных фМРТ-ответов всей коры и синхронизированных саккад айтрекинга от людей, читающих естественные предложения. Они сравнили пары LLM и VLM, идентичные за исключением истории мультимодального обучения, контролируя онлайн визуальный ввод или межмодальное слияние. Результаты показали, что VLM не имеют глобального, единообразного преимущества перед LLM в согласовании с нейронными и поведенческими реакциями человека. Вместо этого, внутренние языковые представления в LLM были ключевым фактором для моделирования обработки текста человеком. Однако для предложений с более сильным визуально-семантическим содержанием VLM показали избирательные улучшения, с согласующимися данными как от фМРТ, так и от айтрекинга.

Почему это важно

Для тех, кто интересуется собственным познанием, это исследование предполагает, что хотя добавление визуальной информации иногда может помочь ИИ имитировать человеческое чтение, основа понимания языка остается в самом языке. Это подчеркивает важность изучения того, как различные виды обучения — только по словам или по словам и изображениям — формируют наши ментальные представления. На практике это означает, что если вы хотите улучшить понимание прочитанного, сосредоточение на языковых навыках (например, словарном запасе и грамматике) может быть более эффективным, чем попытки все визуализировать.

Что можно сделать

Чтобы отточить обработку языка, попробуйте занятия, бросающие вызов вашим вербальным навыкам — например, чтение сложных текстов, изучение новых слов или разгадывание кроссвордов. Эти упражнения укрепляют языковые сети в вашем мозге, подобно тому, как LLM получают пользу от большего количества языкового обучения. А если вы склонны мыслить визуально, учтите, что у вас может быть преимущество при обработке описательного, богатого изображениями контента.

Источник: arXiv q-bio.NC

Интересуетесь собственным мозгом? Пройдите наш бесплатный адаптивный IQ-тест или попробуйте 306 уровней тренировки мозга.

Интересно узнать свой IQ?

Пройдите наш бесплатный научно разработанный адаптивный тест по 7 когнитивным доменам. Без регистрации.

Пройти бесплатный тест