Мультимодальные модели не всегда думают как люди, показало новое исследование

3 июня 2026 · 2 мин чтения · Исследования

Большие языковые модели (LLM) — мощный инструмент для понимания того, как люди обрабатывают язык, но добавление визуально-языкового обучения не всегда делает их текстовые представления более похожими на человеческие. В новом исследовании, опубликованном на arXiv, исследователи Jinzhou Wu, Zhengwu Ma, Jixing Li, Baoping Tang и Zitong Lu сравнили тщательно подобранные пары LLM и визуально-языковых моделей (VLM), чтобы выяснить, улучшает ли мультимодальное предобучение согласование с активностью мозга и движениями глаз человека при естественном чтении.

Суть исследования

Команда использовала набор данных фМРТ-ответов всей коры и синхронизированных саккад айтрекинга от людей, читающих естественные предложения. Они сравнили пары LLM и VLM, идентичные за исключением истории мультимодального обучения, контролируя онлайн визуальный ввод или межмодальное слияние. Результаты показали, что VLM не имеют глобального, единообразного преимущества перед LLM в согласовании с нейронными и поведенческими реакциями человека. Вместо этого, внутренние языковые представления в LLM были ключевым фактором для моделирования обработки текста человеком. Однако для предложений с более сильным визуально-семантическим содержанием VLM показали избирательные улучшения, с согласующимися данными как от фМРТ, так и от айтрекинга.

Почему это важно

Для тех, кто интересуется собственным познанием, это исследование предполагает, что хотя добавление визуальной информации иногда может помочь ИИ имитировать человеческое чтение, основа понимания языка остается в самом языке. Это подчеркивает важность изучения того, как различные виды обучения — только по словам или по словам и изображениям — формируют наши ментальные представления. На практике это означает, что если вы хотите улучшить понимание прочитанного, сосредоточение на языковых навыках (например, словарном запасе и грамматике) может быть более эффективным, чем попытки все визуализировать.

Что можно сделать

Чтобы отточить обработку языка, попробуйте занятия, бросающие вызов вашим вербальным навыкам — например, чтение сложных текстов, изучение новых слов или разгадывание кроссвордов. Эти упражнения укрепляют языковые сети в вашем мозге, подобно тому, как LLM получают пользу от большего количества языкового обучения. А если вы склонны мыслить визуально, учтите, что у вас может быть преимущество при обработке описательного, богатого изображениями контента.

Источник: arXiv q-bio.NC

Интересуетесь собственным мозгом? Пройдите наш бесплатный адаптивный IQ-тест или попробуйте 306 уровней тренировки мозга.

Интересно узнать свой IQ?

Пройдите наш бесплатный научно разработанный адаптивный тест по 7 когнитивным доменам. Без регистрации.

Пройти бесплатный тест

Мультимодальные модели не всегда думают как люди, показало новое исследование

Суть исследования

Почему это важно

Что можно сделать

Интересно узнать свой IQ?

Похожие посты

Ежедневный стакан фруктового сока или смузи снижает показатели депрессии, показало исследование

Мозг против ИИ: Почему механизмы обучения могут принципиально различаться

Почему ИИ не видит мир как мы: проблема связывания

Кофеин лишает мозг глубокого сна, даже если вы спите 8 часов