Grandes modelos de linguagem (LLMs) são ferramentas poderosas para entender como os humanos processam a linguagem, mas adicionar treinamento de visão-linguagem nem sempre torna suas representações textuais mais humanas. Em um novo estudo publicado no arXiv, os pesquisadores Jinzhou Wu, Zhengwu Ma, Jixing Li, Baoping Tang e Zitong Lu compararam LLMs e modelos de visão-linguagem (VLMs) cuidadosamente pareados para ver se o pré-treinamento multimodal melhora o alinhamento com a atividade cerebral humana e movimentos oculares durante a leitura natural.
A Pesquisa
A equipe usou um conjunto de dados de respostas de fMRI de todo o córtex e movimentos sacádicos sincronizados de rastreamento ocular de humanos lendo frases naturais. Eles compararam pares de LLM e VLM que eram idênticos, exceto pelo histórico de treinamento multimodal, controlando a entrada visual online ou a fusão cross-modal. Os resultados mostraram que VLMs não têm uma vantagem global e uniforme sobre LLMs no alinhamento com respostas neurais e comportamentais humanas. Em vez disso, as representações internas da linguagem nos LLMs foram o fator chave para modelar o processamento textual humano. No entanto, quando as frases tinham conteúdo semântico visual mais forte, os VLMs mostraram melhorias seletivas, com evidências convergentes de alinhamentos de fMRI e rastreamento ocular.
Por Que Isso Importa
Para qualquer um curioso sobre sua própria cognição, este estudo sugere que, embora adicionar informações visuais possa ajudar modelos de IA a imitar a leitura humana, o núcleo da compreensão da linguagem permanece enraizado na própria linguagem. Isso destaca a importância de estudar como diferentes tipos de aprendizado — apenas com palavras versus com palavras e imagens — moldam nossas representações mentais. Na prática, significa que, se você quer melhorar sua compreensão de leitura, focar em habilidades linguísticas (como vocabulário e gramática) pode ser mais eficaz do que tentar visualizar tudo.
O Que Você Pode Fazer
Para aprimorar seu processamento de linguagem, tente atividades que desafiem suas habilidades verbais — como ler textos complexos, aprender novas palavras ou fazer palavras cruzadas. Esses exercícios fortalecem as redes de linguagem no seu cérebro, assim como LLMs se beneficiam de mais treinamento linguístico. E se você tende a pensar visualmente, note que pode ter vantagem ao processar conteúdos descritivos e ricos em imagens.
Fonte: arXiv q-bio.NC
Curioso sobre seu próprio cérebro? Faça nosso teste de QI adaptativo gratuito ou experimente 306 níveis de treinamento cerebral.