Inicio · Blog · Investigación

Cómo las capas intermedias de Whisper AI coinciden con la actividad cerebral durante el habla

Cómo las capas intermedias de Whisper AI coinciden con la actividad cerebral durante el habla

Un nuevo estudio encuentra que ciertas capas de la inteligencia artificial Whisper de OpenAI se corresponden estrechamente con la forma en que el cerebro humano procesa el habla. La investigación, presentada en el ICLR 2026 Workshop on Representational Alignment, muestra que las capas intermedias —no las primeras ni las últimas— proporcionan la coincidencia más fuerte con las grabaciones intracraneales del cerebro.

La investigación

Matteo Ciferri y sus colegas (Universidad de Roma, Harvard Medical School) registraron electrocorticografía (ECoG) de 12 pacientes con epilepsia mientras escuchaban habla natural. La ECoG utiliza electrodos colocados directamente sobre el cerebro, proporcionando datos de precisión milisegundo. Luego introdujeron el mismo habla en Whisper de OpenAI, una red neuronal profunda entrenada con 680.000 horas de audio multilingüe.

Para comparar las representaciones internas de Whisper con las señales cerebrales, el equipo desarrolló un codificador neural con resolución temporal que combinaba los embeddings de Whisper con un modelo temporal recurrente y atención suave. Esto les permitió examinar capa por capa qué tan bien cada una de las 32 capas de Whisper predecía la actividad neuronal. Las capas intermedias (alrededor de las capas 15 a 20) mostraron la mayor correspondencia, apoyando una alineación jerárquica entre las etapas de procesamiento del modelo y el procesamiento cortical del habla.

En comparación con modelos lineales más simples que usaban las mismas características del habla, el codificador estructurado temporalmente mejoró la precisión de predicción en un 15-20 %. Los mapas de atención revelaron que el modelo se enfocaba en puntos temporales específicos en el flujo de habla para predecir las respuestas neuronales, alineándose con las dinámicas temporales conocidas de la percepción del habla. Un análisis fonémico mostró además que los electrodos informativos para la codificación formaban grupos correspondientes a categorías fonémicas (como consonantes frente a vocales), consistentes con la organización funcional conocida de la corteza auditiva.

Por qué es importante

Esta investigación sugiere que modelos de aprendizaje profundo como Whisper pueden servir como un marco útil para entender cómo el cerebro representa el habla en tiempo real. La coincidencia jerárquica implica que tanto la IA como el cerebro humano procesan el habla en etapas, desde características acústicas simples hasta abstracciones lingüísticas complejas. Para cualquiera que sienta curiosidad por su propia cognición, esto refuerza que la percepción del habla es un proceso dinámico y de múltiples capas, no una instantánea única.

Qué puedes hacer

Para apoyar el procesamiento del habla en tu cerebro, prueba la escucha activa: concéntrate en un solo hablante en un entorno ruidoso, parafrasea lo que dijo y presta atención a los sonidos distintos (fonemas) de las palabras. La práctica regular puede agudizar el análisis jerárquico de tu corteza auditiva.

Fuente: arXiv q-bio.NC

¿Curioso sobre tu propio cerebro? Realiza nuestro test de CI adaptativo gratuito o prueba 306 niveles de entrenamiento cerebral.

¿Curioso por conocer tu propio CI?

Realiza nuestro test adaptativo gratuito y científicamente diseñado a través de 7 dominios cognitivos. Sin registro.

Realizar test gratuito