Главная · Блог · Исследования

Как средние слои Whisper AI соответствуют активности мозга при речи

Как средние слои Whisper AI соответствуют активности мозга при речи

Новое исследование показывает, что определенные слои речевого ИИ Whisper от OpenAI близко соответствуют тому, как человеческий мозг обрабатывает речь. Исследование, представленное на семинаре ICLR 2026 по выравниванию репрезентаций, показывает, что промежуточные слои — не первый и не последний — обеспечивают наиболее сильное совпадение с внутричерепными записями мозга.

Исследование

Маттео Чиферри и коллеги (Римский университет, Гарвардская медицинская школа) записали электрокортикографию (ECoG) у 12 пациентов с эпилепсией, слушающих естественную речь. ECoG использует электроды, размещенные непосредственно на мозге, что дает данные с миллисекундной точностью. Затем они подали ту же речь в Whisper от OpenAI — глубокую нейронную сеть, обученную на 680 000 часов многоязычного аудио.

Чтобы сравнить внутренние представления Whisper с сигналами мозга, команда разработала временной нейронный кодер, который объединил эмбеддинги Whisper с рекуррентной временной моделью и мягким вниманием. Это позволило им изучить послойно, насколько хорошо каждый из 32 слоев Whisper предсказывает нейронную активность. Средние слои (примерно 15–20) показали наибольшее соответствие, что поддерживает иерархическое выравнивание между этапами обработки модели и корковой обработкой речи.

При сравнении с более простыми линейными моделями, использующими те же речевые признаки, временной кодер повысил точность предсказания на 15–20%. Карты внимания показали, что модель фокусируется на определенных временных точках в речевом потоке для предсказания нейронных ответов, что согласуется с известной временной динамикой восприятия речи. Фонематический анализ дополнительно показал, что электроды, информативные для кодирования, образуют кластеры, соответствующие категориям фонем (например, согласные против гласных), что согласуется с известной функциональной организацией слуховой коры.

Почему это важно

Это исследование предполагает, что модели глубокого обучения, такие как Whisper, могут служить полезной основой для понимания того, как мозг представляет речь в реальном времени. Иерархическое соответствие подразумевает, что как ИИ, так и человеческий мозг обрабатывают речь поэтапно: от простых акустических признаков до сложных лингвистических абстракций. Для тех, кто интересуется собственным познанием, это подчеркивает, что восприятие речи — это динамический многослойный процесс, а не единый снимок.

Что вы можете сделать

Чтобы поддержать обработку речи вашим мозгом, попробуйте активное слушание: сосредоточьтесь на одном говорящем в шумной обстановке, перефразируйте сказанное и замечайте отдельные звуки (фонемы) слов. Регулярная практика может улучшить иерархический анализ вашей слуховой коры.

Источник: arXiv q-bio.NC

Хотите узнать свой мозг? Пройдите наш бесплатный адаптивный IQ-тест или попробуйте 306 уровней тренировки мозга.

Интересно узнать свой IQ?

Пройдите наш бесплатный научно разработанный адаптивный тест по 7 когнитивным доменам. Без регистрации.

Пройти бесплатный тест