Як середні шари Whisper AI відповідають активності мозку під час мовлення

7 червня 2026 · 2 хв читання · Дослідження

Нове дослідження виявило, що певні шари мовної моделі Whisper від OpenAI тісно відповідають тому, як людський мозок обробляє мовлення. Дослідження, представлене на ICLR 2026 Workshop on Representational Alignment, показує, що проміжні шари — не перші або останні — найбільше збігаються з внутрішньочерепними записами мозку.

Дослідження

Matteo Ciferri та колеги (Університет Риму, Гарвардська медична школа) записали електрокортикографію (ECoG) у 12 пацієнтів з епілепсією, які слухали природне мовлення. ECoG використовує електроди, розміщені безпосередньо на мозку, що дає дані з мілісекундною точністю. Потім вони подали те саме мовлення у Whisper від OpenAI, глибоку нейронну мережу, навчену на 680 000 годин багатомовного аудіо.

Щоб порівняти внутрішні представлення Whisper з сигналами мозку, команда розробила часовий нейронний енкодер, який поєднував ембеддінги Whisper з рекурентною часовою моделлю та м'якою увагою. Це дозволило дослідити пошарово, наскільки добре кожен з 32 шарів Whisper передбачає нейронну активність. Середні шари (приблизно 15-20) показали найвищу відповідність, підтверджуючи ієрархічне узгодження між етапами обробки моделі та корковою обробкою мовлення.

У порівнянні з простішими лінійними моделями, що використовують ті самі мовленнєві ознаки, часовий енкодер покращив точність прогнозування на 15-20%. Мапи уваги показали, що модель фокусувалася на певних часових точках у мовленнєвому потоці для прогнозування нейронних відповідей, узгоджуючись з відомою часовою динамікою сприйняття мовлення. Фонематичний аналіз додатково показав, що електроди, інформативні для кодування, утворювали кластери, що відповідають категоріям фонем (наприклад, приголосні проти голосних), що узгоджується з відомою функціональною організацією слухової кори.

Чому це важливо

Це дослідження показує, що моделі глибокого навчання, такі як Whisper, можуть служити корисною основою для розуміння того, як мозок представляє мовлення в реальному часі. Ієрархічний збіг передбачає, що як ШІ, так і людський мозок обробляють мовлення поетапно, від простих акустичних ознак до складних лінгвістичних абстракцій. Для тих, хто цікавиться власним пізнанням, це підтверджує, що сприйняття мовлення — це динамічний, багатошаровий процес, а не окремий знімок.

Що ви можете зробити

Щоб підтримати обробку мовлення вашим мозком, спробуйте активне слухання: зосередьтеся на одному мовцеві в шумному середовищі, перефразуйте сказане та помічайте окремі звуки (фонеми) слів. Регулярна практика може покращити ієрархічний аналіз вашої слухової кори.

Джерело: arXiv q-bio.NC

Цікавитесь власним мозком? Пройдіть наш безкоштовний адаптивний IQ-тест або спробуйте 306 рівнів тренування мозку.

Цікавитесь власним IQ?

Пройдіть наш безкоштовний науково розроблений адаптивний тест за 7 когнітивними доменами. Без реєстрації.

Пройти безкоштовний тест

Як середні шари Whisper AI відповідають активності мозку під час мовлення

Дослідження

Чому це важливо

Що ви можете зробити

Цікавитесь власним IQ?

Схожі публікації

Нейроморфні схеми прискорюють навчання ШІ з кількох прикладів, змагаючись з людським мозком

Хвороби Альцгеймера та Паркінсона мають спільний мозковий сигнал, показує МРТ-дослідження

ШІ розшифровує біль з ЕЕГ: дельта-хвилі для об'єктивного моніторингу

Кора вивчає загальну структуру, підкірка відповідає за винагороди при обмеженій пам'яті