فضای جاسازی یکپارچه آکوستیک به گفتار به زبان، مبنای عصبی پردازش زبان طبیعی را در مکالمات روزمره ثبت می‌کند

تصویری از مدل

پردازش زبان در مغز به دلیل ماهیت پیچیده، چندبعدی و وابسته به متن، یک چالش است. روانشناسان زبان تلاش کرده‌اند تا ویژگی‌ها و فرآیندهای نمادین و مشخصی را برای حوزه‌های مختلف ایجاد کنند، مانند واج‌ها برای تحلیل گفتار و واحدهای نقش کلام برای ساختارهای نحوی. با وجود اذعان به برخی تعاملات بین حوزه‌ای، تحقیقات بر مدل‌سازی هر زیرشاخه زبانی به صورت جداگانه از طریق دستکاری‌های آزمایشی کنترل‌شده متمرکز شده است. این استراتژی تقسیم و تسخیر، محدودیت‌هایی را نشان می‌دهد، زیرا شکاف قابل توجهی بین پردازش زبان طبیعی و نظریه‌های روان‌شناسی زبان رسمی پدید آمده است. این مدل‌ها و نظریه‌ها برای درک تعاملات ظریف، غیرخطی و وابسته به متن که در سطوح مختلف تحلیل زبانی رخ می‌دهند، تلاش می‌کنند.

پیشرفت‌های اخیر در مدل‌های زبانی بزرگ (LLMs) به طور چشمگیری پردازش زبان مکالمه، خلاصه‌سازی و تولید را بهبود بخشیده است. این مدل‌ها در رسیدگی به ویژگی‌های نحوی، معنایی و کاربردی متن نوشتاری و در تشخیص گفتار از ضبط‌های آکوستیک برتری دارند. مدل‌های چندوجهی و سرتاسری، یک پیشرفت نظری قابل توجه نسبت به مدل‌های فقط متنی هستند، زیرا یک چارچوب یکپارچه برای تبدیل ورودی شنوایی مداوم به ابعاد زبانی گفتار و سطح کلمه در طول مکالمات طبیعی ارائه می‌دهند. بر خلاف رویکردهای سنتی، این مدل‌های عمیق آکوستیک به گفتار به زبان به نمایش‌های برداری چندبعدی تغییر می‌کنند، جایی که همه عناصر گفتار و زبان در بردارهای پیوسته در سراسر جمعیتی از واحدهای محاسباتی ساده با بهینه‌سازی اهداف ساده جاسازی می‌شوند.

محققانی از دانشگاه عبری، تحقیقات گوگل، دانشگاه پرینستون، دانشگاه ماستریخت، بیمارستان عمومی ماساچوست و دانشکده پزشکی هاروارد، دانشکده پزشکی دانشگاه نیویورک و دانشگاه هاروارد، یک چارچوب محاسباتی یکپارچه ارائه کرده‌اند که ساختارهای زبانی آکوستیک، گفتار و سطح کلمه را به هم متصل می‌کند تا مبنای عصبی مکالمات روزمره در مغز انسان را بررسی کند. آن‌ها از الکتروکورتیکوگرافی برای ثبت سیگنال‌های عصبی در طول ۱۰۰ ساعت تولید گفتار طبیعی و با جزئیات در حالی که شرکت‌کنندگان در مکالمات واقعی و بدون محدودیت شرکت می‌کردند، استفاده کردند. این تیم جاسازی‌های مختلفی مانند جاسازی‌های آکوستیک سطح پایین، گفتار سطح میانی و کلمه متنی را از یک مدل چندوجهی گفتار به متن به نام Whisper استخراج کردند. مدل آن‌ها فعالیت عصبی را در هر سطح از سلسله مراتب پردازش زبان در طول ساعت‌ها مکالمات دیده‌نشده قبلی پیش‌بینی می‌کند.

عملکرد داخلی مدل آکوستیک به گفتار به زبان Whisper برای مدل‌سازی و پیش‌بینی فعالیت عصبی در طول مکالمات روزانه مورد بررسی قرار می‌گیرد. سه نوع جاسازی از مدل برای هر کلمه‌ای که بیماران صحبت می‌کنند یا می‌شنوند استخراج می‌شود: جاسازی‌های آکوستیک از لایه ورودی شنوایی، جاسازی‌های گفتار از لایه رمزگذار گفتار نهایی و جاسازی‌های زبان از لایه‌های نهایی رمزگشا. برای هر نوع جاسازی، مدل‌های رمزگذاری الکترود به الکترود برای نگاشت جاسازی‌ها به فعالیت عصبی در طول تولید و درک گفتار ساخته می‌شوند. مدل‌های رمزگذاری همسویی قابل توجهی بین فعالیت مغز انسان و کد جمعیت داخلی مدل نشان می‌دهند و به طور دقیق پاسخ‌های عصبی را در صدها هزار کلمه در داده‌های مکالمه پیش‌بینی می‌کنند.

جاسازی‌های آکوستیک، گفتار و زبان مدل Whisper دقت پیش‌بینی استثنایی برای فعالیت عصبی در صدها هزار کلمه در طول تولید و درک گفتار در سراسر شبکه زبانی قشر مغز نشان می‌دهند. در طول تولید گفتار، یک پردازش سلسله مراتبی مشاهده می‌شود که در آن نواحی مفصلی (preCG، postCG، STG) توسط جاسازی‌های گفتار بهتر پیش‌بینی می‌شوند، در حالی که نواحی زبانی سطح بالاتر (IFG، pMTG، AG) با جاسازی‌های زبان همسو می‌شوند. مدل‌های رمزگذاری ویژگی‌های زمانی خاصی را نشان می‌دهند، به طوری که عملکرد بیش از 300 میلی‌ثانیه قبل از شروع کلمه در طول تولید و 300 میلی‌ثانیه پس از شروع در طول درک به اوج خود می‌رسد، به طوری که جاسازی‌های گفتار فعالیت در نواحی ادراکی و مفصلی را بهتر پیش‌بینی می‌کنند و جاسازی‌های زبان در نواحی زبانی مرتبه بالا برتری دارند.

به طور خلاصه، مدل آکوستیک به گفتار به زبان یک چارچوب محاسباتی یکپارچه برای بررسی مبنای عصبی پردازش زبان طبیعی ارائه می‌دهد. این رویکرد یکپارچه یک تغییر پارادایم به سمت مدل‌های غیر نمادین مبتنی بر یادگیری آماری و فضاهای جاسازی با ابعاد بالا است. از آنجایی که این مدل‌ها برای پردازش بهتر گفتار طبیعی تکامل می‌یابند، همسویی آن‌ها با فرآیندهای شناختی نیز ممکن است به طور مشابه بهبود یابد. برخی از مدل‌های پیشرفته مانند GPT-4o حالت دیداری را در کنار گفتار و متن در خود جای می‌دهند، در حالی که برخی دیگر سیستم‌های مفصلی تجسم یافته را که از تولید گفتار انسان تقلید می‌کنند، ادغام می‌کنند. بهبود سریع این مدل‌ها از تغییر به یک پارادایم زبانی یکپارچه حمایت می‌کند که بر نقش یادگیری آماری مبتنی بر کاربرد در کسب زبان همانطور که در زمینه‌های واقعی تجسم می‌یابد، تأکید می‌کند.

مقاله را بررسی کنید: مقاله، و وبلاگ گوگل. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد.