پردازش زبان در مغز به دلیل ماهیت پیچیده، چندبعدی و وابسته به متن، یک چالش است. روانشناسان زبان تلاش کردهاند تا ویژگیها و فرآیندهای نمادین و مشخصی را برای حوزههای مختلف ایجاد کنند، مانند واجها برای تحلیل گفتار و واحدهای نقش کلام برای ساختارهای نحوی. با وجود اذعان به برخی تعاملات بین حوزهای، تحقیقات بر مدلسازی هر زیرشاخه زبانی به صورت جداگانه از طریق دستکاریهای آزمایشی کنترلشده متمرکز شده است. این استراتژی تقسیم و تسخیر، محدودیتهایی را نشان میدهد، زیرا شکاف قابل توجهی بین پردازش زبان طبیعی و نظریههای روانشناسی زبان رسمی پدید آمده است. این مدلها و نظریهها برای درک تعاملات ظریف، غیرخطی و وابسته به متن که در سطوح مختلف تحلیل زبانی رخ میدهند، تلاش میکنند.
پیشرفتهای اخیر در مدلهای زبانی بزرگ (LLMs) به طور چشمگیری پردازش زبان مکالمه، خلاصهسازی و تولید را بهبود بخشیده است. این مدلها در رسیدگی به ویژگیهای نحوی، معنایی و کاربردی متن نوشتاری و در تشخیص گفتار از ضبطهای آکوستیک برتری دارند. مدلهای چندوجهی و سرتاسری، یک پیشرفت نظری قابل توجه نسبت به مدلهای فقط متنی هستند، زیرا یک چارچوب یکپارچه برای تبدیل ورودی شنوایی مداوم به ابعاد زبانی گفتار و سطح کلمه در طول مکالمات طبیعی ارائه میدهند. بر خلاف رویکردهای سنتی، این مدلهای عمیق آکوستیک به گفتار به زبان به نمایشهای برداری چندبعدی تغییر میکنند، جایی که همه عناصر گفتار و زبان در بردارهای پیوسته در سراسر جمعیتی از واحدهای محاسباتی ساده با بهینهسازی اهداف ساده جاسازی میشوند.
محققانی از دانشگاه عبری، تحقیقات گوگل، دانشگاه پرینستون، دانشگاه ماستریخت، بیمارستان عمومی ماساچوست و دانشکده پزشکی هاروارد، دانشکده پزشکی دانشگاه نیویورک و دانشگاه هاروارد، یک چارچوب محاسباتی یکپارچه ارائه کردهاند که ساختارهای زبانی آکوستیک، گفتار و سطح کلمه را به هم متصل میکند تا مبنای عصبی مکالمات روزمره در مغز انسان را بررسی کند. آنها از الکتروکورتیکوگرافی برای ثبت سیگنالهای عصبی در طول ۱۰۰ ساعت تولید گفتار طبیعی و با جزئیات در حالی که شرکتکنندگان در مکالمات واقعی و بدون محدودیت شرکت میکردند، استفاده کردند. این تیم جاسازیهای مختلفی مانند جاسازیهای آکوستیک سطح پایین، گفتار سطح میانی و کلمه متنی را از یک مدل چندوجهی گفتار به متن به نام Whisper استخراج کردند. مدل آنها فعالیت عصبی را در هر سطح از سلسله مراتب پردازش زبان در طول ساعتها مکالمات دیدهنشده قبلی پیشبینی میکند.
عملکرد داخلی مدل آکوستیک به گفتار به زبان Whisper برای مدلسازی و پیشبینی فعالیت عصبی در طول مکالمات روزانه مورد بررسی قرار میگیرد. سه نوع جاسازی از مدل برای هر کلمهای که بیماران صحبت میکنند یا میشنوند استخراج میشود: جاسازیهای آکوستیک از لایه ورودی شنوایی، جاسازیهای گفتار از لایه رمزگذار گفتار نهایی و جاسازیهای زبان از لایههای نهایی رمزگشا. برای هر نوع جاسازی، مدلهای رمزگذاری الکترود به الکترود برای نگاشت جاسازیها به فعالیت عصبی در طول تولید و درک گفتار ساخته میشوند. مدلهای رمزگذاری همسویی قابل توجهی بین فعالیت مغز انسان و کد جمعیت داخلی مدل نشان میدهند و به طور دقیق پاسخهای عصبی را در صدها هزار کلمه در دادههای مکالمه پیشبینی میکنند.
جاسازیهای آکوستیک، گفتار و زبان مدل Whisper دقت پیشبینی استثنایی برای فعالیت عصبی در صدها هزار کلمه در طول تولید و درک گفتار در سراسر شبکه زبانی قشر مغز نشان میدهند. در طول تولید گفتار، یک پردازش سلسله مراتبی مشاهده میشود که در آن نواحی مفصلی (preCG، postCG، STG) توسط جاسازیهای گفتار بهتر پیشبینی میشوند، در حالی که نواحی زبانی سطح بالاتر (IFG، pMTG، AG) با جاسازیهای زبان همسو میشوند. مدلهای رمزگذاری ویژگیهای زمانی خاصی را نشان میدهند، به طوری که عملکرد بیش از 300 میلیثانیه قبل از شروع کلمه در طول تولید و 300 میلیثانیه پس از شروع در طول درک به اوج خود میرسد، به طوری که جاسازیهای گفتار فعالیت در نواحی ادراکی و مفصلی را بهتر پیشبینی میکنند و جاسازیهای زبان در نواحی زبانی مرتبه بالا برتری دارند.
به طور خلاصه، مدل آکوستیک به گفتار به زبان یک چارچوب محاسباتی یکپارچه برای بررسی مبنای عصبی پردازش زبان طبیعی ارائه میدهد. این رویکرد یکپارچه یک تغییر پارادایم به سمت مدلهای غیر نمادین مبتنی بر یادگیری آماری و فضاهای جاسازی با ابعاد بالا است. از آنجایی که این مدلها برای پردازش بهتر گفتار طبیعی تکامل مییابند، همسویی آنها با فرآیندهای شناختی نیز ممکن است به طور مشابه بهبود یابد. برخی از مدلهای پیشرفته مانند GPT-4o حالت دیداری را در کنار گفتار و متن در خود جای میدهند، در حالی که برخی دیگر سیستمهای مفصلی تجسم یافته را که از تولید گفتار انسان تقلید میکنند، ادغام میکنند. بهبود سریع این مدلها از تغییر به یک پارادایم زبانی یکپارچه حمایت میکند که بر نقش یادگیری آماری مبتنی بر کاربرد در کسب زبان همانطور که در زمینههای واقعی تجسم مییابد، تأکید میکند.
مقاله را بررسی کنید: مقاله، و وبلاگ گوگل. تمام اعتبار این تحقیق به محققان این پروژه میرسد.