مدلهای بزرگ زبانی (LLMs) شباهتهای چشمگیری با فعالیت عصبی در شبکه زبان انسان نشان میدهند، با این حال ویژگیهای زبانی خاصی که به این بازنماییهای مغزمانند کمک میکنند، نامشخص باقی ماندهاند. درک سازوکارهای شناختی که درک زبان و ارتباط را ممکن میسازند، یک هدف کلیدی در علوم اعصاب است. شبکه زبان مغز (LN)، مجموعهای از نواحی پیشانی-گیجگاهی چپجانبیشده، در پردازش ورودی زبانی بسیار مهم است. پیشرفتهای اخیر در یادگیری ماشین، مدلهای بزرگ زبانی را که بر روی مجموعههای متنی وسیع با استفاده از پیشبینی کلمه بعدی آموزش داده شدهاند، بهعنوان مدلهای محاسباتی امیدوارکنندهای برای مطالعه عملکردهای LN قرار داده است. هنگامی که این مدلها در معرض محرکهای زبانی مشابه انسانها در طول آزمایشهای تصویربرداری عصبی و الکتروفیزیولوژی قرار میگیرند، بخش قابل توجهی از تغییرپذیری پاسخ عصبی را به خود اختصاص میدهند و ارتباط آنها را در تحقیقات علوم اعصاب شناختی تقویت میکنند.
مطالعات در مورد همترازی مدل با مغز نشان میدهد که برخی از شبکههای عصبی مصنوعی بازنماییهایی را رمزگذاری میکنند که شبیه به بازنماییهای مغز انسان است. این شباهت برای اولین بار در تحقیقات بینایی شناسایی شد و از آن زمان به پردازش شنوایی و زبانی گسترش یافته است. تحقیقات نشان میدهد که حتی شبکههای عصبی آموزشندیده نیز میتوانند سطوح بالایی از همترازی را با فعالیت مغز نشان دهند، که نشان میدهد ویژگیهای معماری خاصی به شباهت شناختی آنها مستقل از آموزش مبتنی بر تجربه کمک میکند. بررسی سوگیریهای استقرایی در معماریهای مختلف شبکه نشان میدهد که مدلهای مقداردهی اولیه تصادفی به عنوان توابع دلخواه عمل نمیکنند، بلکه الگوهای ساختاری اساسی ذاتی در پردازش حسی و زبانی را به تصویر میکشند. این بینشها درک ما را از مبنای عصبی زبان عمیقتر میکند و مسیرهای بالقوهای را برای اصلاح مدلهای بزرگ زبانی برای شبیهسازی بهتر شناخت انسان ارائه میدهد.
محققان EPFL، MIT و جورجیا تک، 34 نقطه بازبینی آموزشی را در هشت اندازه مدل تجزیه و تحلیل کردند تا رابطه بین همترازی مغز و شایستگی زبانی را بررسی کنند. یافتههای آنها نشان میدهد که همترازی مغز با شایستگی زبانی صوری - دانش قوانین زبانی - همبستگی قویتری نسبت به شایستگی کارکردی دارد که شامل استدلال و دانش جهان میشود. در حالی که شایستگی کارکردی با آموزش بیشتر توسعه مییابد، پیوند آن با همترازی مغز ضعیف میشود. همچنین، اندازه مدل، همترازی مغز را زمانی که برای اندازه ویژگی کنترل میشود، پیشبینی نمیکند. نتایج آنها نشان میدهد که معیارهای همترازی مغز فعلی اشباع نشده باقی میمانند و بر فرصتهایی برای اصلاح مدلهای بزرگ زبانی برای بهبود همترازی با پردازش زبان انسان تأکید میکنند.
این مطالعه همترازی مغز را در مدلهای زبانی با استفاده از مجموعه دادههای تصویربرداری عصبی متنوع که بر اساس شیوه، طول زمینه و ارائه محرک (شنیداری/دیداری) طبقهبندی شدهاند، ارزیابی میکند. این تجزیه و تحلیل از یک رویکرد محلیسازی کارکردی پیروی میکند و واحدهای عصبی گزینشی زبان را شناسایی میکند. همترازی مغز با استفاده از رگرسیون ریج و همبستگی پیرسون ارزیابی میشود، در حالی که تخمینهای سازگاری بین آزمودنیها، نویز را در نظر میگیرند. شایستگی صوری با استفاده از BLIMP و SYNTAXGYM آزمایش میشود، در حالی که شایستگی کارکردی با معیارهای استدلال و دانش جهان ارزیابی میشود. نتایج نشان میدهد که زمینهسازی بر همترازی تأثیر میگذارد و مدلهای آموزشندیده همترازی جزئی را حفظ میکنند. این مطالعه بر معیارهای ارزیابی قوی و آزمونهای تعمیم برای اطمینان از مقایسههای معنادار بین مدلها تأکید میکند.
مدلهای آموزشندیده، علیرغم امتیازات همترازی کمتر نسبت به مدلهای از پیش آموزشدیده (حدود 50٪)، همچنان همترازی مغزی قابل توجهی را نشان میدهند که از توالیهای نشانهای تصادفی فراتر میرود. این همترازی از سوگیریهای استقرایی ناشی میشود، به طوری که مدلهای مبتنی بر توالی (GRU، LSTM، ترانسفورماتورها) همترازی قویتری نسبت به مدلهای مبتنی بر نشانه (MLP، خطی) نشان میدهند. یکپارچگی زمانی، به ویژه از طریق رمزگذاری موقعیتی، نقش کلیدی ایفا میکند. همترازی مغز در اوایل آموزش (حدود 8 میلیارد نشانه) به اوج خود میرسد و با شایستگی زبانی صوری مرتبط است تا درک کارکردی. مدلهای بزرگتر لزوماً همترازی را بهبود نمیبخشند. آموزش بیش از حد، همترازی رفتاری را کاهش میدهد، که نشان میدهد مدلها با پیشی گرفتن از مهارت انسانی، از پردازش انسانی فاصله میگیرند و به سازوکارهای متفاوتی متکی میشوند.
در نتیجه، این مطالعه بررسی کرد که چگونه همترازی مغز در مدلهای بزرگ زبانی در طول آموزش تکامل مییابد، و نشان داد که از نزدیک شایستگی زبانی صوری را دنبال میکند، در حالی که شایستگی کارکردی به طور مستقل به توسعه خود ادامه میدهد. همترازی مغز در اوایل به اوج خود میرسد، که نشان میدهد شبکه زبان انسان عمدتاً ساختارهای نحوی و ترکیبی را به جای عملکردهای شناختی گستردهتر رمزگذاری میکند. اندازه مدل، همترازی را پیشبینی نمیکند. سوگیریهای معماری و پویایی آموزش نقش کلیدی ایفا میکنند. این مطالعه همچنین تأیید میکند که معیارهای همترازی مغز اشباع نشده باقی میمانند، که نشاندهنده جای پیشرفت در مدلسازی پردازش زبان انسان است. این یافتهها درک ما را از نحوه ارتباط مدلهای بزرگ زبانی با پردازش زبان بیولوژیکی اصلاح میکنند و بر ساختارهای زبانی صوری نسبت به ساختارهای کارکردی تأکید میکنند.
برای اطلاعات بیشتر میتوانید این مقاله را مطالعه کنید. تمام اعتبار این تحقیق متعلق به محققان این پروژه است. همچنین، میتوانید ما را در توییتر دنبال کنید و فراموش نکنید که به سابردیت 80 هزار نفری ML ما بپیوندید.