یادگیری یک زبان نمی تواند خیلی سخت باشد - هر نوزادی در جهان موفق می شود آن را در چند سال انجام دهد. فهمیدن اینکه این روند چگونه کار می کند، داستان دیگری است. زبان شناسان نظریه های مفصلی برای توضیح آن ابداع کرده اند، اما پیشرفت های اخیر در یادگیری ماشین یک پیچیدگی جدید اضافه کرده است. هنگامی که دانشمندان کامپیوتر شروع به ساخت مدلهای زبانی کردند که رباتهای چت مدرن مانند ChatGPT را تغذیه میکنند، دههها تحقیق در زبانشناسی را کنار گذاشتند و به نظر میرسید که قمار آنها نتیجه داده است. اما آیا واقعاً ساخته های آنها در حال یادگیری هستند؟
تال لینزن، زبانشناس محاسباتی در دانشگاه نیویورک، گفت: «حتی اگر کاری انجام دهند که شبیه کاری است که یک انسان انجام میدهد، ممکن است این کار را به دلایل بسیار متفاوتی انجام دهند.»
این فقط یک موضوع بحث و جدل در مورد تعاریف نیست. اگر مدلهای زبانی واقعاً در حال یادگیری زبان هستند، ممکن است محققان برای توضیح نحوه انجام این کار به نظریههای جدیدی نیاز داشته باشند. اما اگر مدلها کاری سطحیتر انجام میدهند، شاید یادگیری ماشین هیچ بینشی برای ارائه به زبانشناسی نداشته باشد.
نوام چامسکی، غول حوزه زبانشناسی، بهطور علنی از دیدگاه دوم دفاع کرده است. او و دو نویسنده همکارش در یک مقاله کوبنده در نیویورک تایمز در سال 2023، بسیاری از استدلالها علیه مدلهای زبانی را مطرح کردند، از جمله استدلالی که در ابتدا متناقض به نظر میرسد: مدلهای زبانی به زبانشناسی بیربط هستند زیرا آنها خیلی خوب یاد میگیرند. بهطور مشخص، نویسندگان ادعا کردند که مدلها میتوانند زبانهای «غیرممکن» - زبانهایی که بر اساس قوانینی متفاوت از قوانین هر زبان انسانی شناخته شده اداره میشوند - را به همان اندازه آسان زبانهای ممکن بیاموزند.
به تازگی، پنج زبان شناس محاسباتی ادعای چامسکی را آزمایش کردند. آنها یک پایگاه داده متنی انگلیسی را برای تولید دوازده زبان غیرممکن تغییر دادند و دریافتند که مدلهای زبانی در یادگیری این زبانها نسبت به انگلیسی معمولی مشکل بیشتری دارند. مقاله آنها با عنوان «ماموریت: مدلهای زبان غیرممکن» جایزه بهترین مقاله را در کنفرانس انجمن زبانشناسی محاسباتی سال 2024 دریافت کرد.
ادل گلدبرگ، زبانشناس در دانشگاه پرینستون، گفت: «این یک مقاله عالی است. این کاملاً به موقع و مهم است.» نتایج نشان می دهد که مدل های زبانی ممکن است پس از همه ابزارهای مفیدی برای محققانی باشند که به دنبال درک زمزمه های نوزادان هستند.
موانع زبانی
در نیمه اول قرن بیستم، بیشتر زبان شناسان به فهرست نویسی زبان های جهان علاقه داشتند. سپس، در اواخر دهه 1950، چامسکی رویکردی جایگزین را هدایت کرد. او از ایده های علوم کامپیوتر نظری و منطق ریاضی در تلاشی بلندپروازانه برای کشف ساختار جهانی زیربنای همه زبانها استفاده کرد.
چامسکی استدلال کرد که انسان ها باید یک ماشین ذهنی ذاتی داشته باشند که به طور خاص به پردازش زبان اختصاص داده شده است. این امر بسیاری از رازهای بزرگ در زبان شناسی را توضیح می دهد، از جمله این مشاهده که برخی از قواعد دستوری ساده هرگز در هیچ زبان شناخته شده ای ظاهر نمی شوند.
چامسکی استدلال کرد که اگر یادگیری زبان به همان روش سایر انواع یادگیری کار می کرد، برخی از قواعد دستوری را بر سایرین ترجیح نمی داد. اما اگر زبان واقعاً خاص باشد، این دقیقاً همان چیزی است که شما انتظار دارید: هر سیستم تخصصی پردازش زبان لزوماً انسان ها را به سمت زبان های خاصی سوق می دهد و زبان های دیگر را غیرممکن می کند.
تیم هانتر، زبانشناس در دانشگاه کالیفرنیا، لسآنجلس، گفت: «واقعاً منطقی نیست که بگوییم انسانها برای یادگیری چیزهای خاصی سیمکشی شدهاند بدون اینکه بگوییم برای یاد نگرفتن چیزهای دیگر نیز سیمکشی شدهاند.»
رویکرد چامسکی به سرعت به جریان اصلی تحقیقات زبانشناسی نظری تبدیل شد. این وضعیت به مدت نیم قرن ادامه داشت. سپس انقلاب یادگیری ماشین فرا رسید.
ظهور ماشین ها
مدلهای زبانی بر اساس ساختارهای ریاضی به نام شبکههای عصبی هستند که دادهها را بر اساس ارتباط بین نورونهای تشکیلدهنده خود پردازش میکنند. قدرت هر اتصال با یک عدد به نام وزن آن سنجیده می شود. برای ساخت یک مدل زبانی، محققان ابتدا نوع خاصی از شبکه عصبی را انتخاب می کنند و سپس به طور تصادفی به اتصالات وزن می دهند. در نتیجه، مدل زبانی در ابتدا مزخرف می گوید. سپس محققان مدل را برای پیشبینی، یک کلمه در یک زمان، نحوه ادامه جملات آموزش میدهند. آنها این کار را با تغذیه مدل با انبوهی از متن انجام می دهند. هر بار که مدل یک بلوک متن را می بیند، پیش بینی برای کلمه بعدی را ارائه می دهد، سپس این خروجی را با متن واقعی مقایسه می کند و اتصالات بین نورون ها را برای بهبود پیش بینی های خود تغییر می دهد. پس از تغییرات بسیار کوچک، یاد می گیرد جملات روان و عجیب و غریبی تولید کند.
مدلهای زبانی و انسانها از جهات آشکاری با هم تفاوت دارند. برای مثال، مدلهای پیشرفته باید روی تریلیونها کلمه آموزش داده شوند، که بسیار بیشتر از آن چیزی است که هر انسانی در طول عمر خود میبیند. با این وجود، مدلهای زبانی ممکن است یک مورد آزمایشی جدید برای یادگیری زبان ارائه دهند - موردی که محدودیتهای اخلاقی در آزمایشها با نوزادان انسانی را دور میزند.
ایزابل پاپادیمیترو، زبانشناس محاسباتی در دانشگاه هاروارد و یکی از نویسندگان مقاله جدید، گفت: «هیچ مدل حیوانی از زبان وجود ندارد. مدلهای زبانی اولین چیزی هستند که میتوانیم به هر روش مداخلهای روی آنها آزمایش کنیم.»
این واقعیت که مدلهای زبانی اصلاً کار میکنند، دلیلی است بر اینکه چیزی شبیه به یادگیری زبان میتواند بدون هیچ یک از ماشینهای تخصصی که چامسکی پیشنهاد کرده است، اتفاق بیفتد. سیستم های مبتنی بر شبکه های عصبی در بسیاری از کارهایی که کاملاً نامربوط به پردازش زبان هستند موفقیت چشمگیری داشته اند و رویه آموزشی آنها همه چیزهایی را که زبان شناسان در مورد ساختار پیچیده جملات آموخته اند نادیده می گیرد.
جف میچل، زبان شناس محاسباتی در دانشگاه ساسکس، گفت: «شما فقط می گویید، 'من این کلمات را دیده ام؛ بعدش چی می آید،' که یک روش بسیار خطی برای فکر کردن در مورد زبان است.»

در سال 2020، میچل و جفری باورز، روانشناس در دانشگاه بریستول، تصمیم گرفتند بررسی کنند که چگونه روش غیرعادی مدل های زبانی در یادگیری بر توانایی آنها در تسلط بر زبان های غیرممکن تأثیر می گذارد. اختراع یک زبان جدید از ابتدا متغیرهای کنترل نشده زیادی را معرفی می کند: اگر مدلی در یادگیری زبان مصنوعی بهتر یا بدتر بود، مشخص کردن دلیل آن دشوار خواهد بود. در عوض، میچل و باورز با دستکاری مجموعه داده متنی انگلیسی به روشهای مختلف برای ایجاد سه زبان مصنوعی منحصربهفرد که تحت قوانین عجیب و غریب اداره میشوند، کنترلی برای آزمایش خود ابداع کردند. برای ساخت یک زبان، به عنوان مثال، آنها هر جمله انگلیسی را به طور تصادفی از وسط به دو قسمت تقسیم کردند و ترتیب کلمات را در قسمت دوم معکوس کردند.
میچل و باورز با چهار کپی یکسان از یک مدل زبانی آموزش ندیده شروع کردند. سپس هر یک را روی مجموعه داده متفاوتی آموزش دادند - سه زبان غیرممکن و انگلیسی اصلاح نشده. در نهایت، آنها به هر مدل یک آزمون گرامر دادند که شامل جملات جدیدی از زبانی بود که روی آن آموزش دیده بود.
مدل های آموزش دیده روی زبان های غیرممکن از دستور زبان پیچیده ناامید نشدند. آنها تقریباً به اندازه مدلی که روی انگلیسی آموزش دیده بود دقیق بودند.
به نظر می رسید مدل های زبانی می توانند کارهای غیرممکن را انجام دهند. چامسکی و همکارانش در مقاله سال 2023 خود به این نتایج استناد کردند و استدلال کردند که مدلهای زبانی ذاتاً قادر به تشخیص بین زبانهای ممکن و حتی کاریکاتوریترین زبانهای غیرممکن نیستند. پس دیگر تمام شد. پرونده بسته شد، درسته؟
داستان پیچیده می شود
جولی کالینی خیلی مطمئن نبود. در آگوست 2023 بود و او به تازگی تحصیلات تکمیلی خود را در رشته علوم کامپیوتر در دانشگاه استنفورد آغاز کرده بود. انتقادات چامسکی از مدل های زبانی اغلب در بحث های غیررسمی بین همکارانش مطرح می شد. اما وقتی کالینی به بررسی این موضوع پرداخت، متوجه شد که از زمان مقاله میچل و باورز در سه سال قبل، هیچ کار تجربی روی زبان های غیرممکن انجام نشده است. او مقاله را جذاب یافت اما فکر کرد که ادعای گسترده چامسکی به شواهد بیشتری نیاز دارد. قرار بود این ادعا در مورد همه مدلهای زبانی صدق کند، اما میچل و باورز فقط نوع قدیمیتری از شبکه عصبی را آزمایش کرده بودند که امروزه کمتر محبوب است. برای کالینی، ماموریت واضح بود: ادعای چامسکی را با مدل های مدرن آزمایش کنید.
کالینی با مشاور خود، کریستوفر پاتس، ملاقات کرد و یک مطالعه کامل در مورد کسب زبان های غیرممکن در شبکه های به اصطلاح ترانسفورماتور، که در قلب مدل های زبانی پیشرو امروزی قرار دارند، پیشنهاد کرد. پاتس در ابتدا فکر میکرد که این موضوع برای اولین پروژه کالینی به عنوان دانشجوی تحصیلات تکمیلی بسیار بلندپروازانه به نظر میرسد، اما او را متقاعد کرد که ارزش دنبال کردن را دارد.
او گفت: «جولی کاملاً بی امان بود.»

کالینی و پاتس توافق کردند که او مسئولیت آموزش مدل ها را بر عهده خواهد گرفت. اما ابتدا باید مشخص می کردند که کدام مدل های ترانسفورماتور خاص را آزمایش کنند و کدام زبان ها را مطالعه کنند. برای این کار، پاپادیمیترو و دو زبان شناس محاسباتی دیگر - ریچارد فوتریل، در دانشگاه کالیفرنیا، ایروین و کایل ماهولد از دانشگاه تگزاس، آستین را وارد کار کردند. این تیم تصمیم گرفت از شبکه های ترانسفورماتور نسبتاً کوچکی الگوبرداری شده از GPT-2، یکی از پیشینیان مدل زبانی که ChatGPT را پشتیبانی می کند، استفاده کند. شبکه های کوچکتر به داده های آموزشی کمتری نیاز دارند، بنابراین کمی شبیه تر به انسان هستند. شاید آنها با ترجیح دادن زبان های ممکن بر زبان های غیرممکن، شبیه انسان ها هم باشند؟
کالینی به زودی فهمید که همه چنین فکری نمی کنند. همکاران او در بخش علوم کامپیوتر استنفورد به سختی نسبت به یادگیری ماشین بدبین بودند، اما بسیاری از آنها همچنان در بحث زبان غیرممکن طرف چامسکی بودند.
او گفت: «بسیاری از مردم شرط میبستند که ترانسفورماتور میتواند هر چیزی را یاد بگیرد.»

این تیم دوازده زبان غیرممکن را ساختند که بیشتر آنها بر اساس روشهای مختلفی برای جابجایی کلمات در هر جمله از یک مجموعه داده انگلیسی معمولی ساخته شده بودند. در یک مورد شدید، جابجایی تصادفی بود، اما در همه موارد دیگر، از یک الگوی ساده پیروی می کرد - به عنوان مثال، تقسیم هر جمله به گروه های سه کلمه ای مجاور و جابجایی کلمات دوم و سوم در هر گروه. آنها همچنین زبان «معکوس جزئی» را که میچل و باورز مطالعه کرده بودند، و همچنین یک زبان «معکوس کامل» را که با معکوس کردن هر جمله در دادههای آموزشی تولید کرده بودند، در نظر گرفتند. آخرین زبان آنها، که «پرش کلمه» نام داشت، نزدیکترین زبان به انگلیسی معمولی بود. این زبان فقط در نحوه تشخیص مفرد یا جمع بودن فعل متفاوت بود: به جای استفاده از یک پسوند، مانند «s» در «میدود»، از یک کاراکتر خاص استفاده میکرد که چهار کلمه پس از فعل قرار میگرفت. این تیم به ویژه کنجکاو بود که ببیند مدل ها چگونه با این زبان برخورد می کنند، زیرا این زبان از نمونه های کلاسیک ادبیات زبان شناسی الهام گرفته شده بود.
هانتر گفت: «به نظر نمی رسد که در مورد گفتن 'این [چیز] را چهار کلمه پایین دست از این یکی قرار دهید' چیز پیچیده ای وجود داشته باشد. با این حال، هیچ زبان انسانی به نظر نمی رسد از این نوع الگو پیروی کند.»
همه زبان های غیرممکن، ساختار زبانی انگلیسی را به درجات مختلف مختل می کردند، اما جدا از جابجایی تصادفی، همگی اطلاعات یکسانی را منتقل می کردند (به معنای خاص نظری). فوتریل گفت: «در اصل، یک پیشبینیکننده قدرتمند هیچ مشکلی با زبانهای غیرممکن نسبت به زبان ممکن نخواهد داشت.»
کالینی و همکارانش با چندین کپی از یک شبکه ترانسفورماتور شروع کردند و هر یک را روی زبان متفاوتی آموزش دادند و به طور دوره ای آموزش را متوقف می کردند تا توانایی پیش بینی کلمات هر مدل را آزمایش کنند. همه آنها در طول زمان بهتر شدند. حتی در مورد شدید جابجایی تصادفی، مدل همچنان می توانست یاد بگیرد که «the» کلمه رایج تری نسبت به «غیرممکن» است. اما مدلی که روی متن انگلیسی تغییر نکرده آموزش داده شده بود، بسیار سریعتر یاد گرفت و در پایان بهتر از همه مدلهای دیگر عمل کرد، با یک استثناء: مدلی که روی پرش کلمه آموزش داده شده بود، که برخی از پسوندهای فعل را با کاراکترهای خاص در چهار کلمه دورتر جایگزین می کند، تقریباً به همان خوبی عمل کرد.
این تعجب آور نبود - به هر حال، تمایز ظریف بین این زبان و انگلیسی معمولی برای بیشتر پیش بینی های کلمه مهم نیست. اما وقتی آنها مدل های آموزش دیده روی این دو زبان را با آزمایشی مقایسه کردند که برای تعیین دقیق تمایز طراحی شده بود، تفاوت روشنی را مشاهده کردند. بار دیگر، تسلط بر زبان غیرممکن بسیار سختتر بود.
این یک چرخش داستانی کلاسیک بود - مدلهای زبانی چندان همهکاره نبودند.
آیا ماموریت به پایان رسید؟
نتایج نشان می دهد که مدل های زبانی، مانند انسان ها، ترجیح می دهند برخی از الگوهای زبانی را بر سایرین یاد بگیرند. ترجیحات آنها تا حدی شبیه به ترجیحات انسانی است، اما لزوماً یکسان نیستند، و این هنوز ممکن است که جنبه هایی از نظریه های چامسکی در نحوه یادگیری انسان ها نقش داشته باشد. مغز انسان و شبکه های عصبی هر کدام آنقدر پیچیده هستند که درک تفاوت آنها - به ویژه وقتی صحبت از کاری به ظرافت یادگیری زبان باشد - می تواند ناامیدکننده به نظر برسد. عنوان مقاله "ماموریت: مدل های زبان غیرممکن" به بیش از یک روش مناسب است.
اما مانند قهرمانان اکشن، محققان عادت دارند ماموریت های به ظاهر غیرممکن را بپذیرند و راه های خلاقانه ای برای پیشرفت پیدا کنند. کالینی و همکارانش یک اصل ساده به نام «محلی بودن اطلاعات» را مشخص کردند که توضیح میدهد چرا مدلهایشان برخی از زبانهای غیرممکن را سختتر از بقیه میدانستند. این اصل ممکن است برای کسب زبان انسانی نیز مرتبط باشد. نتایج آنها در حال حاضر چندین پیشنهاد مشخص برای مطالعات بعدی را برانگیخته است.
رایان نفدت، فیلسوف علوم شناختی در دانشگاه کیپ تاون در آفریقای جنوبی، گفت: «این چیزی است که من واقعاً در مورد مقاله دوست دارم. این مقاله بسیاری از راه ها و سؤالات مختلف را باز می کند.»
یک رویکرد امیدوارکننده، بررسی نحوه تأثیر یادگیری زبان غیرممکن بر جزئیات طراحی شبکه عصبی است. نتایج منفی آزمایش های قبلی میچل و باورز در حال حاضر نشان می دهد که انواع مختلف شبکه ها می توانند رفتارهای بسیار متفاوتی داشته باشند. محققان مدل زبان معمولاً با تغییر شبکه های زیربنایی مدل های خود را اصلاح می کنند و می بینند که کدام تغییرات باعث می شود مدل ها در یادگیری زبان های معمولی بهتر عمل کنند. ممکن است در عوض جستجوی تغییراتی که مدلها را در یادگیری زبانهای غیرممکن بدتر میکند، مفید باشد.
پاتس گفت: "این یک پروژه جذاب است. این کاری است که ما برای ماموریت غیرممکن 2 انجام می دهیم.»
مانند بسیاری از دنبالهها، این ماموریت دوم نیز دارای یک طرح فرعی است که از پاسخی به نتایج تیم از هانتر الهام گرفته شده است. او پیشنهاد کرد که پرش کلمه را با یک زبان مصنوعی جدید مقایسه کند که گمان می کند حتی با وجود اینکه بیشتر شبیه زبان های واقعی است، برای شبکه ها مشکل بیشتری ایجاد می کند. هانتر همچنان بیشترین همدردی را با رویکرد چامسکیایی به زبان شناسی دارد، اما خوشحال است که ادعاهایی در مورد یادگیری زبان در شبکه های عصبی به طور مستقیم آزمایش می شوند. او گفت: «من دوست دارم تحقیقات بیشتری را ببینم که دقیقاً همین نوع آزمایشها را انجام میدهند.»
کالینی و همکارانش امیدوارند که نتایج آنها الهام بخش سایر محققان برای مطالعه زبان های غیرممکن باشد. این یک زمینه غنی است، با مواد کافی برای بسیاری از مأموریت های دیگر.
فوتریل گفت: "این پتانسیل این را دارد که یک برنامه تحقیقاتی باشد که بسیاری از افراد انجام می دهند. قرار است یک ژانر باشد، نه یک فرانچایز.»