آیا مدل‌های هوش مصنوعی می‌توانند به ما نشان دهند که چگونه افراد یاد می‌گیرند؟ زبان‌های ناممکن راهی را نشان می‌دهند.

یادگیری یک زبان نمی تواند خیلی سخت باشد - هر نوزادی در جهان موفق می شود آن را در چند سال انجام دهد. فهمیدن اینکه این روند چگونه کار می کند، داستان دیگری است. زبان شناسان نظریه های مفصلی برای توضیح آن ابداع کرده اند، اما پیشرفت های اخیر در یادگیری ماشین یک پیچیدگی جدید اضافه کرده است. هنگامی که دانشمندان کامپیوتر شروع به ساخت مدل‌های زبانی کردند که ربات‌های چت مدرن مانند ChatGPT را تغذیه می‌کنند، دهه‌ها تحقیق در زبان‌شناسی را کنار گذاشتند و به نظر می‌رسید که قمار آنها نتیجه داده است. اما آیا واقعاً ساخته های آنها در حال یادگیری هستند؟

تال لینزن، زبان‌شناس محاسباتی در دانشگاه نیویورک، گفت: «حتی اگر کاری انجام دهند که شبیه کاری است که یک انسان انجام می‌دهد، ممکن است این کار را به دلایل بسیار متفاوتی انجام دهند.»

این فقط یک موضوع بحث و جدل در مورد تعاریف نیست. اگر مدل‌های زبانی واقعاً در حال یادگیری زبان هستند، ممکن است محققان برای توضیح نحوه انجام این کار به نظریه‌های جدیدی نیاز داشته باشند. اما اگر مدل‌ها کاری سطحی‌تر انجام می‌دهند، شاید یادگیری ماشین هیچ بینشی برای ارائه به زبان‌شناسی نداشته باشد.

نوام چامسکی، غول حوزه زبان‌شناسی، به‌طور علنی از دیدگاه دوم دفاع کرده است. او و دو نویسنده همکارش در یک مقاله کوبنده در نیویورک تایمز در سال 2023، بسیاری از استدلال‌ها علیه مدل‌های زبانی را مطرح کردند، از جمله استدلالی که در ابتدا متناقض به نظر می‌رسد: مدل‌های زبانی به زبان‌شناسی بی‌ربط هستند زیرا آنها خیلی خوب یاد می‌گیرند. به‌طور مشخص، نویسندگان ادعا کردند که مدل‌ها می‌توانند زبان‌های «غیرممکن» - زبان‌هایی که بر اساس قوانینی متفاوت از قوانین هر زبان انسانی شناخته شده اداره می‌شوند - را به همان اندازه آسان زبان‌های ممکن بیاموزند.

به تازگی، پنج زبان شناس محاسباتی ادعای چامسکی را آزمایش کردند. آنها یک پایگاه داده متنی انگلیسی را برای تولید دوازده زبان غیرممکن تغییر دادند و دریافتند که مدل‌های زبانی در یادگیری این زبان‌ها نسبت به انگلیسی معمولی مشکل بیشتری دارند. مقاله آنها با عنوان «ماموریت: مدل‌های زبان غیرممکن» جایزه بهترین مقاله را در کنفرانس انجمن زبان‌شناسی محاسباتی سال 2024 دریافت کرد.

ادل گلدبرگ، زبان‌شناس در دانشگاه پرینستون، گفت: «این یک مقاله عالی است. این کاملاً به موقع و مهم است.» نتایج نشان می دهد که مدل های زبانی ممکن است پس از همه ابزارهای مفیدی برای محققانی باشند که به دنبال درک زمزمه های نوزادان هستند.

موانع زبانی

در نیمه اول قرن بیستم، بیشتر زبان شناسان به فهرست نویسی زبان های جهان علاقه داشتند. سپس، در اواخر دهه 1950، چامسکی رویکردی جایگزین را هدایت کرد. او از ایده های علوم کامپیوتر نظری و منطق ریاضی در تلاشی بلندپروازانه برای کشف ساختار جهانی زیربنای همه زبانها استفاده کرد.

چامسکی استدلال کرد که انسان ها باید یک ماشین ذهنی ذاتی داشته باشند که به طور خاص به پردازش زبان اختصاص داده شده است. این امر بسیاری از رازهای بزرگ در زبان شناسی را توضیح می دهد، از جمله این مشاهده که برخی از قواعد دستوری ساده هرگز در هیچ زبان شناخته شده ای ظاهر نمی شوند.

چامسکی استدلال کرد که اگر یادگیری زبان به همان روش سایر انواع یادگیری کار می کرد، برخی از قواعد دستوری را بر سایرین ترجیح نمی داد. اما اگر زبان واقعاً خاص باشد، این دقیقاً همان چیزی است که شما انتظار دارید: هر سیستم تخصصی پردازش زبان لزوماً انسان ها را به سمت زبان های خاصی سوق می دهد و زبان های دیگر را غیرممکن می کند.

تیم هانتر، زبان‌شناس در دانشگاه کالیفرنیا، لس‌آنجلس، گفت: «واقعاً منطقی نیست که بگوییم انسان‌ها برای یادگیری چیزهای خاصی سیم‌کشی شده‌اند بدون اینکه بگوییم برای یاد نگرفتن چیزهای دیگر نیز سیم‌کشی شده‌اند.»

رویکرد چامسکی به سرعت به جریان اصلی تحقیقات زبان‌شناسی نظری تبدیل شد. این وضعیت به مدت نیم قرن ادامه داشت. سپس انقلاب یادگیری ماشین فرا رسید.

ظهور ماشین ها

مدل‌های زبانی بر اساس ساختارهای ریاضی به نام شبکه‌های عصبی هستند که داده‌ها را بر اساس ارتباط بین نورون‌های تشکیل‌دهنده خود پردازش می‌کنند. قدرت هر اتصال با یک عدد به نام وزن آن سنجیده می شود. برای ساخت یک مدل زبانی، محققان ابتدا نوع خاصی از شبکه عصبی را انتخاب می کنند و سپس به طور تصادفی به اتصالات وزن می دهند. در نتیجه، مدل زبانی در ابتدا مزخرف می گوید. سپس محققان مدل را برای پیش‌بینی، یک کلمه در یک زمان، نحوه ادامه جملات آموزش می‌دهند. آنها این کار را با تغذیه مدل با انبوهی از متن انجام می دهند. هر بار که مدل یک بلوک متن را می بیند، پیش بینی برای کلمه بعدی را ارائه می دهد، سپس این خروجی را با متن واقعی مقایسه می کند و اتصالات بین نورون ها را برای بهبود پیش بینی های خود تغییر می دهد. پس از تغییرات بسیار کوچک، یاد می گیرد جملات روان و عجیب و غریبی تولید کند.

مدل‌های زبانی و انسان‌ها از جهات آشکاری با هم تفاوت دارند. برای مثال، مدل‌های پیشرفته باید روی تریلیون‌ها کلمه آموزش داده شوند، که بسیار بیشتر از آن چیزی است که هر انسانی در طول عمر خود می‌بیند. با این وجود، مدل‌های زبانی ممکن است یک مورد آزمایشی جدید برای یادگیری زبان ارائه دهند - موردی که محدودیت‌های اخلاقی در آزمایش‌ها با نوزادان انسانی را دور می‌زند.

ایزابل پاپادیمیترو، زبان‌شناس محاسباتی در دانشگاه هاروارد و یکی از نویسندگان مقاله جدید، گفت: «هیچ مدل حیوانی از زبان وجود ندارد. مدل‌های زبانی اولین چیزی هستند که می‌توانیم به هر روش مداخله‌ای روی آن‌ها آزمایش کنیم.»

این واقعیت که مدل‌های زبانی اصلاً کار می‌کنند، دلیلی است بر اینکه چیزی شبیه به یادگیری زبان می‌تواند بدون هیچ یک از ماشین‌های تخصصی که چامسکی پیشنهاد کرده است، اتفاق بیفتد. سیستم های مبتنی بر شبکه های عصبی در بسیاری از کارهایی که کاملاً نامربوط به پردازش زبان هستند موفقیت چشمگیری داشته اند و رویه آموزشی آنها همه چیزهایی را که زبان شناسان در مورد ساختار پیچیده جملات آموخته اند نادیده می گیرد.

جف میچل، زبان شناس محاسباتی در دانشگاه ساسکس، گفت: «شما فقط می گویید، 'من این کلمات را دیده ام؛ بعدش چی می آید،' که یک روش بسیار خطی برای فکر کردن در مورد زبان است.»

جف میچل با یک تی شرت مشکی در مقابل یک ساختمان آجری — در سال 2020، جف میچل بررسی کرد که چگونه یک نوع شبکه عصبی می تواند زبان های غیرممکن را بیاموزد. استوارت رابینسون

در سال 2020، میچل و جفری باورز، روانشناس در دانشگاه بریستول، تصمیم گرفتند بررسی کنند که چگونه روش غیرعادی مدل های زبانی در یادگیری بر توانایی آنها در تسلط بر زبان های غیرممکن تأثیر می گذارد. اختراع یک زبان جدید از ابتدا متغیرهای کنترل نشده زیادی را معرفی می کند: اگر مدلی در یادگیری زبان مصنوعی بهتر یا بدتر بود، مشخص کردن دلیل آن دشوار خواهد بود. در عوض، میچل و باورز با دستکاری مجموعه داده متنی انگلیسی به روش‌های مختلف برای ایجاد سه زبان مصنوعی منحصربه‌فرد که تحت قوانین عجیب و غریب اداره می‌شوند، کنترلی برای آزمایش خود ابداع کردند. برای ساخت یک زبان، به عنوان مثال، آنها هر جمله انگلیسی را به طور تصادفی از وسط به دو قسمت تقسیم کردند و ترتیب کلمات را در قسمت دوم معکوس کردند.

میچل و باورز با چهار کپی یکسان از یک مدل زبانی آموزش ندیده شروع کردند. سپس هر یک را روی مجموعه داده متفاوتی آموزش دادند - سه زبان غیرممکن و انگلیسی اصلاح نشده. در نهایت، آنها به هر مدل یک آزمون گرامر دادند که شامل جملات جدیدی از زبانی بود که روی آن آموزش دیده بود.

مدل های آموزش دیده روی زبان های غیرممکن از دستور زبان پیچیده ناامید نشدند. آنها تقریباً به اندازه مدلی که روی انگلیسی آموزش دیده بود دقیق بودند.

به نظر می رسید مدل های زبانی می توانند کارهای غیرممکن را انجام دهند. چامسکی و همکارانش در مقاله سال 2023 خود به این نتایج استناد کردند و استدلال کردند که مدل‌های زبانی ذاتاً قادر به تشخیص بین زبان‌های ممکن و حتی کاریکاتوری‌ترین زبان‌های غیرممکن نیستند. پس دیگر تمام شد. پرونده بسته شد، درسته؟

داستان پیچیده می شود

جولی کالینی خیلی مطمئن نبود. در آگوست 2023 بود و او به تازگی تحصیلات تکمیلی خود را در رشته علوم کامپیوتر در دانشگاه استنفورد آغاز کرده بود. انتقادات چامسکی از مدل های زبانی اغلب در بحث های غیررسمی بین همکارانش مطرح می شد. اما وقتی کالینی به بررسی این موضوع پرداخت، متوجه شد که از زمان مقاله میچل و باورز در سه سال قبل، هیچ کار تجربی روی زبان های غیرممکن انجام نشده است. او مقاله را جذاب یافت اما فکر کرد که ادعای گسترده چامسکی به شواهد بیشتری نیاز دارد. قرار بود این ادعا در مورد همه مدل‌های زبانی صدق کند، اما میچل و باورز فقط نوع قدیمی‌تری از شبکه عصبی را آزمایش کرده بودند که امروزه کمتر محبوب است. برای کالینی، ماموریت واضح بود: ادعای چامسکی را با مدل های مدرن آزمایش کنید.

کالینی با مشاور خود، کریستوفر پاتس، ملاقات کرد و یک مطالعه کامل در مورد کسب زبان های غیرممکن در شبکه های به اصطلاح ترانسفورماتور، که در قلب مدل های زبانی پیشرو امروزی قرار دارند، پیشنهاد کرد. پاتس در ابتدا فکر می‌کرد که این موضوع برای اولین پروژه کالینی به عنوان دانشجوی تحصیلات تکمیلی بسیار بلندپروازانه به نظر می‌رسد، اما او را متقاعد کرد که ارزش دنبال کردن را دارد.

او گفت: «جولی کاملاً بی امان بود.»

جولی کالینی و کریستوفر پاتس در مقابل یک قفسه کتاب پر — جولی کالینی (سمت چپ) و کریستوفر پاتس یادگیری زبان غیرممکن را با شبکه های عصبی مدرن مطالعه کردند. دیلارا سویلو

کالینی و پاتس توافق کردند که او مسئولیت آموزش مدل ها را بر عهده خواهد گرفت. اما ابتدا باید مشخص می کردند که کدام مدل های ترانسفورماتور خاص را آزمایش کنند و کدام زبان ها را مطالعه کنند. برای این کار، پاپادیمیترو و دو زبان شناس محاسباتی دیگر - ریچارد فوتریل، در دانشگاه کالیفرنیا، ایروین و کایل ماهولد از دانشگاه تگزاس، آستین را وارد کار کردند. این تیم تصمیم گرفت از شبکه های ترانسفورماتور نسبتاً کوچکی الگوبرداری شده از GPT-2، یکی از پیشینیان مدل زبانی که ChatGPT را پشتیبانی می کند، استفاده کند. شبکه های کوچکتر به داده های آموزشی کمتری نیاز دارند، بنابراین کمی شبیه تر به انسان هستند. شاید آنها با ترجیح دادن زبان های ممکن بر زبان های غیرممکن، شبیه انسان ها هم باشند؟

کالینی به زودی فهمید که همه چنین فکری نمی کنند. همکاران او در بخش علوم کامپیوتر استنفورد به سختی نسبت به یادگیری ماشین بدبین بودند، اما بسیاری از آنها همچنان در بحث زبان غیرممکن طرف چامسکی بودند.

او گفت: «بسیاری از مردم شرط می‌بستند که ترانسفورماتور می‌تواند هر چیزی را یاد بگیرد.»

کایل ماهولد، ایزابل پاپادیمیترو و ریچارد فوتریل در حال نگاه کردن به لپ تاپ روی یک سطح سیاه هستند — از چپ: کایل ماهولد، ایزابل پاپادیمیترو و ریچارد فوتریل برای طراحی زبان های غیرممکن برای آزمایش با کالینی و پاتس همکاری کردند. سمیر سینگ

این تیم دوازده زبان غیرممکن را ساختند که بیشتر آنها بر اساس روش‌های مختلفی برای جابجایی کلمات در هر جمله از یک مجموعه داده انگلیسی معمولی ساخته شده بودند. در یک مورد شدید، جابجایی تصادفی بود، اما در همه موارد دیگر، از یک الگوی ساده پیروی می کرد - به عنوان مثال، تقسیم هر جمله به گروه های سه کلمه ای مجاور و جابجایی کلمات دوم و سوم در هر گروه. آنها همچنین زبان «معکوس جزئی» را که میچل و باورز مطالعه کرده بودند، و همچنین یک زبان «معکوس کامل» را که با معکوس کردن هر جمله در داده‌های آموزشی تولید کرده بودند، در نظر گرفتند. آخرین زبان آنها، که «پرش کلمه» نام داشت، نزدیک‌ترین زبان به انگلیسی معمولی بود. این زبان فقط در نحوه تشخیص مفرد یا جمع بودن فعل متفاوت بود: به جای استفاده از یک پسوند، مانند «s» در «می‌دود»، از یک کاراکتر خاص استفاده می‌کرد که چهار کلمه پس از فعل قرار می‌گرفت. این تیم به ویژه کنجکاو بود که ببیند مدل ها چگونه با این زبان برخورد می کنند، زیرا این زبان از نمونه های کلاسیک ادبیات زبان شناسی الهام گرفته شده بود.

هانتر گفت: «به نظر نمی رسد که در مورد گفتن 'این [چیز] را چهار کلمه پایین دست از این یکی قرار دهید' چیز پیچیده ای وجود داشته باشد. با این حال، هیچ زبان انسانی به نظر نمی رسد از این نوع الگو پیروی کند.»

مارک بلان/مجله کوانتا

همه زبان های غیرممکن، ساختار زبانی انگلیسی را به درجات مختلف مختل می کردند، اما جدا از جابجایی تصادفی، همگی اطلاعات یکسانی را منتقل می کردند (به معنای خاص نظری). فوتریل گفت: «در اصل، یک پیش‌بینی‌کننده قدرتمند هیچ مشکلی با زبان‌های غیرممکن نسبت به زبان ممکن نخواهد داشت.»

کالینی و همکارانش با چندین کپی از یک شبکه ترانسفورماتور شروع کردند و هر یک را روی زبان متفاوتی آموزش دادند و به طور دوره ای آموزش را متوقف می کردند تا توانایی پیش بینی کلمات هر مدل را آزمایش کنند. همه آنها در طول زمان بهتر شدند. حتی در مورد شدید جابجایی تصادفی، مدل همچنان می توانست یاد بگیرد که «the» کلمه رایج تری نسبت به «غیرممکن» است. اما مدلی که روی متن انگلیسی تغییر نکرده آموزش داده شده بود، بسیار سریعتر یاد گرفت و در پایان بهتر از همه مدل‌های دیگر عمل کرد، با یک استثناء: مدلی که روی پرش کلمه آموزش داده شده بود، که برخی از پسوندهای فعل را با کاراکترهای خاص در چهار کلمه دورتر جایگزین می کند، تقریباً به همان خوبی عمل کرد.

این تعجب آور نبود - به هر حال، تمایز ظریف بین این زبان و انگلیسی معمولی برای بیشتر پیش بینی های کلمه مهم نیست. اما وقتی آنها مدل های آموزش دیده روی این دو زبان را با آزمایشی مقایسه کردند که برای تعیین دقیق تمایز طراحی شده بود، تفاوت روشنی را مشاهده کردند. بار دیگر، تسلط بر زبان غیرممکن بسیار سخت‌تر بود.

این یک چرخش داستانی کلاسیک بود - مدل‌های زبانی چندان همه‌کاره نبودند.

آیا ماموریت به پایان رسید؟

نتایج نشان می دهد که مدل های زبانی، مانند انسان ها، ترجیح می دهند برخی از الگوهای زبانی را بر سایرین یاد بگیرند. ترجیحات آنها تا حدی شبیه به ترجیحات انسانی است، اما لزوماً یکسان نیستند، و این هنوز ممکن است که جنبه هایی از نظریه های چامسکی در نحوه یادگیری انسان ها نقش داشته باشد. مغز انسان و شبکه های عصبی هر کدام آنقدر پیچیده هستند که درک تفاوت آنها - به ویژه وقتی صحبت از کاری به ظرافت یادگیری زبان باشد - می تواند ناامیدکننده به نظر برسد. عنوان مقاله "ماموریت: مدل های زبان غیرممکن" به بیش از یک روش مناسب است.

اما مانند قهرمانان اکشن، محققان عادت دارند ماموریت های به ظاهر غیرممکن را بپذیرند و راه های خلاقانه ای برای پیشرفت پیدا کنند. کالینی و همکارانش یک اصل ساده به نام «محلی بودن اطلاعات» را مشخص کردند که توضیح می‌دهد چرا مدل‌هایشان برخی از زبان‌های غیرممکن را سخت‌تر از بقیه می‌دانستند. این اصل ممکن است برای کسب زبان انسانی نیز مرتبط باشد. نتایج آنها در حال حاضر چندین پیشنهاد مشخص برای مطالعات بعدی را برانگیخته است.

رایان نفدت، فیلسوف علوم شناختی در دانشگاه کیپ تاون در آفریقای جنوبی، گفت: «این چیزی است که من واقعاً در مورد مقاله دوست دارم. این مقاله بسیاری از راه ها و سؤالات مختلف را باز می کند.»

یک رویکرد امیدوارکننده، بررسی نحوه تأثیر یادگیری زبان غیرممکن بر جزئیات طراحی شبکه عصبی است. نتایج منفی آزمایش های قبلی میچل و باورز در حال حاضر نشان می دهد که انواع مختلف شبکه ها می توانند رفتارهای بسیار متفاوتی داشته باشند. محققان مدل زبان معمولاً با تغییر شبکه های زیربنایی مدل های خود را اصلاح می کنند و می بینند که کدام تغییرات باعث می شود مدل ها در یادگیری زبان های معمولی بهتر عمل کنند. ممکن است در عوض جستجوی تغییراتی که مدل‌ها را در یادگیری زبان‌های غیرممکن بدتر می‌کند، مفید باشد.

پاتس گفت: "این یک پروژه جذاب است. این کاری است که ما برای ماموریت غیرممکن 2 انجام می دهیم.»

مانند بسیاری از دنباله‌ها، این ماموریت دوم نیز دارای یک طرح فرعی است که از پاسخی به نتایج تیم از هانتر الهام گرفته شده است. او پیشنهاد کرد که پرش کلمه را با یک زبان مصنوعی جدید مقایسه کند که گمان می کند حتی با وجود اینکه بیشتر شبیه زبان های واقعی است، برای شبکه ها مشکل بیشتری ایجاد می کند. هانتر همچنان بیشترین همدردی را با رویکرد چامسکیایی به زبان شناسی دارد، اما خوشحال است که ادعاهایی در مورد یادگیری زبان در شبکه های عصبی به طور مستقیم آزمایش می شوند. او گفت: «من دوست دارم تحقیقات بیشتری را ببینم که دقیقاً همین نوع آزمایش‌ها را انجام می‌دهند.»

کالینی و همکارانش امیدوارند که نتایج آنها الهام بخش سایر محققان برای مطالعه زبان های غیرممکن باشد. این یک زمینه غنی است، با مواد کافی برای بسیاری از مأموریت های دیگر.

فوتریل گفت: "این پتانسیل این را دارد که یک برنامه تحقیقاتی باشد که بسیاری از افراد انجام می دهند. قرار است یک ژانر باشد، نه یک فرانچایز.»