تصویر: تحقیقات جدید نشان می‌دهد که در پیش‌بینی کلمات دیگران، ساختار زبانی بزرگ‌تری را در نظر می‌گیریم و به محیط اطراف یک کلمه در گروه‌های کلمات (یک سازه) توجه می‌کنیم، نه فقط کلمه بعدی. این مشابه حالتی است که برای تصمیم‌گیری در مورد جای‌گذاری قطعه بعدی، به قطعات اطراف یک پازل نگاه می‌کنیم—و پیچیده‌تر از عملکرد قابلیت‌های متن پیش‌بین است.اعتبار: جاناتان کینگ/دانشگاه نیویورک
تصویر: تحقیقات جدید نشان می‌دهد که در پیش‌بینی کلمات دیگران، ساختار زبانی بزرگ‌تری را در نظر می‌گیریم و به محیط اطراف یک کلمه در گروه‌های کلمات (یک سازه) توجه می‌کنیم، نه فقط کلمه بعدی. این مشابه حالتی است که برای تصمیم‌گیری در مورد جای‌گذاری قطعه بعدی، به قطعات اطراف یک پازل نگاه می‌کنیم—و پیچیده‌تر از عملکرد قابلیت‌های متن پیش‌بین است.اعتبار: جاناتان کینگ/دانشگاه نیویورک

پیش‌بینی واژه محدودشده به سازه‌ها در طول درک زبان

ظهور متن پیش‌بین (predictive text) در نگارش ایمیل یا پیام‌های متنی، چه خوب و چه بد، به یک ویژگی ثابت در زندگی ما تبدیل شده است—با تکمیل بی‌درنگ کلمات قبل از اینکه ما بتوانیم آن‌ها را تایپ کنیم، در زمان ما صرفه‌جویی می‌کند یا با تکرار همین کار با یک اصطلاح نامرتبط، باعث ناامیدی ما می‌شود.

همانند سیستم‌های هوش مصنوعی به‌طور گسترده‌تر، ویژگی متن پیش‌بین در مدل‌های زبان بزرگ (LLMها) گفته می‌شود که مشابه نحوه عملکرد مغز است—در این مورد، توانایی ما برای پیش‌بینی کلمات بعدی هنگام گوش دادن به صحبت‌های دیگران.

اما در حالی که این ویژگی پیش‌بینی کلمه بعدی که انسان‌ها از آن برخوردارند به خوبی شناخته شده است، نحوه عملکرد مغز در طول این فرآیند و ملاحظاتی که در این زمینه انجام می‌دهد، کمتر روشن است. به عبارت دیگر، آیا مغز کلمات را به همان شکلی که هوش مصنوعی انجام می‌دهد، پیش‌بینی می‌کند؟

یک مطالعه تازه منتشر شده توسط تیمی از دانشمندان نشان می‌دهد که در واقع، ما کلمات را با گذراندن یک فرآیند پیچیده‌تر پیش‌بینی می‌کنیم. این تحقیق که در مجله "نیچر نوروساینس" (Nature Neuroscience) منتشر شده است، نشان می‌دهد که ما یک ساختار زبانی بزرگ‌تر را در نظر می‌گیریم و به محیط اطراف یک کلمه در گروه‌های کلمات—یک سازه (constituent)—توجه می‌کنیم، نه فقط کلمه بعدی. این مشابه حالتی است که برای تصمیم‌گیری در مورد جای‌گذاری قطعه بعدی، به قطعات اطراف یک پازل نگاه می‌کنیم.

دیوید پوپل، استاد روانشناسی و علوم اعصاب در دانشگاه نیویورک و یکی از نویسندگان این مقاله، توضیح می‌دهد: «در حالی که LLMها برای پیش‌بینی کلمه بعدی آموزش دیده و بهینه شده‌اند، مغز انسان با گروه‌بندی گرامری کلمات به عبارات، پیش‌بینی می‌کند. در LLMها، پیش‌بینی‌ها عمدتاً به یک شکل ایجاد می‌شوند: هر کلمه از زمینه پیش‌بینی‌کننده خود به یک شیوه بهره می‌برد. در مقابل، مغز انسان پیش‌بینی‌ها را ابتدا با در نظر گرفتن دسته‌هایی از کلمات—که ما آن‌ها را سازه‌های گرامری می‌نامیم—و سپس با تعیین اینکه کدام کلمات در آن ساختار بهتر پیش‌بینی می‌شوند، انجام می‌دهد.»

نحوه انجام مطالعه

این مطالعه که شامل جیاجی زو، پژوهشگر پسا‌دکترا در موسسه علوم اعصاب ارنست شترونگمان و همکار پوپل در زمان انجام مطالعه، و نای دینگ، استاد دانشگاه ژجیانگ و همکار پسا‌دکترای سابق در آزمایشگاه پوپل بود، بر مجموعه‌ای از آزمایش‌ها با افراد بومی زبان چینی ماندارین متمرکز بود. در این مطالعه از مگنتوانسفالوگرافی (MEG) برای اندازه‌گیری فعالیت مغزی شرکت‌کنندگان در حالی که در معرض جملات ماندارین قرار می‌گرفتند، استفاده شد. علاوه بر این، مطالعه از وظایف رفتاری پیش‌بینی کلمه—به‌طور خاص، آزمون‌های کلوز (Cloze tests) که پیش‌بینی زبانی را با حذف کلمات خاصی از یک متن و درخواست از شرکت‌کنندگان برای پر کردن جاهای خالی ارزیابی می‌کنند—استفاده کرد. این مطالعه همچنین داده‌های مغزی بیماران در معرض زبان انگلیسی را تجزیه و تحلیل کرد تا تأیید کند که یافته‌ها در مورد سایر زبان‌ها نیز صدق می‌کند.

محققان از LLMها برای کمی‌سازی قابلیت پیش‌بینی کلمات بر اساس «آنتروپی» و «غافلگیری» آن‌ها استفاده کردند. آنتروپی بالا نشان می‌دهد که زمینه به شدت محدودیتی برای کلمات بعدی ایجاد نمی‌کند و در نتیجه قابلیت پیش‌بینی کمتری دارد. به عنوان مثال، کلمه بعد از «من یک... دیدم» آنتروپی بالاتری نسبت به کلمه بعد از «من روی یک... نشستم» دارد، زیرا اشیاء بیشتری وجود دارد که می‌توان دید تا اینکه روی آن‌ها نشست. غافلگیری بالا نشان می‌دهد که کلمه بعدی بر اساس زمینه به خوبی انتظار نمی‌رود. به عنوان مثال، ظاهر شدن کلمه «گربه» بعد از «من روی یک... نشستم» غافلگیری بالاتری نسبت به «من یک... دیدم» دارد.

نویسندگان مطالعه سپس نحوه واکنش مغز به هر کلمه را با در نظر گرفتن سطح قابلیت پیش‌بینی کلمات بررسی کردند. به گفته محققان، مقایسه کلیدی، همبستگی واکنش‌های کلمه بین پیش‌بینی‌های داده‌های مغزی و پیش‌بینی‌های مدل LLM از همان جملات بود: اگر مغزها دقیقاً مانند دستگاه‌های پیش‌بینی کلمه بعدی، مانند LLMها، عمل کنند، این همبستگی‌ها باید به طور یکنواخت بالا باشند؛ در مقابل، واریانس نشان‌دهنده این است که فرآیند متفاوتی در حال انجام است.

یافته‌های پژوهش

نتایج نشان داد که مغز بسته به موقعیت ساختاری زبانی کلمات، واکنش‌های متفاوتی از خود نشان می‌دهد. این امر حاکی از آن بود که شرکت‌کنندگان در پیش‌بینی کلمات بعدی، سازه‌های گرامری را در نظر می‌گرفتند.

در مقابل، LLMها نیازی به چنین حساسیتی نسبت به ساختار سازه‌ای زبانی ندارند یا آن را منعکس نمی‌کنند—آن‌ها صرفاً پیش‌بینی‌هایی ارائه می‌دهند.

پوپل نتیجه‌گیری می‌کند: «مغز ما نیز، مانند سیستم‌های هوش مصنوعی، می‌تواند از پیش‌بینی کلمه بعدی بهره ببرد. با این حال، مغزها به شدت به ساختار سازه‌ای زبانی حساس هستند. این تحقیق نشان می‌دهد که پیش‌بینی کلمه بعدی توسط در نظر گرفتن "دسته‌هایی از کلمات" که به صورت گرامری سازمان‌دهی شده‌اند، تعدیل و متعادل می‌شود—که کاملاً متفاوت از نحوه عملکرد LLMها است.»