تصویری از رویکرد PAPRIKA در عمل.
تصویری از رویکرد PAPRIKA در عمل.

محققان دانشگاه کارنگی ملون PAPRIKA را معرفی کردند: رویکردی دقیق برای تنظیم مدل‌های زبانی که قابلیت‌های تصمیم‌گیری عمومی را توسعه می‌دهد و محدود به محیط خاصی نیست

در چشم‌انداز هوش مصنوعی که به سرعت در حال تحول است، یکی از چالش‌های همیشگی، مجهز کردن مدل‌های زبانی به قابلیت‌های تصمیم‌گیری قوی است که فراتر از تعاملات تک‌مرحله‌ای باشد. مدل‌های بزرگ زبانی (LLMs) سنتی در تولید پاسخ‌های منسجم عالی هستند، اما اغلب با حل مسائل چند مرحله‌ای یا تعامل با محیط‌های پویا مشکل دارند. این کاستی عمدتاً از ماهیت داده‌های آموزشی ناشی می‌شود، که به ندرت تجربیات ساختاریافته و تعاملی مورد نیاز سناریوهای دنیای واقعی را منعکس می‌کند. علاوه بر این، استقرار مستقیم مدل‌ها برای جمع‌آوری داده‌های تعامل در دنیای واقعی می‌تواند هم پرهزینه و هم پرخطر باشد. از این رو، نیاز آشکاری به روش‌هایی وجود دارد که به LLM‌ها آموزش دهد تا به شیوه‌ای ایمن و کنترل‌شده، به کاوش، جمع‌آوری اطلاعات مرتبط و تصمیم‌گیری‌های متفکرانه و متوالی بپردازند.

در پاسخ به این چالش‌ها، پژوهشگران دانشگاه کارنگی ملون رویکردی به نام PAPRIKA را توسعه داده‌اند. این روش برای اعطای قابلیت‌های تصمیم‌گیری عمومی به مدل‌های زبانی طراحی شده است که به هیچ محیط واحدی محدود نمی‌شود. PAPRIKA به جای اتکا به داده‌های آموزشی سنتی، از داده‌های تعاملی مصنوعی تولید شده در مجموعه‌ای متنوع از وظایف بهره می‌برد. این وظایف از بازی‌های حدس‌زدنی کلاسیک مانند بیست سوالی تا پازل‌هایی مانند مسترمایند و حتی سناریوهای شبیه‌سازی تعاملات خدمات مشتری را شامل می‌شود. با آموزش بر روی این مسیرهای متنوع، مدل یاد می‌گیرد که رفتار خود را بر اساس بازخورد متنی از محیط خود تنظیم کند - بدون نیاز به به‌روزرسانی‌های گرادیان اضافی. این رویکرد مدل را تشویق می‌کند تا یک استراتژی یادگیری درون متنی انعطاف‌پذیرتر را اتخاذ کند که می‌تواند برای طیف وسیعی از وظایف جدید اعمال شود.

جزئیات فنی و مزایا

روش PAPRIKA بر روی یک فرآیند تنظیم دقیق دو مرحله‌ای ساخته شده است. مرحله اول شامل قرار دادن LLM در معرض مجموعه بزرگی از مسیرهای مصنوعی تولید شده با استفاده از روشی به نام نمونه‌برداری Min-p است که تضمین می‌کند داده‌های آموزشی هم متنوع و هم منسجم باشند. این مرحله به مدل اجازه می‌دهد تا طیف گسترده‌ای از استراتژی‌های تعامل، از جمله رفتارهای تصمیم‌گیری موفق و کم‌اثر را تجربه کند. مرحله دوم مدل را با استفاده از ترکیبی از تنظیم دقیق تحت نظارت (SFT) و یک هدف بهینه‌سازی ترجیح مستقیم (DPO) بهبود می‌بخشد. در این راه‌اندازی، جفت‌هایی از مسیرها مقایسه می‌شوند و مدل به تدریج یاد می‌گیرد که مسیرهایی را که مستقیماً به موفقیت وظیفه منجر می‌شوند، ترجیح دهد.

با درک این که همه وظایف به یک اندازه چالش‌برانگیز نیستند، PAPRIKA همچنین یک استراتژی یادگیری برنامه‌ریزی شده را ادغام می‌کند. این مولفه به صورت پویا وظایف را بر اساس پتانسیل آن‌ها برای ارائه تجربیات یادگیری معنادار انتخاب می‌کند. با اولویت‌بندی وظایفی که سیگنال‌های یادگیری غنی‌تری ارائه می‌دهند، این رویکرد کارایی داده‌ها را افزایش می‌دهد و به مدل کمک می‌کند تا استراتژی‌های تصمیم‌گیری خود را بهتر تعمیم دهد. ترکیب این روش‌ها منجر به یک مدل پالایش شده می‌شود که در تصمیم‌گیری متوالی در زمینه‌های مختلف مهارت دارد.

تجسم فرآیند تنظیم دقیق دو مرحله‌ای در PAPRIKA
تجسم فرآیند تنظیم دقیق دو مرحله‌ای در PAPRIKA.

نتایج و بینش‌ها

مزایای عملی روش PAPRIKA در نتایج تجربی آن مشهود است. در یک مثال گویا، این رویکرد برای یک وظیفه انتخاب بهترین بازوی بندیت (bandit best arm selection) به کار گرفته شد – سناریویی که نیازمند تخصیص دقیق بودجه نمونه‌برداری محدود برای شناسایی امیدوارکننده‌ترین گزینه است. در اینجا، PAPRIKA میانگین نرخ موفقیت را به طور قابل توجهی افزایش داد و بهبود چشمگیری در تصمیم‌گیری استراتژیک نشان داد. به طور کلی، هنگامی که مدل بر روی مسیرهایی از مجموعه‌ای از ده گروه وظیفه متنوع آموزش داده شد، عملکرد کلی آن در مقایسه با مدل پایه تقریباً 47٪ بهبود یافت که با تقریباً 22500 مسیر آموزشی به دست آمد.

بهبود عملکرد PAPRIKA در گروه‌های وظیفه متنوع
بهبود عملکرد PAPRIKA در گروه‌های وظیفه متنوع.

آزمایش‌های بیشتر با استفاده از ارزیابی حذف یک گروه (leave-one-out) نشان داد که استراتژی‌های تصمیم‌گیری آموخته شده از طریق PAPRIKA می‌توانند به وظایف دیده نشده قبلی تعمیم داده شوند. به عنوان مثال، هنگامی که مدل بر روی همه گروه‌های وظیفه به جز یک گروه آموزش داده شد، همچنان در گروه حذف شده عملکرد رقابتی داشت. این یافته نشان می‌دهد که استراتژی‌های توسعه‌یافته از طریق این روش تنظیم دقیق، به طور خاص برای وظایف خاص طراحی نشده‌اند، بلکه می‌توانند در سناریوهای مختلف تصمیم‌گیری منتقل شوند. علاوه بر این، مطالعه‌ای که شامل یادگیری برنامه‌ریزی شده بود، نشان داد که نمونه‌برداری انتخابی از وظایف آموزشی با توجه به دشواری آن‌ها می‌تواند بهبودهای بیشتری را به همراه داشته باشد، که ارزش یک رویکرد متناسب و مبتنی بر داده را برای انتخاب وظیفه تقویت می‌کند.

نتیجه‌گیری

به طور خلاصه، PAPRIKA یک رویکرد متفکرانه و سنجیده برای پر کردن شکاف بین درک زبان ایستا و تصمیم‌گیری پویا و متوالی است. با استفاده از داده‌های تعاملی مصنوعی و به کارگیری یک فرآیند تنظیم دقیق دو مرحله‌ای که با دقت طراحی شده و با یادگیری برنامه‌ریزی شده تقویت شده است، محققان CMU نشان داده‌اند که LLM‌ها می‌توانند به تصمیم‌گیرندگان سازگارتر تبدیل شوند. این روش، به جای توسل به تنظیم خاص وظیفه، مدل‌ها را برای درگیر شدن در چالش‌های جدید با حداقل آموزش اضافی آماده می‌کند.

قابلیت تعامل با محیط‌های خارجی، جمع‌آوری اطلاعات مرتبط و تنظیم تصمیمات بر اساس بازخورد، برای هر سیستمی که برای عملکرد مستقل طراحی شده است، ضروری است. در حالی که چالش‌هایی مانند اطمینان از یک مدل شروع قوی و مدیریت هزینه‌های محاسباتی تولید داده‌های مصنوعی باقی مانده است، PAPRIKA مسیری امیدوارکننده را به سوی توسعه سیستم‌های هوش مصنوعی همه‌کاره‌تر ارائه می‌دهد. در نهایت، با پیشرفت مدل‌های ما، رویکردهایی مانند PAPRIKA برای ایجاد ابزارهایی که نه تنها در درک زبان مهارت دارند، بلکه قادر به پیمایش وظایف پیچیده تصمیم‌گیری در دنیای واقعی با ظرافت و دقت هستند، اهمیت خواهند داشت.


مقاله، صفحه گیت‌هاب و مدل را در هاگینگ فیس بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه تعلق دارد. همچنین، می‌توانید ما را در توییتر دنبال کنید و فراموش نکنید که به بیش از ۸۰ هزار عضو ساب‌ردیت یادگیری ماشین بپیوندید.