در چشمانداز هوش مصنوعی که به سرعت در حال تحول است، یکی از چالشهای همیشگی، مجهز کردن مدلهای زبانی به قابلیتهای تصمیمگیری قوی است که فراتر از تعاملات تکمرحلهای باشد. مدلهای بزرگ زبانی (LLMs) سنتی در تولید پاسخهای منسجم عالی هستند، اما اغلب با حل مسائل چند مرحلهای یا تعامل با محیطهای پویا مشکل دارند. این کاستی عمدتاً از ماهیت دادههای آموزشی ناشی میشود، که به ندرت تجربیات ساختاریافته و تعاملی مورد نیاز سناریوهای دنیای واقعی را منعکس میکند. علاوه بر این، استقرار مستقیم مدلها برای جمعآوری دادههای تعامل در دنیای واقعی میتواند هم پرهزینه و هم پرخطر باشد. از این رو، نیاز آشکاری به روشهایی وجود دارد که به LLMها آموزش دهد تا به شیوهای ایمن و کنترلشده، به کاوش، جمعآوری اطلاعات مرتبط و تصمیمگیریهای متفکرانه و متوالی بپردازند.
در پاسخ به این چالشها، پژوهشگران دانشگاه کارنگی ملون رویکردی به نام PAPRIKA را توسعه دادهاند. این روش برای اعطای قابلیتهای تصمیمگیری عمومی به مدلهای زبانی طراحی شده است که به هیچ محیط واحدی محدود نمیشود. PAPRIKA به جای اتکا به دادههای آموزشی سنتی، از دادههای تعاملی مصنوعی تولید شده در مجموعهای متنوع از وظایف بهره میبرد. این وظایف از بازیهای حدسزدنی کلاسیک مانند بیست سوالی تا پازلهایی مانند مسترمایند و حتی سناریوهای شبیهسازی تعاملات خدمات مشتری را شامل میشود. با آموزش بر روی این مسیرهای متنوع، مدل یاد میگیرد که رفتار خود را بر اساس بازخورد متنی از محیط خود تنظیم کند - بدون نیاز به بهروزرسانیهای گرادیان اضافی. این رویکرد مدل را تشویق میکند تا یک استراتژی یادگیری درون متنی انعطافپذیرتر را اتخاذ کند که میتواند برای طیف وسیعی از وظایف جدید اعمال شود.
جزئیات فنی و مزایا
روش PAPRIKA بر روی یک فرآیند تنظیم دقیق دو مرحلهای ساخته شده است. مرحله اول شامل قرار دادن LLM در معرض مجموعه بزرگی از مسیرهای مصنوعی تولید شده با استفاده از روشی به نام نمونهبرداری Min-p است که تضمین میکند دادههای آموزشی هم متنوع و هم منسجم باشند. این مرحله به مدل اجازه میدهد تا طیف گستردهای از استراتژیهای تعامل، از جمله رفتارهای تصمیمگیری موفق و کماثر را تجربه کند. مرحله دوم مدل را با استفاده از ترکیبی از تنظیم دقیق تحت نظارت (SFT) و یک هدف بهینهسازی ترجیح مستقیم (DPO) بهبود میبخشد. در این راهاندازی، جفتهایی از مسیرها مقایسه میشوند و مدل به تدریج یاد میگیرد که مسیرهایی را که مستقیماً به موفقیت وظیفه منجر میشوند، ترجیح دهد.
با درک این که همه وظایف به یک اندازه چالشبرانگیز نیستند، PAPRIKA همچنین یک استراتژی یادگیری برنامهریزی شده را ادغام میکند. این مولفه به صورت پویا وظایف را بر اساس پتانسیل آنها برای ارائه تجربیات یادگیری معنادار انتخاب میکند. با اولویتبندی وظایفی که سیگنالهای یادگیری غنیتری ارائه میدهند، این رویکرد کارایی دادهها را افزایش میدهد و به مدل کمک میکند تا استراتژیهای تصمیمگیری خود را بهتر تعمیم دهد. ترکیب این روشها منجر به یک مدل پالایش شده میشود که در تصمیمگیری متوالی در زمینههای مختلف مهارت دارد.
نتایج و بینشها
مزایای عملی روش PAPRIKA در نتایج تجربی آن مشهود است. در یک مثال گویا، این رویکرد برای یک وظیفه انتخاب بهترین بازوی بندیت (bandit best arm selection) به کار گرفته شد – سناریویی که نیازمند تخصیص دقیق بودجه نمونهبرداری محدود برای شناسایی امیدوارکنندهترین گزینه است. در اینجا، PAPRIKA میانگین نرخ موفقیت را به طور قابل توجهی افزایش داد و بهبود چشمگیری در تصمیمگیری استراتژیک نشان داد. به طور کلی، هنگامی که مدل بر روی مسیرهایی از مجموعهای از ده گروه وظیفه متنوع آموزش داده شد، عملکرد کلی آن در مقایسه با مدل پایه تقریباً 47٪ بهبود یافت که با تقریباً 22500 مسیر آموزشی به دست آمد.
آزمایشهای بیشتر با استفاده از ارزیابی حذف یک گروه (leave-one-out) نشان داد که استراتژیهای تصمیمگیری آموخته شده از طریق PAPRIKA میتوانند به وظایف دیده نشده قبلی تعمیم داده شوند. به عنوان مثال، هنگامی که مدل بر روی همه گروههای وظیفه به جز یک گروه آموزش داده شد، همچنان در گروه حذف شده عملکرد رقابتی داشت. این یافته نشان میدهد که استراتژیهای توسعهیافته از طریق این روش تنظیم دقیق، به طور خاص برای وظایف خاص طراحی نشدهاند، بلکه میتوانند در سناریوهای مختلف تصمیمگیری منتقل شوند. علاوه بر این، مطالعهای که شامل یادگیری برنامهریزی شده بود، نشان داد که نمونهبرداری انتخابی از وظایف آموزشی با توجه به دشواری آنها میتواند بهبودهای بیشتری را به همراه داشته باشد، که ارزش یک رویکرد متناسب و مبتنی بر داده را برای انتخاب وظیفه تقویت میکند.
نتیجهگیری
به طور خلاصه، PAPRIKA یک رویکرد متفکرانه و سنجیده برای پر کردن شکاف بین درک زبان ایستا و تصمیمگیری پویا و متوالی است. با استفاده از دادههای تعاملی مصنوعی و به کارگیری یک فرآیند تنظیم دقیق دو مرحلهای که با دقت طراحی شده و با یادگیری برنامهریزی شده تقویت شده است، محققان CMU نشان دادهاند که LLMها میتوانند به تصمیمگیرندگان سازگارتر تبدیل شوند. این روش، به جای توسل به تنظیم خاص وظیفه، مدلها را برای درگیر شدن در چالشهای جدید با حداقل آموزش اضافی آماده میکند.
قابلیت تعامل با محیطهای خارجی، جمعآوری اطلاعات مرتبط و تنظیم تصمیمات بر اساس بازخورد، برای هر سیستمی که برای عملکرد مستقل طراحی شده است، ضروری است. در حالی که چالشهایی مانند اطمینان از یک مدل شروع قوی و مدیریت هزینههای محاسباتی تولید دادههای مصنوعی باقی مانده است، PAPRIKA مسیری امیدوارکننده را به سوی توسعه سیستمهای هوش مصنوعی همهکارهتر ارائه میدهد. در نهایت، با پیشرفت مدلهای ما، رویکردهایی مانند PAPRIKA برای ایجاد ابزارهایی که نه تنها در درک زبان مهارت دارند، بلکه قادر به پیمایش وظایف پیچیده تصمیمگیری در دنیای واقعی با ظرافت و دقت هستند، اهمیت خواهند داشت.
مقاله، صفحه گیتهاب و مدل را در هاگینگ فیس بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه تعلق دارد. همچنین، میتوانید ما را در توییتر دنبال کنید و فراموش نکنید که به بیش از ۸۰ هزار عضو سابردیت یادگیری ماشین بپیوندید.