به گفته بسیاری از کارشناسان، سال ۲۰۲۵ قرار بود سال عوامل هوش مصنوعی باشد - پیادهسازیهای هوش مصنوعی ویژه وظیفه که توسط مدلهای زبانی بزرگ (LLM) و چندوجهی پیشرو مانند مدلهای ارائه شده توسط OpenAI، Anthropic، Google و DeepSeek پشتیبانی میشوند.
اما طبق یک نظرسنجی اخیر که توسط VentureBeat در شبکه اجتماعی X انجام شده است، اکثر عوامل هوش مصنوعی تا کنون به عنوان خلبانهای آزمایشی در نوعی برزخ شرکتی گیر کردهاند.
ممکن است کمک در راه باشد: یک تیم مشترک از دانشگاه نورثوسترن، مایکروسافت، استنفورد و دانشگاه واشنگتن - از جمله یک محقق سابق دیپسیک به نام زیهان وانگ، که در حال حاضر در حال تکمیل دکترای علوم کامپیوتر در نورثوسترن است - RAGEN را معرفی کردهاند، یک سیستم جدید برای آموزش و ارزیابی عوامل هوش مصنوعی که امیدوارند آنها را برای استفاده در دنیای واقعی و در سطح سازمانی قابل اعتمادتر و کمتر شکننده کند.
برخلاف وظایف استاتیک مانند حل مسائل ریاضی یا تولید کد، RAGEN بر تنظیمات تعاملی چند نوبتی تمرکز دارد که در آن عوامل باید در مواجهه با عدم قطعیت، سازگار شوند، به خاطر بسپارند و استدلال کنند.
این سیستم که بر روی یک چارچوب RL سفارشی به نام StarPO (بهینهسازی سیاست پاداش-عملکرد-تفکر-وضعیت) ساخته شده است، بررسی میکند که چگونه LLMها میتوانند از طریق تجربه به جای حفظ کردن، یاد بگیرند. تمرکز بر کل مسیرهای تصمیمگیری است، نه فقط پاسخهای یک مرحلهای.
StarPO در دو مرحله متناوب عمل میکند: یک مرحله rollout که در آن LLM توالیهای تعامل کامل را با هدایت استدلال تولید میکند، و یک مرحله بهروزرسانی که در آن مدل با استفاده از پاداشهای تجمعی نرمال شده بهینه میشود. این ساختار از یک حلقه یادگیری پایدارتر و قابل تفسیرتر در مقایسه با رویکردهای بهینهسازی سیاست استاندارد پشتیبانی میکند.
نویسندگان، چارچوب را با استفاده از انواع تنظیمشده مدلهای Qwen علیبابا، از جمله Qwen 1.5 و Qwen 2.5، پیادهسازی و آزمایش کردند. این مدلها به عنوان LLMهای پایه برای همه آزمایشها عمل کردند و به دلیل وزنهای باز و قابلیتهای قوی پیروی از دستورالعمل انتخاب شدند. این تصمیم، قابلیت تکرار و مقایسههای مبنای سازگار را در بین وظایف نمادین امکانپذیر کرد.
در اینجا نحوه انجام آن و آنچه که آنها یافتند آورده شده است:
تله اکو: چگونه پاداشهای یادگیری تقویتی منجر به از دست دادن استدلال LLM میشود
وانگ چالش اصلی را در یک رشته X که به طور گسترده به اشتراک گذاشته شده است خلاصه کرد: چرا آموزش RL شما همیشه از بین میرود؟
به گفته این تیم، عوامل LLM در ابتدا پاسخهای نمادین و منطقی تولید میکنند. اما با گذشت زمان، سیستمهای RL تمایل دارند به میانبرها پاداش دهند، که منجر به رفتارهای تکراری میشود که عملکرد کلی را کاهش میدهد - الگویی که آنها آن را "تله اکو" مینامند.
این پسرفت ناشی از حلقههای بازخوردی است که در آن عبارات یا استراتژیهای خاص، در اوایل کار پاداشهای بالایی کسب میکنند، که باعث تشویق استفاده بیش از حد و خفه کردن اکتشاف میشود.
وانگ خاطرنشان میکند که علائم قابل اندازهگیری هستند: صخرههای واریانس پاداش، میخهای گرادیان و ناپدید شدن ردیابیهای استدلال.
محیطهای آزمایشی RAGEN دقیقاً در سطح سازمانی نیستند
برای مطالعه این رفتارها در یک محیط کنترلشده، RAGEN عوامل را در سه محیط نمادین ارزیابی میکند:
- Bandit: یک وظیفه تک نوبتی و تصادفی که استدلال خطر-پاداش نمادین را آزمایش میکند.
- Sokoban: یک پازل چند نوبتی و قطعی شامل تصمیمات غیرقابل برگشت.
- Frozen Lake: یک وظیفه تصادفی و چند نوبتی که نیاز به برنامهریزی تطبیقی دارد.
هر محیط به گونهای طراحی شده است که پیشینههای دنیای واقعی را به حداقل برساند و صرفاً بر استراتژیهای تصمیمگیری توسعهیافته در طول آموزش متمرکز شود.
به عنوان مثال، در محیط Bandit، به عوامل گفته میشود که بازوهای Dragon و Phoenix نشاندهنده توزیعهای مختلف پاداش هستند.
به جای اینکه احتمالات به طور مستقیم به آنها گفته شود، آنها باید به طور نمادین استدلال کنند - به عنوان مثال، Dragon را به عنوان "قدرت" و Phoenix را به عنوان "امید" تفسیر کنند - تا نتایج را پیشبینی کنند. این نوع تنظیمات، مدل را تحت فشار قرار میدهد تا استدلال قابل توضیح و قیاسی تولید کند.
تثبیت یادگیری تقویتی با StarPO-S
برای رفع مشکل فروپاشی آموزش، محققان StarPO-S را معرفی کردند، یک نسخه تثبیتشده از چارچوب اصلی. StarPO-S شامل سه مداخله کلیدی است:
- فیلتر کردن rollout مبتنی بر عدم قطعیت: اولویتبندی rolloutsهایی که در آن عامل عدم قطعیت نتیجه را نشان میدهد.
- حذف جریمه KL: اجازه دادن به مدل برای انحراف آزادانهتر از سیاست اصلی خود و کشف رفتارهای جدید.
- برش PPO نامتقارن: تقویت مسیرهای با پاداش بالا بیشتر از مسیرهای با پاداش پایین برای تقویت یادگیری.
این تغییرات، فروپاشی آموزش را به تاخیر میاندازند یا از بین میبرند و عملکرد را در هر سه کار بهبود میبخشند. همانطور که وانگ بیان کرد: "StarPO-S ... در هر 3 کار کار میکند. فروپاشی را برطرف میکند. پاداش بهتری دارد."
چه چیزی یک مدل هوش مصنوعی عامل خوب را میسازد؟
موفقیت آموزش RL نه تنها به معماری بستگی دارد، بلکه به کیفیت دادههای تولید شده توسط خود عوامل نیز بستگی دارد. این تیم سه بعد را شناسایی کرد که به طور قابل توجهی بر آموزش تأثیر میگذارند:
- تنوع وظایف: قرار دادن مدل در معرض طیف گستردهای از سناریوهای اولیه، تعمیم را بهبود میبخشد.
- دانهبندی تعامل: اجازه دادن به چندین عمل در هر نوبت، برنامهریزی معنادارتری را امکانپذیر میکند.
- تازگی rollout: همسو نگه داشتن دادههای آموزشی با سیاست مدل فعلی از سیگنالهای یادگیری منسوخ جلوگیری میکند.
در مجموع، این عوامل فرآیند آموزش را پایدارتر و مؤثرتر میکنند.
یک سایت نمایشی تعاملی که توسط محققان در Github منتشر شده است، این موضوع را به صراحت بیان میکند و rolloutsهای عامل را به عنوان نوبتهای گفتگوی کامل تجسم میکند - نه تنها شامل اقدامات، بلکه فرآیند تفکر گام به گام که قبل از آنها انجام شده است.
به عنوان مثال، در حل یک مسئله ریاضی، یک عامل ممکن است ابتدا "فکر" کند که یک متغیر را جدا کند، سپس پاسخی مانند "x = 5" ارائه دهد. این افکار میانی قابل مشاهده و قابل ردیابی هستند، که شفافیت را به نحوه تصمیمگیری عوامل اضافه میکند.
زمانی که استدلال تمام میشود
در حالی که استدلال صریح عملکرد را در وظایف ساده و تک نوبتی مانند Bandit بهبود میبخشد، اما در طول آموزش چند نوبتی تمایل به کاهش دارد. علیرغم استفاده از اعلانها و نشانههای ساختاریافته، ردیابیهای استدلال اغلب کوچک میشوند یا ناپدید میشوند، مگر اینکه مستقیماً پاداش داده شوند.
این به محدودیتی در نحوه طراحی پاداشها اشاره دارد: تمرکز بر تکمیل وظیفه ممکن است کیفیت فرآیند پشت آن را نادیده بگیرد. این تیم با جریمههای مبتنی بر قالب آزمایش کرد تا استدلال ساختاریافتهتری را تشویق کند، اما تصدیق میکند که شکلدهی پاداش تصفیهشدهتری احتمالاً مورد نیاز است.
ابزارهای باز
RAGEN، همراه با چارچوبهای StarPO و StarPO-S آن، اکنون به عنوان یک پروژه منبع باز در https://github.com/RAGEN-AI/RAGEN در دسترس است. با این حال، در زمان نگارش این مقاله، هیچ مجوز صریحی در مخزن GitHub ذکر نشده است، که ممکن است استفاده یا توزیع مجدد توسط دیگران را محدود کند.
این سیستم یک پایه ارزشمند برای کسانی که علاقهمند به توسعه عوامل هوش مصنوعی هستند که بیش از تکمیل وظایف انجام میدهند - آنها فکر میکنند، برنامهریزی میکنند و تکامل مییابند.
همانطور که هوش مصنوعی به سمت خودمختاری پیش میرود، پروژههایی مانند RAGEN به روشن شدن آنچه برای آموزش مدلهایی لازم است که نه تنها از دادهها، بلکه از پیامدهای اقدامات خود نیز یاد میگیرند، کمک میکنند.
سؤالات برجسته برای پذیرش در دنیای واقعی
در حالی که مقاله RAGEN یک نقشه راه فنی مفصل را ارائه میدهد، چندین سؤال عملی برای کسانی که به دنبال استفاده از این روشها در تنظیمات سازمانی هستند، باقی مانده است. به عنوان مثال، رویکرد RAGEN تا چه حد فراتر از وظایف نمادین و سبکدار قابل انتقال است؟ آیا کسبوکارها برای استفاده از این سیستم در گردشهای کاری مانند پردازش فاکتور یا پشتیبانی مشتری، نیاز به طراحی محیطها و عملکردهای پاداش کاملاً جدید دارند؟
یکی دیگر از زمینههای حیاتی، مقیاسپذیری است. حتی با پیشرفتهای ارائه شده توسط StarPO-S، این مقاله تصدیق میکند که آموزش همچنان در نهایت در افقهای طولانیتر از بین میرود. این سوال را مطرح میکند: آیا یک مسیر نظری یا عملی برای حفظ استدلال در توالیهای وظایف باز یا به طور مداوم در حال تکامل وجود دارد؟
در زمان نگارش این مقاله، هیچ مجوز صریحی در مخزن یا مستندات GitHub RAGEN ذکر نشده است، که سؤالاتی را در مورد حقوق استفاده باز میگذارد.
برای بررسی این و سایر سؤالات - از جمله اینکه چگونه تصمیمگیرندگان غیرفنی باید مفاهیم RAGEN را تفسیر کنند - برای اطلاعات بیشتر با زیهان وانگ، نویسنده همکار، تماس گرفتم. در زمان نگارش این مقاله، پاسخی در انتظار است. در صورت دریافت هرگونه نظر، در پیگیری این مقاله گنجانده میشود یا به عنوان یک بهروزرسانی ادغام میشود.
RAGEN نه تنها به عنوان یک مشارکت فنی، بلکه به عنوان یک گام مفهومی به سوی عوامل هوش مصنوعی خودمختارتر و با قابلیت استدلال بیشتر برجسته است. اینکه آیا این بخشی از پشته هوش مصنوعی سازمانی میشود یا خیر، هنوز مشخص نیست، اما بینشهای آن در مورد پویایی یادگیری عامل، در حال حاضر به تعریف مجدد مرزهای آموزش LLM کمک میکند.