اعتبار: VentureBeat ساخته شده با Midjourney
اعتبار: VentureBeat ساخته شده با Midjourney

محققان دیپ‌سیکر و همکاران روش جدیدی برای آموزش عوامل هوش مصنوعی قابل اعتماد منتشر کردند: RAGEN

به گفته بسیاری از کارشناسان، سال ۲۰۲۵ قرار بود سال عوامل هوش مصنوعی باشد - پیاده‌سازی‌های هوش مصنوعی ویژه وظیفه که توسط مدل‌های زبانی بزرگ (LLM) و چندوجهی پیشرو مانند مدل‌های ارائه شده توسط OpenAI، Anthropic، Google و DeepSeek پشتیبانی می‌شوند.

اما طبق یک نظرسنجی اخیر که توسط VentureBeat در شبکه اجتماعی X انجام شده است، اکثر عوامل هوش مصنوعی تا کنون به عنوان خلبان‌های آزمایشی در نوعی برزخ شرکتی گیر کرده‌اند.

ممکن است کمک در راه باشد: یک تیم مشترک از دانشگاه نورث‌وسترن، مایکروسافت، استنفورد و دانشگاه واشنگتن - از جمله یک محقق سابق دیپ‌سیک به نام زیهان وانگ، که در حال حاضر در حال تکمیل دکترای علوم کامپیوتر در نورث‌وسترن است - RAGEN را معرفی کرده‌اند، یک سیستم جدید برای آموزش و ارزیابی عوامل هوش مصنوعی که امیدوارند آنها را برای استفاده در دنیای واقعی و در سطح سازمانی قابل اعتمادتر و کمتر شکننده کند.

برخلاف وظایف استاتیک مانند حل مسائل ریاضی یا تولید کد، RAGEN بر تنظیمات تعاملی چند نوبتی تمرکز دارد که در آن عوامل باید در مواجهه با عدم قطعیت، سازگار شوند، به خاطر بسپارند و استدلال کنند.

این سیستم که بر روی یک چارچوب RL سفارشی به نام StarPO (بهینه‌سازی سیاست پاداش-عملکرد-تفکر-وضعیت) ساخته شده است، بررسی می‌کند که چگونه LLMها می‌توانند از طریق تجربه به جای حفظ کردن، یاد بگیرند. تمرکز بر کل مسیرهای تصمیم‌گیری است، نه فقط پاسخ‌های یک مرحله‌ای.

StarPO در دو مرحله متناوب عمل می‌کند: یک مرحله rollout که در آن LLM توالی‌های تعامل کامل را با هدایت استدلال تولید می‌کند، و یک مرحله به‌روزرسانی که در آن مدل با استفاده از پاداش‌های تجمعی نرمال شده بهینه می‌شود. این ساختار از یک حلقه یادگیری پایدارتر و قابل تفسیرتر در مقایسه با رویکردهای بهینه‌سازی سیاست استاندارد پشتیبانی می‌کند.

نویسندگان، چارچوب را با استفاده از انواع تنظیم‌شده مدل‌های Qwen علی‌بابا، از جمله Qwen 1.5 و Qwen 2.5، پیاده‌سازی و آزمایش کردند. این مدل‌ها به عنوان LLMهای پایه برای همه آزمایش‌ها عمل کردند و به دلیل وزن‌های باز و قابلیت‌های قوی پیروی از دستورالعمل انتخاب شدند. این تصمیم، قابلیت تکرار و مقایسه‌های مبنای سازگار را در بین وظایف نمادین امکان‌پذیر کرد.

در اینجا نحوه انجام آن و آنچه که آنها یافتند آورده شده است:

تله اکو: چگونه پاداش‌های یادگیری تقویتی منجر به از دست دادن استدلال LLM می‌شود

وانگ چالش اصلی را در یک رشته X که به طور گسترده به اشتراک گذاشته شده است خلاصه کرد: چرا آموزش RL شما همیشه از بین می‌رود؟

به گفته این تیم، عوامل LLM در ابتدا پاسخ‌های نمادین و منطقی تولید می‌کنند. اما با گذشت زمان، سیستم‌های RL تمایل دارند به میانبرها پاداش دهند، که منجر به رفتارهای تکراری می‌شود که عملکرد کلی را کاهش می‌دهد - الگویی که آنها آن را "تله اکو" می‌نامند.

این پسرفت ناشی از حلقه‌های بازخوردی است که در آن عبارات یا استراتژی‌های خاص، در اوایل کار پاداش‌های بالایی کسب می‌کنند، که باعث تشویق استفاده بیش از حد و خفه کردن اکتشاف می‌شود.

وانگ خاطرنشان می‌کند که علائم قابل اندازه‌گیری هستند: صخره‌های واریانس پاداش، میخ‌های گرادیان و ناپدید شدن ردیابی‌های استدلال.

محیط‌های آزمایشی RAGEN دقیقاً در سطح سازمانی نیستند

برای مطالعه این رفتارها در یک محیط کنترل‌شده، RAGEN عوامل را در سه محیط نمادین ارزیابی می‌کند:

  • Bandit: یک وظیفه تک نوبتی و تصادفی که استدلال خطر-پاداش نمادین را آزمایش می‌کند.
  • Sokoban: یک پازل چند نوبتی و قطعی شامل تصمیمات غیرقابل برگشت.
  • Frozen Lake: یک وظیفه تصادفی و چند نوبتی که نیاز به برنامه‌ریزی تطبیقی دارد.

هر محیط به گونه‌ای طراحی شده است که پیشینه‌های دنیای واقعی را به حداقل برساند و صرفاً بر استراتژی‌های تصمیم‌گیری توسعه‌یافته در طول آموزش متمرکز شود.

به عنوان مثال، در محیط Bandit، به عوامل گفته می‌شود که بازوهای Dragon و Phoenix نشان‌دهنده توزیع‌های مختلف پاداش هستند.

به جای اینکه احتمالات به طور مستقیم به آنها گفته شود، آنها باید به طور نمادین استدلال کنند - به عنوان مثال، Dragon را به عنوان "قدرت" و Phoenix را به عنوان "امید" تفسیر کنند - تا نتایج را پیش‌بینی کنند. این نوع تنظیمات، مدل را تحت فشار قرار می‌دهد تا استدلال قابل توضیح و قیاسی تولید کند.

تثبیت یادگیری تقویتی با StarPO-S

برای رفع مشکل فروپاشی آموزش، محققان StarPO-S را معرفی کردند، یک نسخه تثبیت‌شده از چارچوب اصلی. StarPO-S شامل سه مداخله کلیدی است:

  1. فیلتر کردن rollout مبتنی بر عدم قطعیت: اولویت‌بندی rolloutsهایی که در آن عامل عدم قطعیت نتیجه را نشان می‌دهد.
  2. حذف جریمه KL: اجازه دادن به مدل برای انحراف آزادانه‌تر از سیاست اصلی خود و کشف رفتارهای جدید.
  3. برش PPO نامتقارن: تقویت مسیرهای با پاداش بالا بیشتر از مسیرهای با پاداش پایین برای تقویت یادگیری.

این تغییرات، فروپاشی آموزش را به تاخیر می‌اندازند یا از بین می‌برند و عملکرد را در هر سه کار بهبود می‌بخشند. همانطور که وانگ بیان کرد: "StarPO-S ... در هر 3 کار کار می‌کند. فروپاشی را برطرف می‌کند. پاداش بهتری دارد."

چه چیزی یک مدل هوش مصنوعی عامل خوب را می‌سازد؟

موفقیت آموزش RL نه تنها به معماری بستگی دارد، بلکه به کیفیت داده‌های تولید شده توسط خود عوامل نیز بستگی دارد. این تیم سه بعد را شناسایی کرد که به طور قابل توجهی بر آموزش تأثیر می‌گذارند:

  • تنوع وظایف: قرار دادن مدل در معرض طیف گسترده‌ای از سناریوهای اولیه، تعمیم را بهبود می‌بخشد.
  • دانه‌بندی تعامل: اجازه دادن به چندین عمل در هر نوبت، برنامه‌ریزی معنادارتری را امکان‌پذیر می‌کند.
  • تازگی rollout: همسو نگه داشتن داده‌های آموزشی با سیاست مدل فعلی از سیگنال‌های یادگیری منسوخ جلوگیری می‌کند.

در مجموع، این عوامل فرآیند آموزش را پایدارتر و مؤثرتر می‌کنند.

یک سایت نمایشی تعاملی که توسط محققان در Github منتشر شده است، این موضوع را به صراحت بیان می‌کند و rolloutsهای عامل را به عنوان نوبت‌های گفتگوی کامل تجسم می‌کند - نه تنها شامل اقدامات، بلکه فرآیند تفکر گام به گام که قبل از آنها انجام شده است.

به عنوان مثال، در حل یک مسئله ریاضی، یک عامل ممکن است ابتدا "فکر" کند که یک متغیر را جدا کند، سپس پاسخی مانند "x = 5" ارائه دهد. این افکار میانی قابل مشاهده و قابل ردیابی هستند، که شفافیت را به نحوه تصمیم‌گیری عوامل اضافه می‌کند.

زمانی که استدلال تمام می‌شود

در حالی که استدلال صریح عملکرد را در وظایف ساده و تک نوبتی مانند Bandit بهبود می‌بخشد، اما در طول آموزش چند نوبتی تمایل به کاهش دارد. علیرغم استفاده از اعلان‌ها و نشانه‌های ساختاریافته، ردیابی‌های استدلال اغلب کوچک می‌شوند یا ناپدید می‌شوند، مگر اینکه مستقیماً پاداش داده شوند.

این به محدودیتی در نحوه طراحی پاداش‌ها اشاره دارد: تمرکز بر تکمیل وظیفه ممکن است کیفیت فرآیند پشت آن را نادیده بگیرد. این تیم با جریمه‌های مبتنی بر قالب آزمایش کرد تا استدلال ساختاریافته‌تری را تشویق کند، اما تصدیق می‌کند که شکل‌دهی پاداش تصفیه‌شده‌تری احتمالاً مورد نیاز است.

ابزارهای باز

RAGEN، همراه با چارچوب‌های StarPO و StarPO-S آن، اکنون به عنوان یک پروژه منبع باز در https://github.com/RAGEN-AI/RAGEN در دسترس است. با این حال، در زمان نگارش این مقاله، هیچ مجوز صریحی در مخزن GitHub ذکر نشده است، که ممکن است استفاده یا توزیع مجدد توسط دیگران را محدود کند.

این سیستم یک پایه ارزشمند برای کسانی که علاقه‌مند به توسعه عوامل هوش مصنوعی هستند که بیش از تکمیل وظایف انجام می‌دهند - آنها فکر می‌کنند، برنامه‌ریزی می‌کنند و تکامل می‌یابند.

همانطور که هوش مصنوعی به سمت خودمختاری پیش می‌رود، پروژه‌هایی مانند RAGEN به روشن شدن آنچه برای آموزش مدل‌هایی لازم است که نه تنها از داده‌ها، بلکه از پیامدهای اقدامات خود نیز یاد می‌گیرند، کمک می‌کنند.

سؤالات برجسته برای پذیرش در دنیای واقعی

در حالی که مقاله RAGEN یک نقشه راه فنی مفصل را ارائه می‌دهد، چندین سؤال عملی برای کسانی که به دنبال استفاده از این روش‌ها در تنظیمات سازمانی هستند، باقی مانده است. به عنوان مثال، رویکرد RAGEN تا چه حد فراتر از وظایف نمادین و سبک‌دار قابل انتقال است؟ آیا کسب‌وکارها برای استفاده از این سیستم در گردش‌های کاری مانند پردازش فاکتور یا پشتیبانی مشتری، نیاز به طراحی محیط‌ها و عملکردهای پاداش کاملاً جدید دارند؟

یکی دیگر از زمینه‌های حیاتی، مقیاس‌پذیری است. حتی با پیشرفت‌های ارائه شده توسط StarPO-S، این مقاله تصدیق می‌کند که آموزش همچنان در نهایت در افق‌های طولانی‌تر از بین می‌رود. این سوال را مطرح می‌کند: آیا یک مسیر نظری یا عملی برای حفظ استدلال در توالی‌های وظایف باز یا به طور مداوم در حال تکامل وجود دارد؟

در زمان نگارش این مقاله، هیچ مجوز صریحی در مخزن یا مستندات GitHub RAGEN ذکر نشده است، که سؤالاتی را در مورد حقوق استفاده باز می‌گذارد.

برای بررسی این و سایر سؤالات - از جمله اینکه چگونه تصمیم‌گیرندگان غیرفنی باید مفاهیم RAGEN را تفسیر کنند - برای اطلاعات بیشتر با زیهان وانگ، نویسنده همکار، تماس گرفتم. در زمان نگارش این مقاله، پاسخی در انتظار است. در صورت دریافت هرگونه نظر، در پیگیری این مقاله گنجانده می‌شود یا به عنوان یک به‌روزرسانی ادغام می‌شود.

RAGEN نه تنها به عنوان یک مشارکت فنی، بلکه به عنوان یک گام مفهومی به سوی عوامل هوش مصنوعی خودمختارتر و با قابلیت استدلال بیشتر برجسته است. اینکه آیا این بخشی از پشته هوش مصنوعی سازمانی می‌شود یا خیر، هنوز مشخص نیست، اما بینش‌های آن در مورد پویایی یادگیری عامل، در حال حاضر به تعریف مجدد مرزهای آموزش LLM کمک می‌کند.