این مقاله هوش مصنوعی PLAN-AND-ACT را معرفی می‌کند: یک چارچوب ماژولار برای برنامه‌ریزی بلندمدت در عامل‌های زبان مبتنی بر وب

مدل‌های زبانی بزرگ، موج جدیدی از عامل‌های دیجیتال را برای انجام وظایف پیچیده مبتنی بر وب تقویت می‌کنند. انتظار می‌رود این عامل‌ها دستورالعمل‌های کاربر را تفسیر کنند، در رابط‌های کاربری حرکت کنند و دستورات پیچیده را در محیط‌های دائماً در حال تغییر اجرا نمایند. دشواری کار نه در درک زبان، بلکه در ترجمه آن درک به اقدامات دقیق و متوالی و همچنین سازگاری با زمینه‌های پویا نهفته است. موفقیت در وظایف بلندمدت مانند رزرو سفر یا بازیابی داده‌های خاص وب به مدیریت دنباله‌ای از مراحل بستگی دارد که با هر اقدام تکامل می‌یابد. علی‌رغم پیشرفت‌های عمده در قابلیت‌های زبانی، ایجاد عامل‌هایی که بتوانند به‌طور مؤثر در هر مرحله برنامه‌ریزی کرده و سازگار شوند، همچنان یک مشکل حل‌نشده باقی مانده است.

تبدیل اهداف کلی به مراحل عملی، یک مسئله اساسی در ساخت چنین عامل‌هایی است. هنگامی که کاربر درخواست می‌کند «برترین مشارکت‌کننده این پروژه گیت‌هاب را دنبال کن»، عامل باید فرمان را تفسیر کرده و تعیین کند که چگونه به بخش مشارکت‌کنندگان برود، فرد مربوطه را شناسایی کند و اقدام دنبال کردن را آغاز نماید. این وظیفه در محیط‌های پویا که محتوا ممکن است بین اجراها تغییر کند، حتی پیچیده‌تر می‌شود. بدون یک استراتژی روشن برنامه‌ریزی و به‌روزرسانی، عامل‌ها می‌توانند تصمیمات متناقضی بگیرند یا کاملاً شکست بخورند. کمبود داده‌های آموزشی که نشان دهد چگونه وظایف طولانی را به‌درستی برنامه‌ریزی و اجرا کرد، لایه دیگری از دشواری را اضافه می‌کند.

پیش از این، محققان سعی کردند این مسائل را با مدل‌هایی حل کنند که یا به استراتژی‌های تک‌عاملی متکی بودند یا از یادگیری تقویتی برای هدایت اقدامات استفاده می‌کردند. سیستم‌های تک‌عاملی مانند ReAct تلاش کردند تا استدلال و اجرا را ادغام کنند، اما اغلب به دلیل اینکه مدل تحت فشار تفکر و عمل همزمان قرار می‌گرفت، دچار مشکل می‌شدند. رویکردهای یادگیری تقویتی امیدوارکننده بودند، اما ناپایدار و بسیار حساس به تنظیمات خاص محیط ثابت شدند. جمع‌آوری داده‌های آموزشی برای این روش‌ها نیازمند تعامل گسترده با محیط‌ها بود که آن را زمان‌بر و غیرعملی برای مقیاس‌پذیری می‌کرد. این روش‌ها همچنین در حفظ ثبات عملکرد هنگام تغییر وظایف در اواسط فرآیند، با مشکل مواجه بودند.

محققانی از دانشگاه کالیفرنیا برکلی، دانشگاه توکیو و ICSI سیستم جدید PLAN-AND-ACT را معرفی کردند. شرکت‌هایی مانند اپل، انویدیا، مایکروسافت و اینتل از این کار حمایت کردند. این چارچوب، برنامه‌ریزی وظیفه و اجرا را به دو ماژول تقسیم می‌کند: یک برنامه‌ریز (PLANNER) و یک اجراکننده (EXECUTOR). برنامه‌ریز وظیفه دارد بر اساس درخواست کاربر یک برنامه ساختاریافته ایجاد کند، که اساساً مشخص می‌کند چه مراحلی باید انجام شود. سپس اجراکننده هر مرحله را به اقدامات خاص محیط ترجمه می‌کند. با جدا کردن این مسئولیت‌ها، سیستم به برنامه‌ریز اجازه می‌دهد تا بر استراتژی تمرکز کند در حالی که اجراکننده، اجرا را مدیریت می‌کند و قابلیت اطمینان هر دو مؤلفه را بهبود می‌بخشد. این طراحی ماژولار نشان‌دهنده یک تغییر قابل توجه نسبت به رویکردهای قبلی است.

روش‌شناسی پشت PLAN-AND-ACT جزئیات دقیقی دارد و به شدت بر آموزش مقیاس‌پذیر تمرکز می‌کند. از آنجایی که داده‌های برنامه‌ریزی با حاشیه‌نویسی انسانی محدود است، محققان یک خط لوله تولید داده مصنوعی را معرفی کردند. آن‌ها با جمع‌آوری مسیرهای اقدام از عامل‌های شبیه‌سازی‌شده - دنباله‌ای از کلیک‌ها، ورودی‌ها و پاسخ‌ها - شروع کردند. سپس مدل‌های زبانی بزرگ این مسیرها را تجزیه و تحلیل کردند تا برنامه‌های سطح بالا را بر اساس نتایج واقعی بازسازی کنند. به عنوان مثال، یک برنامه ممکن است شناسایی برترین مشارکت‌کننده را مشخص کند، در حالی که اقدامات مرتبط با آن شامل کلیک کردن روی تب «مشارکت‌کنندگان» و تجزیه HTML حاصل است. این تیم مجموعه داده خود را با ۱۰,۰۰۰ برنامه مصنوعی اضافی گسترش داد و سپس ۵,۰۰۰ برنامه هدفمند دیگر را بر اساس تحلیل شکست‌ها تولید کرد. این روش آموزش مصنوعی باعث صرفه‌جویی در زمان شد و داده‌های با کیفیت بالا تولید کرد که نیازهای اجرایی واقعی را منعکس می‌کرد.

در آزمایش‌ها، PLAN-AND-ACT به نرخ موفقیت وظیفه ۵۳.۹۴٪ در بنچمارک WebArena-Lite دست یافت که از بهترین نتیجه قبلی ۴۹.۱٪ مربوط به WebRL فراتر رفت. بدون هیچ برنامه‌ریزی، یک اجراکننده پایه تنها به ۹.۸۵٪ دست یافت. افزودن یک برنامه‌ریز بدون تنظیم دقیق (non-finetuned)، عملکرد را به ۲۹.۶۳٪ افزایش داد، در حالی که تنظیم دقیق بر روی ۱۰,۰۰۰ برنامه مصنوعی نتایج را به ۴۴.۲۴٪ رساند. ترکیب برنامه‌ریزی مجدد پویا، ۱۰.۳۱٪ افزایش عملکرد نهایی را به همراه داشت. در تمام آزمایش‌ها، داده‌ها نشان دادند که بیشتر بهبودهای عملکرد ناشی از بهبود برنامه‌ریز (PLANNER) به جای اجراکننده (EXECUTOR) بوده است. حتی با یک اجراکننده پایه، داشتن یک برنامه‌ریز قوی منجر به افزایش قابل توجه نرخ موفقیت شد، که فرضیه محققان مبنی بر اینکه جداسازی برنامه‌ریزی و اجرا به نتایج بهتر وظیفه منجر می‌شود را تأیید کرد.

در نتیجه، این مقاله برجسته می‌کند که چگونه شناسایی شکاف بین درک هدف و تعامل با محیط می‌تواند به سیستم‌های هوش مصنوعی مؤثرتر منجر شود. با تمرکز بر برنامه‌ریزی ساختاریافته و تولید داده‌های مقیاس‌پذیر، محققان روشی را پیشنهاد کردند که یک مشکل خاص را حل می‌کند و چارچوبی را نشان می‌دهد که می‌تواند به کاربردهای گسترده‌تری تعمیم یابد. PLAN-AND-ACT نشان می‌دهد که برنامه‌ریزی مؤثر، و نه فقط اجرا، برای موفقیت عامل هوش مصنوعی در محیط‌های پیچیده حیاتی است.

می‌توانید مقاله را بررسی کنید. تمام اعتبار این تحقیق متعلق به پژوهشگران این پروژه است.

https://www.marktechpost.com/2025/03/26/this-ai-paper-introduces-plan-and-act-a-modular-framework-for-long-horizon-planning-in-web-based-language-agents/