مدلهای زبانی بزرگ، موج جدیدی از عاملهای دیجیتال را برای انجام وظایف پیچیده مبتنی بر وب تقویت میکنند. انتظار میرود این عاملها دستورالعملهای کاربر را تفسیر کنند، در رابطهای کاربری حرکت کنند و دستورات پیچیده را در محیطهای دائماً در حال تغییر اجرا نمایند. دشواری کار نه در درک زبان، بلکه در ترجمه آن درک به اقدامات دقیق و متوالی و همچنین سازگاری با زمینههای پویا نهفته است. موفقیت در وظایف بلندمدت مانند رزرو سفر یا بازیابی دادههای خاص وب به مدیریت دنبالهای از مراحل بستگی دارد که با هر اقدام تکامل مییابد. علیرغم پیشرفتهای عمده در قابلیتهای زبانی، ایجاد عاملهایی که بتوانند بهطور مؤثر در هر مرحله برنامهریزی کرده و سازگار شوند، همچنان یک مشکل حلنشده باقی مانده است.
تبدیل اهداف کلی به مراحل عملی، یک مسئله اساسی در ساخت چنین عاملهایی است. هنگامی که کاربر درخواست میکند «برترین مشارکتکننده این پروژه گیتهاب را دنبال کن»، عامل باید فرمان را تفسیر کرده و تعیین کند که چگونه به بخش مشارکتکنندگان برود، فرد مربوطه را شناسایی کند و اقدام دنبال کردن را آغاز نماید. این وظیفه در محیطهای پویا که محتوا ممکن است بین اجراها تغییر کند، حتی پیچیدهتر میشود. بدون یک استراتژی روشن برنامهریزی و بهروزرسانی، عاملها میتوانند تصمیمات متناقضی بگیرند یا کاملاً شکست بخورند. کمبود دادههای آموزشی که نشان دهد چگونه وظایف طولانی را بهدرستی برنامهریزی و اجرا کرد، لایه دیگری از دشواری را اضافه میکند.
پیش از این، محققان سعی کردند این مسائل را با مدلهایی حل کنند که یا به استراتژیهای تکعاملی متکی بودند یا از یادگیری تقویتی برای هدایت اقدامات استفاده میکردند. سیستمهای تکعاملی مانند ReAct تلاش کردند تا استدلال و اجرا را ادغام کنند، اما اغلب به دلیل اینکه مدل تحت فشار تفکر و عمل همزمان قرار میگرفت، دچار مشکل میشدند. رویکردهای یادگیری تقویتی امیدوارکننده بودند، اما ناپایدار و بسیار حساس به تنظیمات خاص محیط ثابت شدند. جمعآوری دادههای آموزشی برای این روشها نیازمند تعامل گسترده با محیطها بود که آن را زمانبر و غیرعملی برای مقیاسپذیری میکرد. این روشها همچنین در حفظ ثبات عملکرد هنگام تغییر وظایف در اواسط فرآیند، با مشکل مواجه بودند.
محققانی از دانشگاه کالیفرنیا برکلی، دانشگاه توکیو و ICSI سیستم جدید PLAN-AND-ACT را معرفی کردند. شرکتهایی مانند اپل، انویدیا، مایکروسافت و اینتل از این کار حمایت کردند. این چارچوب، برنامهریزی وظیفه و اجرا را به دو ماژول تقسیم میکند: یک برنامهریز (PLANNER) و یک اجراکننده (EXECUTOR). برنامهریز وظیفه دارد بر اساس درخواست کاربر یک برنامه ساختاریافته ایجاد کند، که اساساً مشخص میکند چه مراحلی باید انجام شود. سپس اجراکننده هر مرحله را به اقدامات خاص محیط ترجمه میکند. با جدا کردن این مسئولیتها، سیستم به برنامهریز اجازه میدهد تا بر استراتژی تمرکز کند در حالی که اجراکننده، اجرا را مدیریت میکند و قابلیت اطمینان هر دو مؤلفه را بهبود میبخشد. این طراحی ماژولار نشاندهنده یک تغییر قابل توجه نسبت به رویکردهای قبلی است.
روششناسی پشت PLAN-AND-ACT جزئیات دقیقی دارد و به شدت بر آموزش مقیاسپذیر تمرکز میکند. از آنجایی که دادههای برنامهریزی با حاشیهنویسی انسانی محدود است، محققان یک خط لوله تولید داده مصنوعی را معرفی کردند. آنها با جمعآوری مسیرهای اقدام از عاملهای شبیهسازیشده - دنبالهای از کلیکها، ورودیها و پاسخها - شروع کردند. سپس مدلهای زبانی بزرگ این مسیرها را تجزیه و تحلیل کردند تا برنامههای سطح بالا را بر اساس نتایج واقعی بازسازی کنند. به عنوان مثال، یک برنامه ممکن است شناسایی برترین مشارکتکننده را مشخص کند، در حالی که اقدامات مرتبط با آن شامل کلیک کردن روی تب «مشارکتکنندگان» و تجزیه HTML حاصل است. این تیم مجموعه داده خود را با ۱۰,۰۰۰ برنامه مصنوعی اضافی گسترش داد و سپس ۵,۰۰۰ برنامه هدفمند دیگر را بر اساس تحلیل شکستها تولید کرد. این روش آموزش مصنوعی باعث صرفهجویی در زمان شد و دادههای با کیفیت بالا تولید کرد که نیازهای اجرایی واقعی را منعکس میکرد.
در آزمایشها، PLAN-AND-ACT به نرخ موفقیت وظیفه ۵۳.۹۴٪ در بنچمارک WebArena-Lite دست یافت که از بهترین نتیجه قبلی ۴۹.۱٪ مربوط به WebRL فراتر رفت. بدون هیچ برنامهریزی، یک اجراکننده پایه تنها به ۹.۸۵٪ دست یافت. افزودن یک برنامهریز بدون تنظیم دقیق (non-finetuned)، عملکرد را به ۲۹.۶۳٪ افزایش داد، در حالی که تنظیم دقیق بر روی ۱۰,۰۰۰ برنامه مصنوعی نتایج را به ۴۴.۲۴٪ رساند. ترکیب برنامهریزی مجدد پویا، ۱۰.۳۱٪ افزایش عملکرد نهایی را به همراه داشت. در تمام آزمایشها، دادهها نشان دادند که بیشتر بهبودهای عملکرد ناشی از بهبود برنامهریز (PLANNER) به جای اجراکننده (EXECUTOR) بوده است. حتی با یک اجراکننده پایه، داشتن یک برنامهریز قوی منجر به افزایش قابل توجه نرخ موفقیت شد، که فرضیه محققان مبنی بر اینکه جداسازی برنامهریزی و اجرا به نتایج بهتر وظیفه منجر میشود را تأیید کرد.
در نتیجه، این مقاله برجسته میکند که چگونه شناسایی شکاف بین درک هدف و تعامل با محیط میتواند به سیستمهای هوش مصنوعی مؤثرتر منجر شود. با تمرکز بر برنامهریزی ساختاریافته و تولید دادههای مقیاسپذیر، محققان روشی را پیشنهاد کردند که یک مشکل خاص را حل میکند و چارچوبی را نشان میدهد که میتواند به کاربردهای گستردهتری تعمیم یابد. PLAN-AND-ACT نشان میدهد که برنامهریزی مؤثر، و نه فقط اجرا، برای موفقیت عامل هوش مصنوعی در محیطهای پیچیده حیاتی است.
میتوانید مقاله را بررسی کنید. تمام اعتبار این تحقیق متعلق به پژوهشگران این پروژه است.