آشنایی با PC-Agent: چارچوبی برای همکاری چند عاملی سلسله مراتبی برای اتوماسیون وظایف پیچیده در رایانه شخصی

مدل‌های زبانی بزرگ چندوجهی (MLLM) قابلیت‌های چشمگیری را در حوزه‌های مختلف نشان داده‌اند و تکامل آن‌ها را به عوامل چندوجهی برای کمک به انسان سوق داده‌اند. عوامل اتوماسیون رابط کاربری گرافیکی برای رایانه‌های شخصی در مقایسه با همتایان تلفن هوشمند خود با چالش‌های بسیار دشوارتری روبرو هستند. محیط‌های رایانه شخصی عناصر تعاملی بسیار پیچیده‌تری با آیکون‌ها و ویجت‌های متراکم و متنوع ارائه می‌دهند که اغلب فاقد برچسب‌های متنی هستند و منجر به مشکلات ادراکی می‌شوند. حتی مدل‌های پیشرفته‌ای مانند Claude-3.5 تنها به دقت 24.0٪ در وظایف زمینه‌یابی رابط کاربری گرافیکی دست می‌یابند. همچنین، وظایف بهره‌وری رایانه شخصی شامل گردش‌های کاری پیچیده‌ای است که چندین برنامه را با توالی‌های طولانی عملیات و وابستگی‌های بین زیروظیفه‌ای در بر می‌گیرد و باعث کاهش چشمگیر عملکرد می‌شود به طوری که نرخ موفقیت GPT-4o از 41.8٪ در سطح زیروظیفه به تنها 8٪ برای دستورالعمل‌های کامل کاهش می‌یابد.

رویکردهای قبلی چارچوب‌هایی را برای مقابله با پیچیدگی وظایف رایانه شخصی با استراتژی‌های مختلف توسعه داده‌اند. UFO یک معماری دو عاملی را پیاده‌سازی می‌کند که انتخاب برنامه را از تعاملات کنترلی خاص جدا می‌کند. در همین حال، AgentS قابلیت‌های برنامه‌ریزی را با ترکیب جستجوی آنلاین با حافظه محلی افزایش می‌دهد. با این حال، این روش‌ها محدودیت‌های قابل توجهی را در ادراک دقیق و عملکرد متن روی صفحه نشان می‌دهند—یک نیاز حیاتی برای سناریوهای بهره‌وری مانند ویرایش اسناد. علاوه بر این، آن‌ها عموماً نمی‌توانند به وابستگی‌های پیچیده بین زیروظیفه‌ها رسیدگی کنند، که منجر به عملکرد ضعیف در هنگام مدیریت گردش‌های کاری واقع‌گرایانه درون و بین برنامه‌ای می‌شود که مشخصه استفاده روزمره از رایانه شخصی است.

محققان MAIS، موسسه اتوماسیون، آکادمی علوم چین، چین، دانشکده هوش مصنوعی، دانشگاه آکادمی علوم چین، گروه علی‌بابا، دانشگاه جیاوتونگ پکن، و دانشکده علوم و فناوری اطلاعات، دانشگاه شانگهای‌تک، چارچوب PC-Agent را برای رسیدگی به سناریوهای پیچیده رایانه شخصی از طریق سه طرح نوآورانه معرفی می‌کنند. اول، واحد ادراک فعال با استخراج مکان‌ها و معانی عناصر تعاملی از طریق درخت‌های دسترسی، تعامل دقیق را افزایش می‌دهد، در حالی که از درک هدف مبتنی بر MLLM و OCR برای محلی‌سازی دقیق متن استفاده می‌کند. دوم، همکاری چند عاملی سلسله مراتبی یک فرآیند تصمیم‌گیری سه سطحی (دستورالعمل-زیروظیفه-عمل) را پیاده‌سازی می‌کند که در آن یک عامل مدیر دستورالعمل‌ها را به زیروظیفه‌های پارامتری‌شده تجزیه می‌کند و وابستگی‌ها را مدیریت می‌کند، یک عامل پیشرفت تاریخچه عملیات را ردیابی می‌کند و یک عامل تصمیم‌گیری گام‌ها را با اطلاعات ادراک و پیشرفت اجرا می‌کند. سوم، تصمیم‌گیری پویا مبتنی بر بازتاب یک عامل بازتاب را معرفی می‌کند که صحت اجرا را ارزیابی می‌کند و بازخورد ارائه می‌دهد، و امکان تجزیه وظیفه از بالا به پایین را با بازخورد دقیق از پایین به بالا در بین هر چهار عامل همکار فراهم می‌کند.

معماری PC-Agent از طریق یک رویکرد رسمی، تعامل با رابط کاربری گرافیکی را مورد بررسی قرار می‌دهد که در آن یک عامل ؟ دستورالعمل‌های کاربر I، مشاهدات O و تاریخچه H را پردازش می‌کند تا اقدامات A را تعیین کند. واحد ادراک فعال با استفاده از pywinauto برای استخراج درخت‌های دسترسی برای عناصر تعاملی، تشخیص عنصر را افزایش می‌دهد، در حالی که از درک هدف مبتنی بر MLLM با OCR برای محلی‌سازی دقیق متن استفاده می‌کند. برای گردش‌های کاری پیچیده، PC-Agent همکاری چند عاملی سلسله مراتبی را در سه سطح پیاده‌سازی می‌کند: عامل مدیر دستورالعمل‌ها را به زیروظیفه‌های پارامتری‌شده تجزیه می‌کند و وابستگی‌ها را مدیریت می‌کند. عامل پیشرفت، پیشرفت عملیات را در زیروظیفه‌ها ردیابی می‌کند. و عامل تصمیم‌گیری اقدامات گام به گام را بر اساس ادراک محیطی و اطلاعات پیشرفت اجرا می‌کند. این تقسیم سلسله مراتبی به طور موثر پیچیدگی تصمیم‌گیری را با شکستن وظایف پیچیده به اجزای قابل مدیریت با وابستگی‌های متقابل روشن کاهش می‌دهد.

نتایج تجربی عملکرد برتر PC-Agent را در مقایسه با جایگزین‌های تک و چند عاملی نشان می‌دهد. عوامل منفرد مبتنی بر MLLM (GPT-4o، Gemini-2.0، Claude3.5، Qwen2.5-VL) به طور مداوم در دستورالعمل‌های پیچیده شکست می‌خورند، به طوری که حتی بهترین عملکرد نیز تنها به نرخ موفقیت 12٪ دست می‌یابد، که تأیید می‌کند رویکردهای تک عاملی با توالی‌های عملیاتی طولانی و وابستگی‌های پیچیده دست و پنجه نرم می‌کنند. چارچوب‌های چند عاملی مانند UFO و AgentS بهبودهای متوسطی را نشان می‌دهند، اما همچنان به دلیل نقص‌های ادراکی و مسائل مدیریت وابستگی محدود هستند. آن‌ها با عملیات دقیق مانند ویرایش متن در Word یا ورود داده‌های مناسب در Excel مشکل دارند و اغلب نمی‌توانند از اطلاعات زیروظیفه‌های قبلی استفاده کنند. در مقابل، PC-Agent به طور قابل توجهی از تمام روش‌های قبلی بهتر عمل می‌کند و از طریق واحد ادراک فعال و همکاری چند عاملی سلسله مراتبی خود، در نرخ موفقیت از UFO 44٪ و از AgentS 32٪ پیشی می‌گیرد.

این مطالعه چارچوب PC-Agent را معرفی می‌کند، یک پیشرفت قابل توجه در مدیریت وظایف پیچیده مبتنی بر رایانه شخصی از طریق سه نوآوری کلیدی. واحد ادراک فعال قابلیت‌های ادراک و عملکرد پالایش‌شده‌ای را ارائه می‌دهد و امکان تعامل دقیق با عناصر رابط کاربری گرافیکی و متن را فراهم می‌کند. معماری همکاری چند عاملی سلسله مراتبی به طور موثر تصمیم‌گیری را در سطوح دستورالعمل، زیروظیفه و عمل تجزیه می‌کند، در حالی که تصمیم‌گیری پویا مبتنی بر بازتاب امکان تشخیص و تصحیح خطای بلادرنگ را فراهم می‌کند. اعتبارسنجی از طریق معیار PC-Eval که به تازگی ایجاد شده است با دستورالعمل‌های واقعی و پیچیده، عملکرد برتر PC-Agent را در مقایسه با روش‌های قبلی تأیید می‌کند و اثربخشی آن را در پیمایش گردش‌های کاری پیچیده و محیط‌های تعاملی مشخصه سناریوهای بهره‌وری رایانه شخصی نشان می‌دهد.

مقاله و صفحه GitHub را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، با خیال راحت ما را در توییتر دنبال کنید و فراموش نکنید که به ساب‌ردیت 80k+ ML ما بپیوندید.

https://www.marktechpost.com/2025/03/15/meet-pc-agent-a-hierarchical-multi-agent-collaboration-framework-for-complex-task-automation-on-pc/