مدلهای زبانی بزرگ چندوجهی (MLLM) قابلیتهای چشمگیری را در حوزههای مختلف نشان دادهاند و تکامل آنها را به عوامل چندوجهی برای کمک به انسان سوق دادهاند. عوامل اتوماسیون رابط کاربری گرافیکی برای رایانههای شخصی در مقایسه با همتایان تلفن هوشمند خود با چالشهای بسیار دشوارتری روبرو هستند. محیطهای رایانه شخصی عناصر تعاملی بسیار پیچیدهتری با آیکونها و ویجتهای متراکم و متنوع ارائه میدهند که اغلب فاقد برچسبهای متنی هستند و منجر به مشکلات ادراکی میشوند. حتی مدلهای پیشرفتهای مانند Claude-3.5 تنها به دقت 24.0٪ در وظایف زمینهیابی رابط کاربری گرافیکی دست مییابند. همچنین، وظایف بهرهوری رایانه شخصی شامل گردشهای کاری پیچیدهای است که چندین برنامه را با توالیهای طولانی عملیات و وابستگیهای بین زیروظیفهای در بر میگیرد و باعث کاهش چشمگیر عملکرد میشود به طوری که نرخ موفقیت GPT-4o از 41.8٪ در سطح زیروظیفه به تنها 8٪ برای دستورالعملهای کامل کاهش مییابد.
رویکردهای قبلی چارچوبهایی را برای مقابله با پیچیدگی وظایف رایانه شخصی با استراتژیهای مختلف توسعه دادهاند. UFO یک معماری دو عاملی را پیادهسازی میکند که انتخاب برنامه را از تعاملات کنترلی خاص جدا میکند. در همین حال، AgentS قابلیتهای برنامهریزی را با ترکیب جستجوی آنلاین با حافظه محلی افزایش میدهد. با این حال، این روشها محدودیتهای قابل توجهی را در ادراک دقیق و عملکرد متن روی صفحه نشان میدهند—یک نیاز حیاتی برای سناریوهای بهرهوری مانند ویرایش اسناد. علاوه بر این، آنها عموماً نمیتوانند به وابستگیهای پیچیده بین زیروظیفهها رسیدگی کنند، که منجر به عملکرد ضعیف در هنگام مدیریت گردشهای کاری واقعگرایانه درون و بین برنامهای میشود که مشخصه استفاده روزمره از رایانه شخصی است.
محققان MAIS، موسسه اتوماسیون، آکادمی علوم چین، چین، دانشکده هوش مصنوعی، دانشگاه آکادمی علوم چین، گروه علیبابا، دانشگاه جیاوتونگ پکن، و دانشکده علوم و فناوری اطلاعات، دانشگاه شانگهایتک، چارچوب PC-Agent را برای رسیدگی به سناریوهای پیچیده رایانه شخصی از طریق سه طرح نوآورانه معرفی میکنند. اول، واحد ادراک فعال با استخراج مکانها و معانی عناصر تعاملی از طریق درختهای دسترسی، تعامل دقیق را افزایش میدهد، در حالی که از درک هدف مبتنی بر MLLM و OCR برای محلیسازی دقیق متن استفاده میکند. دوم، همکاری چند عاملی سلسله مراتبی یک فرآیند تصمیمگیری سه سطحی (دستورالعمل-زیروظیفه-عمل) را پیادهسازی میکند که در آن یک عامل مدیر دستورالعملها را به زیروظیفههای پارامتریشده تجزیه میکند و وابستگیها را مدیریت میکند، یک عامل پیشرفت تاریخچه عملیات را ردیابی میکند و یک عامل تصمیمگیری گامها را با اطلاعات ادراک و پیشرفت اجرا میکند. سوم، تصمیمگیری پویا مبتنی بر بازتاب یک عامل بازتاب را معرفی میکند که صحت اجرا را ارزیابی میکند و بازخورد ارائه میدهد، و امکان تجزیه وظیفه از بالا به پایین را با بازخورد دقیق از پایین به بالا در بین هر چهار عامل همکار فراهم میکند.
معماری PC-Agent از طریق یک رویکرد رسمی، تعامل با رابط کاربری گرافیکی را مورد بررسی قرار میدهد که در آن یک عامل ؟ دستورالعملهای کاربر I، مشاهدات O و تاریخچه H را پردازش میکند تا اقدامات A را تعیین کند. واحد ادراک فعال با استفاده از pywinauto برای استخراج درختهای دسترسی برای عناصر تعاملی، تشخیص عنصر را افزایش میدهد، در حالی که از درک هدف مبتنی بر MLLM با OCR برای محلیسازی دقیق متن استفاده میکند. برای گردشهای کاری پیچیده، PC-Agent همکاری چند عاملی سلسله مراتبی را در سه سطح پیادهسازی میکند: عامل مدیر دستورالعملها را به زیروظیفههای پارامتریشده تجزیه میکند و وابستگیها را مدیریت میکند. عامل پیشرفت، پیشرفت عملیات را در زیروظیفهها ردیابی میکند. و عامل تصمیمگیری اقدامات گام به گام را بر اساس ادراک محیطی و اطلاعات پیشرفت اجرا میکند. این تقسیم سلسله مراتبی به طور موثر پیچیدگی تصمیمگیری را با شکستن وظایف پیچیده به اجزای قابل مدیریت با وابستگیهای متقابل روشن کاهش میدهد.
نتایج تجربی عملکرد برتر PC-Agent را در مقایسه با جایگزینهای تک و چند عاملی نشان میدهد. عوامل منفرد مبتنی بر MLLM (GPT-4o، Gemini-2.0، Claude3.5، Qwen2.5-VL) به طور مداوم در دستورالعملهای پیچیده شکست میخورند، به طوری که حتی بهترین عملکرد نیز تنها به نرخ موفقیت 12٪ دست مییابد، که تأیید میکند رویکردهای تک عاملی با توالیهای عملیاتی طولانی و وابستگیهای پیچیده دست و پنجه نرم میکنند. چارچوبهای چند عاملی مانند UFO و AgentS بهبودهای متوسطی را نشان میدهند، اما همچنان به دلیل نقصهای ادراکی و مسائل مدیریت وابستگی محدود هستند. آنها با عملیات دقیق مانند ویرایش متن در Word یا ورود دادههای مناسب در Excel مشکل دارند و اغلب نمیتوانند از اطلاعات زیروظیفههای قبلی استفاده کنند. در مقابل، PC-Agent به طور قابل توجهی از تمام روشهای قبلی بهتر عمل میکند و از طریق واحد ادراک فعال و همکاری چند عاملی سلسله مراتبی خود، در نرخ موفقیت از UFO 44٪ و از AgentS 32٪ پیشی میگیرد.
این مطالعه چارچوب PC-Agent را معرفی میکند، یک پیشرفت قابل توجه در مدیریت وظایف پیچیده مبتنی بر رایانه شخصی از طریق سه نوآوری کلیدی. واحد ادراک فعال قابلیتهای ادراک و عملکرد پالایششدهای را ارائه میدهد و امکان تعامل دقیق با عناصر رابط کاربری گرافیکی و متن را فراهم میکند. معماری همکاری چند عاملی سلسله مراتبی به طور موثر تصمیمگیری را در سطوح دستورالعمل، زیروظیفه و عمل تجزیه میکند، در حالی که تصمیمگیری پویا مبتنی بر بازتاب امکان تشخیص و تصحیح خطای بلادرنگ را فراهم میکند. اعتبارسنجی از طریق معیار PC-Eval که به تازگی ایجاد شده است با دستورالعملهای واقعی و پیچیده، عملکرد برتر PC-Agent را در مقایسه با روشهای قبلی تأیید میکند و اثربخشی آن را در پیمایش گردشهای کاری پیچیده و محیطهای تعاملی مشخصه سناریوهای بهرهوری رایانه شخصی نشان میدهد.
مقاله و صفحه GitHub را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، با خیال راحت ما را در توییتر دنبال کنید و فراموش نکنید که به سابردیت 80k+ ML ما بپیوندید.