رابط کاربری Agent S2
رابط کاربری Agent S2

انتشار Agent S2 توسط Simular: یک چارچوب هوش مصنوعی باز، ماژولار و مقیاس‌پذیر برای کارگزاران استفاده از کامپیوتر

در چشم‌انداز دیجیتال امروزی، تعامل با طیف گسترده‌ای از نرم‌افزارها و سیستم‌عامل‌ها اغلب می‌تواند تجربه‌ای خسته‌کننده و مستعد خطا باشد. بسیاری از کاربران هنگام پیمایش در رابط‌های پیچیده و انجام کارهای روزمره که نیازمند دقت و سازگاری هستند، با چالش‌هایی روبرو می‌شوند. ابزارهای اتوماسیون موجود اغلب در انطباق با تغییرات ظریف رابط یا یادگیری از اشتباهات گذشته کوتاهی می‌کنند و کاربران را وادار می‌کنند تا به صورت دستی بر فرایندهایی که می‌توانند ساده‌سازی شوند، نظارت کنند. این شکاف مداوم بین انتظارات کاربر و قابلیت‌های اتوماسیون سنتی، خواستار سیستمی است که نه تنها وظایف را به طور قابل اعتماد انجام دهد، بلکه در طول زمان یاد بگیرد و تنظیم شود.

شرکت Simular از Agent S2، یک چارچوب باز، ماژولار و مقیاس‌پذیر که برای کمک به کارگزاران استفاده از کامپیوتر طراحی شده است، رونمایی کرد. Agent S2 بر پایهٔ بنایی که توسط نسخهٔ قبلی خود گذاشته شده است، استوار است و رویکردی اصلاح‌شده برای خودکارسازی وظایف در کامپیوترها و تلفن‌های هوشمند ارائه می‌دهد. این چارچوب با ادغام یک طراحی ماژولار با مدل‌های همه‌منظوره و تخصصی، می‌تواند با انواع محیط‌های دیجیتال سازگار شود. طراحی آن از ماژولار بودن طبیعی مغز انسان الهام گرفته است، جایی که مناطق مختلف به‌طور هماهنگ با هم کار می‌کنند تا وظایف پیچیده را انجام دهند، در نتیجه سیستمی را ایجاد می‌کند که هم انعطاف‌پذیر و هم قوی است.

معیارهای عملکرد Agent S2
عملکرد Agent S2 در معیارهای ارزیابی

جزئیات فنی و مزایا

در هستهٔ خود، Agent S2 از برنامه‌ریزی سلسله مراتبی تقویت‌شده با تجربه استفاده می‌کند. این روش شامل تجزیهٔ وظایف طولانی و پیچیده به زیر وظایف کوچک‌تر و قابل مدیریت‌تر است. این چارچوب به‌طور مداوم با یادگیری از تجربیات قبلی، استراتژی خود را اصلاح می‌کند، در نتیجه اجرای آن در طول زمان بهبود می‌یابد. یکی از جنبه‌های مهم Agent S2 قابلیت استناد بصری آن است که به آن اجازه می‌دهد تا تصاویر خام را برای تعامل دقیق با رابط‌های کاربری گرافیکی تفسیر کند. این امر نیاز به داده‌های ساختاریافته اضافی را از بین می‌برد و توانایی سیستم را برای شناسایی صحیح و تعامل با عناصر UI افزایش می‌دهد. علاوه بر این، Agent S2 از یک رابط پیشرفته Agent-Computer استفاده می‌کند که اقدامات معمول و سطح پایین را به ماژول‌های متخصص واگذار می‌کند. این سیستم با یک مکانیسم حافظهٔ تطبیقی تکمیل می‌شود و تجربیات مفید را برای هدایت تصمیم‌گیری‌های آینده حفظ می‌کند و در نتیجه عملکردی سنجیده‌تر و مؤثرتر به دست می‌آید.

نتایج و بینش‌ها

ارزیابی‌ها در معیارهای دنیای واقعی نشان می‌دهد که Agent S2 در محیط‌های کامپیوتر و تلفن‌های هوشمند به طور قابل اعتمادی عمل می‌کند. در معیار OSWorld - که اجرای وظایف چند مرحله‌ای کامپیوتر را آزمایش می‌کند - Agent S2 در یک ارزیابی 50 مرحله‌ای به نرخ موفقیت 34.5٪ دست یافت که نشان‌دهندهٔ بهبود متوسط اما مداوم نسبت به مدل‌های قبلی است. به طور مشابه، در معیار AndroidWorld، این چارچوب به نرخ موفقیت 50٪ در اجرای وظایف تلفن‌های هوشمند رسید. این نتایج بر مزایای عملی سیستمی تأکید می‌کند که می‌تواند از قبل برنامه‌ریزی کند و با شرایط پویا سازگار شود و اطمینان حاصل کند که وظایف با دقت بهبود یافته و حداقل دخالت دستی تکمیل می‌شوند.

نتیجه‌گیری

Agent S2 نمایانگر رویکردی متفکرانه برای بهبود تعاملات دیجیتال روزمره است. این چارچوب با پرداختن به چالش‌های رایج در اتوماسیون کامپیوتر از طریق طراحی ماژولار و یادگیری تطبیقی، یک راه حل عملی برای مدیریت کارآمدتر وظایف معمول ارائه می‌دهد. ترکیب متعادل آن از برنامه‌ریزی فعال، درک بصری و واگذاری تخصصی، آن را برای وظایف پیچیده کامپیوتر و برنامه‌های تلفن همراه مناسب می‌سازد. در عصری که گردش کار دیجیتال همچنان در حال تحول است، Agent S2 ابزاری سنجیده و قابل اعتماد برای ادغام اتوماسیون در روال‌های روزانه ارائه می‌دهد و به کاربران کمک می‌کند تا به نتایج بهتری دست یابند و در عین حال نیاز به نظارت دستی مداوم را کاهش دهند.


برای اطلاعات بیشتر، جزئیات فنی و صفحهٔ گیت‌هاب را بررسی کنید. تمامی اعتبار این تحقیق متعلق به محققان این پروژه است. همچنین، می‌توانید ما را در توییتر دنبال کنید و فراموش نکنید که به ساب‌ردیت ۸۰k+ ML ما بپیوندید.

?? با Parlant آشنا شوید: یک چارچوب هوش مصنوعی مکالمه‌ای که با هدف ارائه کنترل و دقت مورد نیاز توسعه‌دهندگان بر روی کارگزاران خدمات مشتری هوش مصنوعی خود، با استفاده از دستورالعمل‌های رفتاری و نظارت در زمان اجرا طراحی شده است. ?? ??? این چارچوب با استفاده از یک CLI با کاربری آسان ?? و SDKهای کلاینت اصلی در پایتون و TypeScript ?? عمل می‌کند.