ByteDance نسخه UI-TARS-1.5 را منتشر کرده است، یک نسخه به روز شده از چارچوب عامل چند وجهی خود که بر تعامل با رابط کاربری گرافیکی (GUI) و محیطهای بازی متمرکز است. UI-TARS-1.5 به عنوان یک مدل زبان بصری (vision-language model) طراحی شده است که قادر به درک محتوای صفحه نمایش و انجام وظایف تعاملی است و بهبودهای مداومی را در طیف وسیعی از معیارهای اتوماسیون رابط کاربری گرافیکی و استدلال بازی ارائه میدهد. قابل توجه است که این مدل از چندین مدل پیشرو از جمله Operator OpenAI و Claude 3.7 Anthropic در دقت و تکمیل وظایف در محیطهای مختلف پیشی میگیرد.
این انتشار، جهتگیری تحقیقاتی ByteDance در ساخت مدلهای عامل بومی (native agent models) را ادامه میدهد و هدف آن یکپارچهسازی ادراک، شناخت و عمل از طریق یک معماری یکپارچه است که از تعامل مستقیم با رابط کاربری گرافیکی و محتوای بصری پشتیبانی میکند.
رویکرد عامل بومی به تعامل با رابط کاربری گرافیکی
برخلاف مدلهای زبانی بزرگ (LLM) تقویت شده با ابزار یا معماریهای فراخوانی تابع، UI-TARS-1.5 به صورت end-to-end آموزش داده شده است تا ورودی بصری (اسکرین شاتها) را درک کرده و اقدامات کنترلی بومی شبیه انسان، مانند حرکت ماوس و ورودی صفحه کلید را تولید کند. این امر مدل را به نحوه تعامل کاربران انسانی با سیستمهای دیجیتال نزدیکتر میکند.
UI-TARS-1.5 با معرفی چندین پیشرفت معماری و آموزشی بر اساس نسخه قبلی خود ساخته شده است:
- یکپارچهسازی ادراک و استدلال: این مدل تصاویر صفحه نمایش و دستورالعملهای متنی را به طور مشترک رمزگذاری میکند و از درک وظایف پیچیده و استدلال بصری پشتیبانی میکند. استدلال از طریق یک مکانیسم چند مرحلهای "فکر کن، سپس عمل کن" پشتیبانی میشود که برنامهریزی سطح بالا را از اجرای سطح پایین جدا میکند.
- فضای عمل یکپارچه: بازنمایی عمل به گونهای طراحی شده است که مستقل از پلتفرم باشد و یک رابط سازگار را در محیطهای دسکتاپ، موبایل و بازی فعال میکند.
- خود-تکامل از طریق ردیابیهای Replay: خط لوله آموزشی دادههای ردیابی آنلاین بازتابی را در خود جای داده است. این به مدل اجازه میدهد تا با تجزیه و تحلیل تعاملات قبلی، رفتار خود را به طور مکرر اصلاح کند - کاهش وابستگی به تظاهرات تنظیم شده.
این پیشرفتها در مجموع UI-TARS-1.5 را قادر میسازد تا از تعامل طولانی مدت، بازیابی خطا و برنامهریزی وظایف ترکیبی پشتیبانی کند - قابلیتهای مهم برای ناوبری و کنترل واقعبینانه رابط کاربری.
بنچمارک و ارزیابی
این مدل در چندین مجموعه بنچمارک که رفتار عامل را در وظایف مبتنی بر رابط کاربری گرافیکی و بازی ارزیابی میکنند، ارزیابی شده است. این بنچمارکها یک راه استاندارد برای ارزیابی عملکرد مدل در استدلال، زمینهسازی و اجرای طولانی مدت ارائه میدهند.
وظایف عامل رابط کاربری گرافیکی
- OSWorld (100 مرحله): UI-TARS-1.5 به نرخ موفقیت 42.5٪ دست مییابد و از OpenAI Operator (36.4٪) و Claude 3.7 (28٪) بهتر عمل میکند. این بنچمارک وظایف رابط کاربری گرافیکی با زمینه طولانی را در یک محیط سیستم عامل مصنوعی ارزیابی میکند.
- Windows Agent Arena (50 مرحله): با امتیاز 42.1٪، این مدل به طور قابل توجهی نسبت به خطوط پایه قبلی (به عنوان مثال، 29.8٪) بهبود مییابد و نشان دهنده مدیریت قوی محیطهای دسکتاپ است.
- Android World: این مدل به نرخ موفقیت 64.2٪ میرسد که نشان دهنده قابلیت تعمیم به سیستم عاملهای تلفن همراه است.
زمینهسازی بصری و درک صفحه نمایش
- ScreenSpot-V2: این مدل به دقت 94.2٪ در مکانیابی عناصر رابط کاربری گرافیکی دست مییابد و از Operator (87.9٪) و Claude 3.7 (87.6٪) بهتر عمل میکند.
- ScreenSpotPro: در یک بنچمارک زمینهسازی پیچیدهتر، UI-TARS-1.5 امتیاز 61.6٪ را کسب میکند که به طور قابل توجهی جلوتر از Operator (23.4٪) و Claude 3.7 (27.7٪) است.
این نتایج نشان دهنده بهبودهای مداوم در درک صفحه نمایش و زمینهسازی عمل است که برای عوامل رابط کاربری گرافیکی دنیای واقعی بسیار مهم است.
محیطهای بازی
- Poki Games: UI-TARS-1.5 به نرخ تکمیل وظیفه 100٪ در 14 بازی کوچک دست مییابد. این بازیها از نظر مکانیک و زمینه متفاوت هستند و مدلها را ملزم به تعمیم در پویاییهای تعاملی میکنند.
- Minecraft (MineRL): این مدل با استفاده از ماژول "فکر کن، سپس عمل کن" به موفقیت 42٪ در وظایف معدنکاری و 31٪ در وظایف کشتن اوباش دست مییابد، که نشان میدهد میتواند از برنامهریزی سطح بالا در محیطهای open-ended پشتیبانی کند.
دسترسی و ابزار
UI-TARS-1.5 تحت مجوز Apache 2.0 به صورت متنباز در دسترس است و از طریق چندین گزینه استقرار در دسترس است:
- مخزن GitHub: github.com/bytedance/UI-TARS
- مدل از پیش آموزش داده شده: از طریق Hugging Face در ByteDance-Seed/UI-TARS-1.5-7B در دسترس است.
- UI-TARS Desktop: یک ابزار عامل قابل دانلود که کنترل زبان طبیعی را بر محیطهای دسکتاپ فعال میکند ( link )
علاوه بر مدل، این پروژه مستندات مفصل، دادههای replay و ابزارهای ارزیابی را برای تسهیل آزمایش و تکرارپذیری ارائه میدهد.
نتیجهگیری
UI-TARS-1.5 یک پیشرفت فنی درست در زمینه عوامل هوش مصنوعی چندوجهی است، به ویژه آنهایی که بر کنترل رابط کاربری گرافیکی و استدلال بصری grounded متمرکز هستند. از طریق ترکیبی از یکپارچهسازی زبان بصری، مکانیسمهای حافظه و برنامهریزی عملی ساختاریافته، این مدل عملکرد قوی را در مجموعهای متنوع از محیطهای تعاملی نشان میدهد.
به جای پیگیری کلیت جهانی، این مدل برای استدلال چندوجهی مبتنی بر وظیفه تنظیم شده است - هدف قرار دادن چالش دنیای واقعی تعامل با نرمافزار از طریق درک بصری. انتشار متنباز آن یک چارچوب عملی برای محققان و توسعهدهندگانی فراهم میکند که علاقهمند به کاوش در رابطهای عامل بومی یا خودکارسازی سیستمهای تعاملی از طریق زبان و دید هستند.