نتایج بنچمارک UI-TARS-1.5
نتایج بنچمارک UI-TARS-1.5

انتشار UI-TARS-1.5 توسط ByteDance: یک عامل هوش مصنوعی چندوجهی متن‌باز مبتنی بر یک مدل زبان بصری قدرتمند

ByteDance نسخه UI-TARS-1.5 را منتشر کرده است، یک نسخه به روز شده از چارچوب عامل چند وجهی خود که بر تعامل با رابط کاربری گرافیکی (GUI) و محیط‌های بازی متمرکز است. UI-TARS-1.5 به عنوان یک مدل زبان بصری (vision-language model) طراحی شده است که قادر به درک محتوای صفحه نمایش و انجام وظایف تعاملی است و بهبودهای مداومی را در طیف وسیعی از معیار‌های اتوماسیون رابط کاربری گرافیکی و استدلال بازی ارائه می‌دهد. قابل توجه است که این مدل از چندین مدل پیشرو از جمله Operator OpenAI و Claude 3.7 Anthropic در دقت و تکمیل وظایف در محیط‌های مختلف پیشی می‌گیرد.

این انتشار، جهت‌گیری تحقیقاتی ByteDance در ساخت مدل‌های عامل بومی (native agent models) را ادامه می‌دهد و هدف آن یکپارچه‌سازی ادراک، شناخت و عمل از طریق یک معماری یکپارچه است که از تعامل مستقیم با رابط کاربری گرافیکی و محتوای بصری پشتیبانی می‌کند.

رویکرد عامل بومی به تعامل با رابط کاربری گرافیکی

برخلاف مدل‌های زبانی بزرگ (LLM) تقویت شده با ابزار یا معماری‌های فراخوانی تابع، UI-TARS-1.5 به صورت end-to-end آموزش داده شده است تا ورودی بصری (اسکرین شات‌ها) را درک کرده و اقدامات کنترلی بومی شبیه انسان، مانند حرکت ماوس و ورودی صفحه کلید را تولید کند. این امر مدل را به نحوه تعامل کاربران انسانی با سیستم‌های دیجیتال نزدیک‌تر می‌کند.

UI-TARS-1.5 با معرفی چندین پیشرفت معماری و آموزشی بر اساس نسخه قبلی خود ساخته شده است:

  • یکپارچه‌سازی ادراک و استدلال: این مدل تصاویر صفحه نمایش و دستورالعمل‌های متنی را به طور مشترک رمزگذاری می‌کند و از درک وظایف پیچیده و استدلال بصری پشتیبانی می‌کند. استدلال از طریق یک مکانیسم چند مرحله‌ای "فکر کن، سپس عمل کن" پشتیبانی می‌شود که برنامه‌ریزی سطح بالا را از اجرای سطح پایین جدا می‌کند.
  • فضای عمل یکپارچه: بازنمایی عمل به گونه‌ای طراحی شده است که مستقل از پلتفرم باشد و یک رابط سازگار را در محیط‌های دسکتاپ، موبایل و بازی فعال می‌کند.
  • خود-تکامل از طریق ردیابی‌های Replay: خط لوله آموزشی داده‌های ردیابی آنلاین بازتابی را در خود جای داده است. این به مدل اجازه می‌دهد تا با تجزیه و تحلیل تعاملات قبلی، رفتار خود را به طور مکرر اصلاح کند - کاهش وابستگی به تظاهرات تنظیم شده.

این پیشرفت‌ها در مجموع UI-TARS-1.5 را قادر می‌سازد تا از تعامل طولانی مدت، بازیابی خطا و برنامه‌ریزی وظایف ترکیبی پشتیبانی کند - قابلیت‌های مهم برای ناوبری و کنترل واقع‌بینانه رابط کاربری.

بنچمارک و ارزیابی

این مدل در چندین مجموعه بنچمارک که رفتار عامل را در وظایف مبتنی بر رابط کاربری گرافیکی و بازی ارزیابی می‌کنند، ارزیابی شده است. این بنچمارک‌ها یک راه استاندارد برای ارزیابی عملکرد مدل در استدلال، زمینه‌سازی و اجرای طولانی مدت ارائه می‌دهند.

وظایف عامل رابط کاربری گرافیکی

  • OSWorld (100 مرحله): UI-TARS-1.5 به نرخ موفقیت 42.5٪ دست می‌یابد و از OpenAI Operator (36.4٪) و Claude 3.7 (28٪) بهتر عمل می‌کند. این بنچمارک وظایف رابط کاربری گرافیکی با زمینه طولانی را در یک محیط سیستم عامل مصنوعی ارزیابی می‌کند.
  • Windows Agent Arena (50 مرحله): با امتیاز 42.1٪، این مدل به طور قابل توجهی نسبت به خطوط پایه قبلی (به عنوان مثال، 29.8٪) بهبود می‌یابد و نشان دهنده مدیریت قوی محیط‌های دسکتاپ است.
  • Android World: این مدل به نرخ موفقیت 64.2٪ می‌رسد که نشان دهنده قابلیت تعمیم به سیستم عامل‌های تلفن همراه است.

زمینه‌سازی بصری و درک صفحه نمایش

  • ScreenSpot-V2: این مدل به دقت 94.2٪ در مکان‌یابی عناصر رابط کاربری گرافیکی دست می‌یابد و از Operator (87.9٪) و Claude 3.7 (87.6٪) بهتر عمل می‌کند.
  • ScreenSpotPro: در یک بنچمارک زمینه‌سازی پیچیده‌تر، UI-TARS-1.5 امتیاز 61.6٪ را کسب می‌کند که به طور قابل توجهی جلوتر از Operator (23.4٪) و Claude 3.7 (27.7٪) است.

این نتایج نشان دهنده بهبودهای مداوم در درک صفحه نمایش و زمینه‌سازی عمل است که برای عوامل رابط کاربری گرافیکی دنیای واقعی بسیار مهم است.

محیط‌های بازی

  • Poki Games: UI-TARS-1.5 به نرخ تکمیل وظیفه 100٪ در 14 بازی کوچک دست می‌یابد. این بازی‌ها از نظر مکانیک و زمینه متفاوت هستند و مدل‌ها را ملزم به تعمیم در پویایی‌های تعاملی می‌کنند.
  • Minecraft (MineRL): این مدل با استفاده از ماژول "فکر کن، سپس عمل کن" به موفقیت 42٪ در وظایف معدن‌کاری و 31٪ در وظایف کشتن اوباش دست می‌یابد، که نشان می‌دهد می‌تواند از برنامه‌ریزی سطح بالا در محیط‌های open-ended پشتیبانی کند.

دسترسی و ابزار

UI-TARS-1.5 تحت مجوز Apache 2.0 به صورت متن‌باز در دسترس است و از طریق چندین گزینه استقرار در دسترس است:

  • مخزن GitHub: github.com/bytedance/UI-TARS
  • مدل از پیش آموزش داده شده: از طریق Hugging Face در ByteDance-Seed/UI-TARS-1.5-7B در دسترس است.
  • UI-TARS Desktop: یک ابزار عامل قابل دانلود که کنترل زبان طبیعی را بر محیط‌های دسکتاپ فعال می‌کند ( link )

علاوه بر مدل، این پروژه مستندات مفصل، داده‌های replay و ابزارهای ارزیابی را برای تسهیل آزمایش و تکرارپذیری ارائه می‌دهد.

نتیجه‌گیری

UI-TARS-1.5 یک پیشرفت فنی درست در زمینه عوامل هوش مصنوعی چندوجهی است، به ویژه آنهایی که بر کنترل رابط کاربری گرافیکی و استدلال بصری grounded متمرکز هستند. از طریق ترکیبی از یکپارچه‌سازی زبان بصری، مکانیسم‌های حافظه و برنامه‌ریزی عملی ساختاریافته، این مدل عملکرد قوی را در مجموعه‌ای متنوع از محیط‌های تعاملی نشان می‌دهد.

به جای پیگیری کلیت جهانی، این مدل برای استدلال چندوجهی مبتنی بر وظیفه تنظیم شده است - هدف قرار دادن چالش دنیای واقعی تعامل با نرم‌افزار از طریق درک بصری. انتشار متن‌باز آن یک چارچوب عملی برای محققان و توسعه‌دهندگانی فراهم می‌کند که علاقه‌مند به کاوش در رابط‌های عامل بومی یا خودکارسازی سیستم‌های تعاملی از طریق زبان و دید هستند.