یک چارچوب جدید مبتنی بر هوش مصنوعی توسعه یافته است که قابلیتهای جدیدی برای تحلیل بیدرنگ دو دست در حال دستکاری یک شیء ارائه میدهد.
یک تیم تحقیقاتی به رهبری پروفسور سونگریول بک (Seungryul Baek) از دانشکده تحصیلات تکمیلی هوش مصنوعی UNIST، چارچوب ترانسفورمر بیدرنگ بهینهسازیشده با کوئری (QORT-Former) را معرفی کردهاند که وضعیتهای سهبعدی دو دست و یک شیء را بهصورت بیدرنگ و با دقت تخمین میزند.
این پژوهش در سرور پیشچاپ arXiv منتشر شده و در کنفرانس سالانه هوش مصنوعی AAAI در پنسیلوانیا، ایالات متحده آمریکا ارائه گردیده است.
برخلاف روشهای پیشین که به منابع محاسباتی قابل توجهی نیاز دارند، QORT-Former ضمن حفظ دقت پیشرفتهترین مدلها، به کارایی فوقالعادهای دست مییابد.
برای بهینهسازی عملکرد، تیم یک استراتژی تقسیم کوئری نوآورانه را پیشنهاد کرد که ویژگیهای کوئری را با استفاده از اطلاعات تماس بین دستها و شیء، در ترکیب با یک بهروزرسانی ویژگی سهمرحلهای در داخل رمزگشای ترانسفورمر، بهبود میبخشد. QORT-Former تنها با ۱۰۸ کوئری و یک رمزگشا، به سرعت ۵۳.۵ فریم بر ثانیه (FPS) بر روی یک پردازنده گرافیکی RTX 3090 Ti دست مییابد که آن را به سریعترین مدل شناختهشده برای تخمین وضعیت دست-شیء تبدیل میکند.
پروفسور سونگریول بک اظهار داشت: «QORT-Former پیشرفت قابل توجهی در درک تعاملات دست-شیء محسوب میشود. این چارچوب نه تنها کاربردهای بیدرنگ در واقعیت افزوده (AR)، واقعیت مجازی (VR) و رباتیک را ممکن میسازد، بلکه مرزهای مدلهای هوش مصنوعی بیدرنگ را نیز جابجا میکند.»
خالقالزمان سایم (Khalequzzaman Sayem)، یکی از نویسندگان اول مشترک، خاطرنشان کرد: «کار ما نشان میدهد که کارایی و دقت را میتوان بهطور همزمان بهینه کرد. ما پیشبینی میکنیم که روش ما در زمینههایی که نیاز به تحلیل بیدرنگ تعامل دست-شیء دارند، بهطور گستردهتری مورد استفاده قرار گیرد.»
اطلاعات بیشتر: Elkhan Ismayilzada et al, QORT-Former: Query-optimized Real-time Transformer for Understanding Two Hands Manipulating Objects, arXiv (2025). DOI: 10.48550/arxiv.2502.19769