نمونه‌هایی از وضعیت‌های سه‌بعدی تخمین‌زده شده در مجموعه داده H2O: برای هر مثال جداگانه در هر ردیف، شکل به ترتیب نشان‌دهنده (الف) تصویر ورودی RGB، (ب) کوئری‌های دست-شیء ما، (ج) نقشه تماس واقعی (ground-truth)، (د) نقشه تماس پیش‌بینی‌شده و (ه) نتایج نهایی تخمین وضعیت سه‌بعدی است. اعتبار: مؤسسه ملی علم و فناوری اولسان
نمونه‌هایی از وضعیت‌های سه‌بعدی تخمین‌زده شده در مجموعه داده H2O: برای هر مثال جداگانه در هر ردیف، شکل به ترتیب نشان‌دهنده (الف) تصویر ورودی RGB، (ب) کوئری‌های دست-شیء ما، (ج) نقشه تماس واقعی (ground-truth)، (د) نقشه تماس پیش‌بینی‌شده و (ه) نتایج نهایی تخمین وضعیت سه‌بعدی است. اعتبار: مؤسسه ملی علم و فناوری اولسان

مطالعه‌ای از چارچوب تخمین وضعیت دست-شیء بی‌درنگ مبتنی بر هوش مصنوعی رونمایی می‌کند

یک چارچوب جدید مبتنی بر هوش مصنوعی توسعه یافته است که قابلیت‌های جدیدی برای تحلیل بی‌درنگ دو دست در حال دستکاری یک شیء ارائه می‌دهد.

یک تیم تحقیقاتی به رهبری پروفسور سونگ‌ریول بک (Seungryul Baek) از دانشکده تحصیلات تکمیلی هوش مصنوعی UNIST، چارچوب ترانسفورمر بی‌درنگ بهینه‌سازی‌شده با کوئری (QORT-Former) را معرفی کرده‌اند که وضعیت‌های سه‌بعدی دو دست و یک شیء را به‌صورت بی‌درنگ و با دقت تخمین می‌زند.

این پژوهش در سرور پیش‌چاپ arXiv منتشر شده و در کنفرانس سالانه هوش مصنوعی AAAI در پنسیلوانیا، ایالات متحده آمریکا ارائه گردیده است.

برخلاف روش‌های پیشین که به منابع محاسباتی قابل توجهی نیاز دارند، QORT-Former ضمن حفظ دقت پیشرفته‌ترین مدل‌ها، به کارایی فوق‌العاده‌ای دست می‌یابد.

برای بهینه‌سازی عملکرد، تیم یک استراتژی تقسیم کوئری نوآورانه را پیشنهاد کرد که ویژگی‌های کوئری را با استفاده از اطلاعات تماس بین دست‌ها و شیء، در ترکیب با یک به‌روزرسانی ویژگی سه‌مرحله‌ای در داخل رمزگشای ترانسفورمر، بهبود می‌بخشد. QORT-Former تنها با ۱۰۸ کوئری و یک رمزگشا، به سرعت ۵۳.۵ فریم بر ثانیه (FPS) بر روی یک پردازنده گرافیکی RTX 3090 Ti دست می‌یابد که آن را به سریع‌ترین مدل شناخته‌شده برای تخمین وضعیت دست-شیء تبدیل می‌کند.

پروفسور سونگ‌ریول بک اظهار داشت: «QORT-Former پیشرفت قابل توجهی در درک تعاملات دست-شیء محسوب می‌شود. این چارچوب نه تنها کاربردهای بی‌درنگ در واقعیت افزوده (AR)، واقعیت مجازی (VR) و رباتیک را ممکن می‌سازد، بلکه مرزهای مدل‌های هوش مصنوعی بی‌درنگ را نیز جابجا می‌کند.»

خالق‌الزمان سایم (Khalequzzaman Sayem)، یکی از نویسندگان اول مشترک، خاطرنشان کرد: «کار ما نشان می‌دهد که کارایی و دقت را می‌توان به‌طور همزمان بهینه کرد. ما پیش‌بینی می‌کنیم که روش ما در زمینه‌هایی که نیاز به تحلیل بی‌درنگ تعامل دست-شیء دارند، به‌طور گسترده‌تری مورد استفاده قرار گیرد.»

اطلاعات بیشتر: Elkhan Ismayilzada et al, QORT-Former: Query-optimized Real-time Transformer for Understanding Two Hands Manipulating Objects, arXiv (2025). DOI: 10.48550/arxiv.2502.19769