اعتبار: جیانگ و همکاران
اعتبار: جیانگ و همکاران

مدل پویا می‌تواند حرکات واقع‌گرایانه انسان را تولید و حرکات موجود را ویرایش کند

هنگام کاوش در محیط اطراف، برقراری ارتباط با دیگران و ابراز وجود، انسان‌ها می‌توانند طیف گسترده‌ای از حرکات بدن را انجام دهند. توانایی شبیه‌سازی واقع‌گرایانه این حرکات و اعمال آن‌ها بر روی شخصیت‌های انسانی و انسان‌نما، می‌تواند برای توسعه بازی‌های ویدیویی و ایجاد انیمیشن‌ها، محتوایی که می‌تواند با استفاده از هدست‌های واقعیت مجازی (VR) مشاهده شود، و ویدیوهای آموزشی برای متخصصان بسیار ارزشمند باشد.

پژوهشگران در موسسه هوش مصنوعی دانشگاه پکن (AI) و آزمایشگاه کلیدی دولتی هوش مصنوعی عمومی اخیراً مدل‌های جدیدی را معرفی کرده‌اند که می‌تواند تولید حرکات واقع‌گرایانه برای شخصیت‌ها یا آواتارهای انسانی را ساده‌تر کند. این پژوهش در سرور پیش‌انتشار arXiv منتشر شده است.

رویکرد پیشنهادی آن‌ها برای تولید حرکات انسان، که در مقاله‌ای ارائه شده در CVPR 2025 تشریح شده است، متکی بر یک تکنیک افزایش داده به نام MotionCutMix و یک مدل انتشار به نام MotionReFit است.

ییکسین ژو، نویسنده ارشد مقاله، به تکسپلور گفت: «ما به عنوان پژوهشگرانی که به بررسی تقاطع هوش مصنوعی و بینایی کامپیوتر می‌پردازیم، مجذوب پیشرفت‌های اخیر در تولید حرکت از متن—سیستم‌هایی که می‌توانند حرکات انسان را از توضیحات متنی ایجاد کنند—شدیم.»

«با این حال، ما یک شکاف اساسی در چشم‌انداز فناوری مشاهده کردیم. در حالی که تولید حرکات از ابتدا پیشرفت چشمگیری داشته است، توانایی ویرایش حرکات موجود به شدت محدود باقی مانده است.»

هنرمندان، توسعه‌دهندگان بازی‌های ویدیویی و فیلمسازان انیمیشن معمولاً محتوای جدید را به طور کامل از ابتدا ایجاد نمی‌کنند، بلکه از آثار قبلی الهام می‌گیرند، آن‌ها را اصلاح و تنظیم می‌کنند تا به نتایج دلخواه خود برسند. با این حال، اکثر سیستم‌های هوش مصنوعی و یادگیری ماشین موجود برای پشتیبانی از این گردش کار خلاقانه مبتنی بر ویرایش و الهام طراحی نشده‌اند.

نان جیانگ، یکی از نویسندگان مقاله، گفت: «سیستم‌های توسعه‌یافته قبلی که تلاش می‌کردند حرکت را ویرایش کنند با یک محدودیت قابل توجه روبرو بودند، یعنی آن‌ها به مجموعه‌های سه‌تایی گسترده‌ای از حرکات اصلی، حرکات ویرایش‌شده و دستورالعمل‌های مربوطه نیاز داشتند—داده‌هایی که بسیار کمیاب و گران هستند.» «این امر آن‌ها را غیرقابل انعطاف می‌کرد و تنها قادر به رسیدگی به سناریوهای ویرایشی خاصی بودند که به طور صریح روی آن‌ها آموزش دیده بودند.»

هدف اصلی مطالعه اخیر توسط ژو و همکارانش ایجاد یک سیستم جدید بود که بتواند تمام حرکات انسان را بر اساس دستورالعمل‌های نوشتاری ارائه شده توسط کاربران، بدون نیاز به ورودی‌های خاص وظیفه یا مشخصات قسمت‌های بدن، ویرایش کند.

آن‌ها می‌خواستند این سیستم از هر دو تغییر در قسمت‌های خاص بدن (یعنی ویرایش فضایی) و انطباق حرکات در طول زمان (یعنی ویرایش زمانی) پشتیبانی کند، و به خوبی در سناریوهای مختلف تعمیم یابد، حتی زمانی که بر روی داده‌های حاشیه‌نویسی شده محدود آموزش داده شده باشد.

هونگجی لی، یکی از نویسندگان مقاله، توضیح داد: «MotionCutMix، رویکردی برای یادگیری ماشین که ما ابداع کردیم، یک تکنیک آموزشی ساده اما مؤثر است که به سیستم‌های هوش مصنوعی کمک می‌کند تا ویرایش حرکات سه بعدی انسان را بر اساس دستورالعمل‌های متنی یاد بگیرند.»

«به طور مشابه، همانطور که سرآشپزها می‌توانند با ترکیب و تطبیق مواد مختلف، غذاهای مختلفی ایجاد کنند—MotionCutMix نمونه‌های آموزشی متنوعی را با ترکیب قسمت‌های بدن از توالی‌های حرکتی مختلف ایجاد می‌کند.»

رویکرد یادگیری توسعه‌یافته توسط پژوهشگران می‌تواند قسمت‌های خاصی از بدن (به عنوان مثال، بازوها، پاها، تنه و غیره یک شخصیت) را در یک توالی حرکتی انتخاب کند و آن‌ها را با قسمت‌های موجود در توالی دیگر ترکیب کند. به جای انتقال ناگهانی از حرکات یک قسمت بدن به حرکات قسمت دیگر، MotionCutMix به تدریج مرزهای بین آن‌ها را ترکیب می‌کند و در نتیجه حرکات نرم‌تری تولید می‌کند.

جیانگ گفت: «به عنوان مثال، هنگام ترکیب حرکت بازو از یک حرکت با تنه از حرکت دیگر، ناحیه شانه را به آرامی درونیابی می‌کند.» «برای هر حرکت ترکیبی، یک نمونه آموزشی جدید متشکل از یک حرکت اصلی، یک نسخه ویرایش‌شده از آن حرکت و یک دستورالعمل متنی که تغییر را توصیف می‌کند، ایجاد می‌کند.»

اکثر رویکردهای معرفی‌شده قبلی برای تولید حرکات انسان بر روی مجموعه‌داده‌های ثابت آموزش داده شده‌اند، که معمولاً شامل ویدیوهای حاشیه‌نویسی‌شده از افرادی است که به روش‌های مختلف حرکت می‌کنند. در مقابل، MotionCutMix می‌تواند نمونه‌های آموزشی جدید را در لحظه تولید کند، که امکان یادگیری از کتابخانه‌های بزرگ داده‌های حرکتی را فراهم می‌کند که نیازی به حاشیه‌نویسی دستی ندارند.

این امر با توجه به اینکه بیشتر محتوایی که به راحتی به صورت آنلاین در دسترس است حاشیه‌نویسی نشده است و بنابراین نمی‌تواند توسط سایر رویکردهای موجود مورد استفاده قرار گیرد، سودمند است. شایان ذکر است، چارچوب جدید توسعه‌یافته توسط پژوهشگران از هر دو ویرایش اینکه یک قسمت خاص بدن چه حرکتی را انجام می‌دهد (یعنی عناصر معنایی) و چگونه آن را انجام می‌دهد (یعنی عناصر سبکی) پشتیبانی می‌کند.

ژو گفت: «MotionCutMix برای دستیابی به نتایج خوب به نمونه‌های حاشیه‌نویسی‌شده بسیار کمتری نیاز دارد و به طور بالقوه میلیون‌ها تغییرات آموزشی را از یک مجموعه کوچک از نمونه‌های برچسب‌گذاری‌شده ایجاد می‌کند.»

«با آموزش بر روی ترکیبات متنوعی از قسمت‌های بدن و حرکات، مدل یاد می‌گیرد که طیف گسترده‌تری از درخواست‌های ویرایش را مدیریت کند. با وجود ایجاد نمونه‌های آموزشی پیچیده‌تر، به طور قابل توجهی روند آموزش را کند نمی‌کند. پوشش نرم و هماهنگی قسمت‌های بدن حرکات ویرایش‌شده نرم‌تر و طبیعی‌تری را بدون انتقال‌های ناخوشایند یا حرکات غیرواقعی ایجاد می‌کند.»

علاوه بر رویکرد افزایش داده آموزشی MotionCutMix، ژو و همکارانش یک مدل تولید و ویرایش حرکت به نام MotionReFit توسعه دادند. در حالی که از MotionCutMix می‌توان برای ایجاد طیف متنوعی از نمونه‌های آموزشی استفاده کرد، MotionReFit یک مدل انتشار خودرگرسیو است که این نمونه‌ها را پردازش می‌کند و یاد می‌گیرد حرکات انسان را تولید و اصلاح کند.

در مقابل سایر مدل‌های تولید حرکت انسان، MotionReFit به کاربران این امکان را می‌دهد که به سادگی با توصیف تغییراتی که می‌خواهند ایجاد کنند، توالی‌های حرکات انسان را به طور دقیق تغییر دهند. تا جایی که تیم اطلاع دارد، سیستم آن‌ها اولین سیستمی است که می‌تواند هر دو ویرایش فضایی و زمانی را بدون نیاز به ورودی‌های اضافی و مشخصات کاربر انجام دهد.

زیه یوان، یکی از نویسندگان مقاله، توضیح داد: «در هسته خود، MotionReFit از یک مدل انتشار شرطی خودرگرسیو تشکیل شده است که قطعه به قطعه حرکت را پردازش می‌کند، که توسط حرکت اصلی و دستورالعمل‌های متنی هدایت می‌شود.»

«این طراحی بر محدودیت‌های کلیدی رویکردهای قبلی غلبه می‌کند، زیرا با حرکات ورودی دلخواه و دستورالعمل‌های متنی سطح بالا کار می‌کند، بدون اینکه به مشخصات صریح قسمت‌های بدن نیاز داشته باشد. در همین حال، هماهنگی طبیعی بین قسمت‌های بدن را در حین ایجاد تغییرات اساسی در حرکت حفظ می‌کند، در حالی که انتقال‌های هموار را هم از نظر فضایی (بین مناطق بدن اصلاح‌شده و اصلاح‌نشده) و هم از نظر زمانی (در سراسر فریم‌ها) به دست می‌آورد.»

پژوهشگران سیستم پیشنهادی خود را در یک سری آزمایش‌ها ارزیابی کردند و دریافتند که با افزایش مشارکت تکنیک افزایش داده MotionCutMix، کیفیت حرکات انسان بهبود می‌یابد. این امر پیش‌بینی آن‌ها را تأیید کرد که قرار دادن مدل MotionReFit در معرض طیف گسترده‌تری از ترکیبات حرکتی در طول آموزش منجر به تعمیم بهتر در حرکات و سناریوهای مختلف می‌شود.

علاوه بر این، ژو و همکارانش تکنیک افزایش داده خود را با یک مدل پایه به نام TMED ترکیب کردند. به طور قابل توجهی، آن‌ها دریافتند که MotionCutMix عملکرد این مدل را به طور اساسی بهبود می‌بخشد، که نشان می‌دهد می‌توان از آن برای تقویت یادگیری سایر معماری‌ها فراتر از MotionReFit استفاده کرد.

ژو گفت: «با وجود معرفی نمونه‌های آموزشی پیچیده‌تر، همگرایی آموزشی حتی با نسبت‌های بالای MotionCutMix حفظ می‌شود.»

«تمام انواع در 800 هزار مرحله همگرا می‌شوند، که نشان می‌دهد این تکنیک سربار محاسباتی قابل توجهی ایجاد نمی‌کند. این یافته‌ها به طور جمعی نشان می‌دهند که MotionCutMix با استفاده از داده‌های حرکتی موجود برای ایجاد تغییرات آموزشی تقریباً نامحدود از طریق تکنیک‌های ترکیبی هوشمند، به یک چالش اساسی در ویرایش حرکت—دسترسی محدود به سه‌تایی‌های حاشیه‌نویسی‌شده—می‌پردازد.»

در آینده، از تکنیک افزایش داده و مدل تولید حرکت انسان توسعه‌یافته توسط این تیم از پژوهشگران می‌توان برای ایجاد و ویرایش طیف گسترده‌ای از محتوایی که دارای شخصیت‌های انسانی یا انسان‌نما است، استفاده کرد. این می‌تواند ابزار بسیار ارزشمندی برای انیماتورها، توسعه‌دهندگان بازی‌های ویدیویی و سایر سازندگان محتوای ویدیویی باشد.

ژو گفت: «ویرایش حرکت به انیماتورها این امکان را می‌دهد که به سرعت حرکات شخصیت را بدون شروع از ابتدا تکرار کنند.»

«توسعه‌دهندگان بازی می‌توانند تغییرات حرکتی گسترده‌ای را از داده‌های ضبط‌شده محدود ایجاد کنند و رفتارهای متنوع NPC و انیمیشن‌های بازیکن را ایجاد کنند. تعامل انسان و ربات می‌تواند با فعال کردن ربات‌ها برای تنظیم حرکات خود بر اساس بازخورد زبان طبیعی بهبود یابد. محیط‌های تولیدی می‌توانند الگوهای حرکتی رباتیک را بدون برنامه‌ریزی مجدد تنظیم کنند.»

سیستم ایجادشده توسط ژو و همکارانش متکی بر یک رابط مبتنی بر متن است، بنابراین برای کاربرانی که تجربه ایجاد بازی یا انیمیشن را ندارند نیز قابل دسترسی است. در آینده، می‌توان آن را برای استفاده در تحقیقات رباتیک تطبیق داد، به عنوان مثال به عنوان ابزاری برای بهبود حرکات ربات‌های خدماتی انسان‌نما.

جیانگ افزود: «توسعه تکنیک‌های پیشرفته نمایش حرکت که وابستگی‌ها را در سراسر توالی‌های طولانی‌تر بهتر ثبت می‌کنند، برای مدیریت الگوهای زمانی پیچیده بسیار مهم خواهد بود.» «این می‌تواند شامل مکانیسم‌های توجه تخصصی برای پیگیری سازگاری در اقدامات متوالی و مدل‌های سلسله مراتبی باشد که هم حرکات خرد و هم الگوهای کلان را درک می‌کنند.»

به عنوان بخشی از مطالعات بعدی خود، پژوهشگران قصد دارند قابلیت‌های سیستم خود را گسترش دهند، به عنوان مثال، به آن اجازه دهند از تصاویر آپلودشده به عنوان مراجع بصری استفاده کند و بر اساس نمایش‌های ارائه‌شده توسط کاربران، ویرایش‌ها را انجام دهد.

آن‌ها همچنین می‌خواهند توانایی آن را برای ویرایش حرکات به روش‌هایی که با محدودیت‌های محیطی و با زمینه‌ای که در آن انجام می‌شوند هماهنگ است، افزایش دهند.

اطلاعات بیشتر:

نان جیانگ و همکاران، ترکیب حرکت پویا برای ویرایش حرکت همه‌کاره، arXiv (2025). DOI: 10.48550/arxiv.2503.20724

اطلاعات ژورنال: arXiv