هنگام کاوش در محیط اطراف، برقراری ارتباط با دیگران و ابراز وجود، انسانها میتوانند طیف گستردهای از حرکات بدن را انجام دهند. توانایی شبیهسازی واقعگرایانه این حرکات و اعمال آنها بر روی شخصیتهای انسانی و انساننما، میتواند برای توسعه بازیهای ویدیویی و ایجاد انیمیشنها، محتوایی که میتواند با استفاده از هدستهای واقعیت مجازی (VR) مشاهده شود، و ویدیوهای آموزشی برای متخصصان بسیار ارزشمند باشد.
پژوهشگران در موسسه هوش مصنوعی دانشگاه پکن (AI) و آزمایشگاه کلیدی دولتی هوش مصنوعی عمومی اخیراً مدلهای جدیدی را معرفی کردهاند که میتواند تولید حرکات واقعگرایانه برای شخصیتها یا آواتارهای انسانی را سادهتر کند. این پژوهش در سرور پیشانتشار arXiv منتشر شده است.
رویکرد پیشنهادی آنها برای تولید حرکات انسان، که در مقالهای ارائه شده در CVPR 2025 تشریح شده است، متکی بر یک تکنیک افزایش داده به نام MotionCutMix و یک مدل انتشار به نام MotionReFit است.
ییکسین ژو، نویسنده ارشد مقاله، به تکسپلور گفت: «ما به عنوان پژوهشگرانی که به بررسی تقاطع هوش مصنوعی و بینایی کامپیوتر میپردازیم، مجذوب پیشرفتهای اخیر در تولید حرکت از متن—سیستمهایی که میتوانند حرکات انسان را از توضیحات متنی ایجاد کنند—شدیم.»
«با این حال، ما یک شکاف اساسی در چشمانداز فناوری مشاهده کردیم. در حالی که تولید حرکات از ابتدا پیشرفت چشمگیری داشته است، توانایی ویرایش حرکات موجود به شدت محدود باقی مانده است.»
هنرمندان، توسعهدهندگان بازیهای ویدیویی و فیلمسازان انیمیشن معمولاً محتوای جدید را به طور کامل از ابتدا ایجاد نمیکنند، بلکه از آثار قبلی الهام میگیرند، آنها را اصلاح و تنظیم میکنند تا به نتایج دلخواه خود برسند. با این حال، اکثر سیستمهای هوش مصنوعی و یادگیری ماشین موجود برای پشتیبانی از این گردش کار خلاقانه مبتنی بر ویرایش و الهام طراحی نشدهاند.
نان جیانگ، یکی از نویسندگان مقاله، گفت: «سیستمهای توسعهیافته قبلی که تلاش میکردند حرکت را ویرایش کنند با یک محدودیت قابل توجه روبرو بودند، یعنی آنها به مجموعههای سهتایی گستردهای از حرکات اصلی، حرکات ویرایششده و دستورالعملهای مربوطه نیاز داشتند—دادههایی که بسیار کمیاب و گران هستند.» «این امر آنها را غیرقابل انعطاف میکرد و تنها قادر به رسیدگی به سناریوهای ویرایشی خاصی بودند که به طور صریح روی آنها آموزش دیده بودند.»
هدف اصلی مطالعه اخیر توسط ژو و همکارانش ایجاد یک سیستم جدید بود که بتواند تمام حرکات انسان را بر اساس دستورالعملهای نوشتاری ارائه شده توسط کاربران، بدون نیاز به ورودیهای خاص وظیفه یا مشخصات قسمتهای بدن، ویرایش کند.
آنها میخواستند این سیستم از هر دو تغییر در قسمتهای خاص بدن (یعنی ویرایش فضایی) و انطباق حرکات در طول زمان (یعنی ویرایش زمانی) پشتیبانی کند، و به خوبی در سناریوهای مختلف تعمیم یابد، حتی زمانی که بر روی دادههای حاشیهنویسی شده محدود آموزش داده شده باشد.
هونگجی لی، یکی از نویسندگان مقاله، توضیح داد: «MotionCutMix، رویکردی برای یادگیری ماشین که ما ابداع کردیم، یک تکنیک آموزشی ساده اما مؤثر است که به سیستمهای هوش مصنوعی کمک میکند تا ویرایش حرکات سه بعدی انسان را بر اساس دستورالعملهای متنی یاد بگیرند.»
«به طور مشابه، همانطور که سرآشپزها میتوانند با ترکیب و تطبیق مواد مختلف، غذاهای مختلفی ایجاد کنند—MotionCutMix نمونههای آموزشی متنوعی را با ترکیب قسمتهای بدن از توالیهای حرکتی مختلف ایجاد میکند.»
رویکرد یادگیری توسعهیافته توسط پژوهشگران میتواند قسمتهای خاصی از بدن (به عنوان مثال، بازوها، پاها، تنه و غیره یک شخصیت) را در یک توالی حرکتی انتخاب کند و آنها را با قسمتهای موجود در توالی دیگر ترکیب کند. به جای انتقال ناگهانی از حرکات یک قسمت بدن به حرکات قسمت دیگر، MotionCutMix به تدریج مرزهای بین آنها را ترکیب میکند و در نتیجه حرکات نرمتری تولید میکند.
جیانگ گفت: «به عنوان مثال، هنگام ترکیب حرکت بازو از یک حرکت با تنه از حرکت دیگر، ناحیه شانه را به آرامی درونیابی میکند.» «برای هر حرکت ترکیبی، یک نمونه آموزشی جدید متشکل از یک حرکت اصلی، یک نسخه ویرایششده از آن حرکت و یک دستورالعمل متنی که تغییر را توصیف میکند، ایجاد میکند.»
اکثر رویکردهای معرفیشده قبلی برای تولید حرکات انسان بر روی مجموعهدادههای ثابت آموزش داده شدهاند، که معمولاً شامل ویدیوهای حاشیهنویسیشده از افرادی است که به روشهای مختلف حرکت میکنند. در مقابل، MotionCutMix میتواند نمونههای آموزشی جدید را در لحظه تولید کند، که امکان یادگیری از کتابخانههای بزرگ دادههای حرکتی را فراهم میکند که نیازی به حاشیهنویسی دستی ندارند.
این امر با توجه به اینکه بیشتر محتوایی که به راحتی به صورت آنلاین در دسترس است حاشیهنویسی نشده است و بنابراین نمیتواند توسط سایر رویکردهای موجود مورد استفاده قرار گیرد، سودمند است. شایان ذکر است، چارچوب جدید توسعهیافته توسط پژوهشگران از هر دو ویرایش اینکه یک قسمت خاص بدن چه حرکتی را انجام میدهد (یعنی عناصر معنایی) و چگونه آن را انجام میدهد (یعنی عناصر سبکی) پشتیبانی میکند.
ژو گفت: «MotionCutMix برای دستیابی به نتایج خوب به نمونههای حاشیهنویسیشده بسیار کمتری نیاز دارد و به طور بالقوه میلیونها تغییرات آموزشی را از یک مجموعه کوچک از نمونههای برچسبگذاریشده ایجاد میکند.»
«با آموزش بر روی ترکیبات متنوعی از قسمتهای بدن و حرکات، مدل یاد میگیرد که طیف گستردهتری از درخواستهای ویرایش را مدیریت کند. با وجود ایجاد نمونههای آموزشی پیچیدهتر، به طور قابل توجهی روند آموزش را کند نمیکند. پوشش نرم و هماهنگی قسمتهای بدن حرکات ویرایششده نرمتر و طبیعیتری را بدون انتقالهای ناخوشایند یا حرکات غیرواقعی ایجاد میکند.»
علاوه بر رویکرد افزایش داده آموزشی MotionCutMix، ژو و همکارانش یک مدل تولید و ویرایش حرکت به نام MotionReFit توسعه دادند. در حالی که از MotionCutMix میتوان برای ایجاد طیف متنوعی از نمونههای آموزشی استفاده کرد، MotionReFit یک مدل انتشار خودرگرسیو است که این نمونهها را پردازش میکند و یاد میگیرد حرکات انسان را تولید و اصلاح کند.
در مقابل سایر مدلهای تولید حرکت انسان، MotionReFit به کاربران این امکان را میدهد که به سادگی با توصیف تغییراتی که میخواهند ایجاد کنند، توالیهای حرکات انسان را به طور دقیق تغییر دهند. تا جایی که تیم اطلاع دارد، سیستم آنها اولین سیستمی است که میتواند هر دو ویرایش فضایی و زمانی را بدون نیاز به ورودیهای اضافی و مشخصات کاربر انجام دهد.
زیه یوان، یکی از نویسندگان مقاله، توضیح داد: «در هسته خود، MotionReFit از یک مدل انتشار شرطی خودرگرسیو تشکیل شده است که قطعه به قطعه حرکت را پردازش میکند، که توسط حرکت اصلی و دستورالعملهای متنی هدایت میشود.»
«این طراحی بر محدودیتهای کلیدی رویکردهای قبلی غلبه میکند، زیرا با حرکات ورودی دلخواه و دستورالعملهای متنی سطح بالا کار میکند، بدون اینکه به مشخصات صریح قسمتهای بدن نیاز داشته باشد. در همین حال، هماهنگی طبیعی بین قسمتهای بدن را در حین ایجاد تغییرات اساسی در حرکت حفظ میکند، در حالی که انتقالهای هموار را هم از نظر فضایی (بین مناطق بدن اصلاحشده و اصلاحنشده) و هم از نظر زمانی (در سراسر فریمها) به دست میآورد.»
پژوهشگران سیستم پیشنهادی خود را در یک سری آزمایشها ارزیابی کردند و دریافتند که با افزایش مشارکت تکنیک افزایش داده MotionCutMix، کیفیت حرکات انسان بهبود مییابد. این امر پیشبینی آنها را تأیید کرد که قرار دادن مدل MotionReFit در معرض طیف گستردهتری از ترکیبات حرکتی در طول آموزش منجر به تعمیم بهتر در حرکات و سناریوهای مختلف میشود.
علاوه بر این، ژو و همکارانش تکنیک افزایش داده خود را با یک مدل پایه به نام TMED ترکیب کردند. به طور قابل توجهی، آنها دریافتند که MotionCutMix عملکرد این مدل را به طور اساسی بهبود میبخشد، که نشان میدهد میتوان از آن برای تقویت یادگیری سایر معماریها فراتر از MotionReFit استفاده کرد.
ژو گفت: «با وجود معرفی نمونههای آموزشی پیچیدهتر، همگرایی آموزشی حتی با نسبتهای بالای MotionCutMix حفظ میشود.»
«تمام انواع در 800 هزار مرحله همگرا میشوند، که نشان میدهد این تکنیک سربار محاسباتی قابل توجهی ایجاد نمیکند. این یافتهها به طور جمعی نشان میدهند که MotionCutMix با استفاده از دادههای حرکتی موجود برای ایجاد تغییرات آموزشی تقریباً نامحدود از طریق تکنیکهای ترکیبی هوشمند، به یک چالش اساسی در ویرایش حرکت—دسترسی محدود به سهتاییهای حاشیهنویسیشده—میپردازد.»
در آینده، از تکنیک افزایش داده و مدل تولید حرکت انسان توسعهیافته توسط این تیم از پژوهشگران میتوان برای ایجاد و ویرایش طیف گستردهای از محتوایی که دارای شخصیتهای انسانی یا انساننما است، استفاده کرد. این میتواند ابزار بسیار ارزشمندی برای انیماتورها، توسعهدهندگان بازیهای ویدیویی و سایر سازندگان محتوای ویدیویی باشد.
ژو گفت: «ویرایش حرکت به انیماتورها این امکان را میدهد که به سرعت حرکات شخصیت را بدون شروع از ابتدا تکرار کنند.»
«توسعهدهندگان بازی میتوانند تغییرات حرکتی گستردهای را از دادههای ضبطشده محدود ایجاد کنند و رفتارهای متنوع NPC و انیمیشنهای بازیکن را ایجاد کنند. تعامل انسان و ربات میتواند با فعال کردن رباتها برای تنظیم حرکات خود بر اساس بازخورد زبان طبیعی بهبود یابد. محیطهای تولیدی میتوانند الگوهای حرکتی رباتیک را بدون برنامهریزی مجدد تنظیم کنند.»
سیستم ایجادشده توسط ژو و همکارانش متکی بر یک رابط مبتنی بر متن است، بنابراین برای کاربرانی که تجربه ایجاد بازی یا انیمیشن را ندارند نیز قابل دسترسی است. در آینده، میتوان آن را برای استفاده در تحقیقات رباتیک تطبیق داد، به عنوان مثال به عنوان ابزاری برای بهبود حرکات رباتهای خدماتی انساننما.
جیانگ افزود: «توسعه تکنیکهای پیشرفته نمایش حرکت که وابستگیها را در سراسر توالیهای طولانیتر بهتر ثبت میکنند، برای مدیریت الگوهای زمانی پیچیده بسیار مهم خواهد بود.» «این میتواند شامل مکانیسمهای توجه تخصصی برای پیگیری سازگاری در اقدامات متوالی و مدلهای سلسله مراتبی باشد که هم حرکات خرد و هم الگوهای کلان را درک میکنند.»
به عنوان بخشی از مطالعات بعدی خود، پژوهشگران قصد دارند قابلیتهای سیستم خود را گسترش دهند، به عنوان مثال، به آن اجازه دهند از تصاویر آپلودشده به عنوان مراجع بصری استفاده کند و بر اساس نمایشهای ارائهشده توسط کاربران، ویرایشها را انجام دهد.
آنها همچنین میخواهند توانایی آن را برای ویرایش حرکات به روشهایی که با محدودیتهای محیطی و با زمینهای که در آن انجام میشوند هماهنگ است، افزایش دهند.
اطلاعات بیشتر:
نان جیانگ و همکاران، ترکیب حرکت پویا برای ویرایش حرکت همهکاره، arXiv (2025). DOI: 10.48550/arxiv.2503.20724
اطلاعات ژورنال: arXiv