شرکت بایتدنس DreamActor-M1 را معرفی کرده است، چارچوب جدیدی که برای تولید انیمیشنهای انسانی واقعگرایانه از روی تصاویر مرجع طراحی شده است. این چارچوب به مسائل کلیدی در مدلهای انیمیشنسازی فعلی میپردازد تا به کنترل دقیقتر، سازگاری بیشتر و ثبات بهتر دست یابد.
این معرفی درست پس از آن صورت میگیرد که بایتدنس مدلهای هوش مصنوعی Goku و InfiniteYou را اعلام کرد.
DreamActor-M1 بر اساس معماری ترانسفورمر انتشاری (Diffusion Transformer یا DiT) ساخته شده و از یک رویکرد هدایت ترکیبی برای دستیابی به نتایج خود استفاده میکند. این مدل ترکیبی از نمایشهای ضمنی چهره، کرههای سهبعدی سر و اسکلتهای سهبعدی بدن را به کار میگیرد تا حالات چهره و حرکات بدن را با دقت بیشتری کنترل کند.
برای مدیریت حالتهای مختلف بدن و مقیاسهای تصویر، این مدل با استفاده از یک استراتژی پیشرونده بر روی مجموعهدادهای با وضوحها و مقیاسهای متفاوت آموزش داده شده است. DreamActor-M1 الگوهای حرکتی از فریمهای متوالی را با مراجع بصری مکمل ادغام میکند تا ثبات را در دورههای طولانیتر تضمین نماید و چالشهای مربوط به نواحی دیده نشده در طول حرکات پیچیده را برطرف سازد.
مقاله پژوهشی، DreamActor-M1 را با چندین مدل پیشرفته انیمیشنسازی تصویر انسانی مقایسه میکند. برای انیمیشن بدن، DreamActor-M1 با مدلهای Animate Anyone، Champ، MimicMotion و DisPose مقایسه شد.
در انیمیشن پرتره، این مدل در کنار LivePortrait، X-Portrait، SkyReels-A1 و Runway Act-One ارزیابی شد.
نتایج این مقایسهها نشان میدهد که DreamActor-M1 در تولید انیمیشنهای بیانگرتر و باثباتتر از روشهای موجود عملکرد بهتری دارد.
پژوهشگران همچنین اذعان داشتند که این مدلهای هوش مصنوعی میتوانند مورد سوءاستفاده قرار گیرند. آنها اظهار داشتند: «برای کاهش این خطرات، قوانین اخلاقی شفاف و دستورالعملهای استفاده مسئولانه ضروری است. ما دسترسی به مدلها و کدهای اصلی خود را بهشدت محدود خواهیم کرد تا از سوءاستفاده جلوگیری شود. تصاویر و ویدیوها همگی از منابع در دسترس عموم تهیه شدهاند.»
درحالیکه DreamActor-M1 پیشرفت قابل توجهی را نشان میدهد، پژوهشگران به محدودیتهای خاصی اذعان دارند. این مدل در کنترل حرکات پویای دوربین و تولید تعاملات فیزیکی با اشیاء محیطی با مشکل مواجه است. کار آینده آنها با هدف پرداختن به این چالشها و بهبود بیشتر قابلیتهای مدل انجام خواهد شد.