OmniHuman-1، یک مدل پیشرفته تولید ویدیوی انسانی مبتنی بر هوش مصنوعی، معرفی شده است که نشاندهنده یک جهش قابل توجه در فناوری انیمیشن چندوجهی است. OmniHuman-1 امکان ایجاد ویدیوهای بسیار واقعی از انسان را با استفاده از حداقل ورودی، مانند یک تصویر واحد و نشانههای حرکتی مانند صدا یا ویدیو، فراهم میکند. استراتژی نوآورانه آموزش شرطیسازی ترکیبی این مدل، آن را قادر میسازد تا به طور موثر از منابع داده متنوع استفاده کند و بر محدودیتهای قبلی در تحقیقات انیمیشن انسانی غلبه کند.
در هسته OmniHuman-1، معماری مبتنی بر DiT (Diffusion Transformer) آن قرار دارد، که با استفاده از یک مدل دیفیوژن فضازمانی، امکان ترکیب حرکت با کیفیت بالا را فراهم میکند. این چارچوب از دو جزء اصلی تشکیل شده است:
- استراتژی آموزش Omni-Conditions - یک رویکرد آموزشی تدریجی و چند مرحلهای که دادهها را بر اساس میزان مرتبط بودن سیگنالهای شرطیسازی با حرکت سازماندهی میکند. این آموزش شرطیسازی ترکیبی، مدل را قادر میسازد تا به طور موثر با منابع داده متنوع مقیاس شود و به طور قابل توجهی کیفیت و سازگاری انیمیشن را بهبود بخشد.
- مدل OmniHuman - ساخته شده بر اساس معماری DiT، امکان شرطیسازی همزمان بر روی چند وجه مختلف، از جمله متن، تصویر، صدا و ژست را فراهم میکند و کنترل دقیق و انعطافپذیر بر روی انیمیشن انسانی را امکانپذیر میسازد.
این پیشرفت به OmniHuman-1 اجازه میدهد تا از نسبتهای تصویر مختلف، از جمله پرتره، نیمتنه و تمام بدن، پشتیبانی کند و آن را به ابزاری همهکاره برای برنامههای کاربردی مختلف، از دستیارهای مجازی گرفته تا تولید محتوای دیجیتال، تبدیل میکند. این مدل، حتی با سیگنالهای ورودی ضعیف مانند صدا، در تولید حرکت سیال و هماهنگ انسانی از مدلهای موجود بهتر عمل میکند.
آزمایشهای معیار، برتری OmniHuman-1 را نسبت به مدلهای رقیب تایید میکنند. ارزیابیهای انجام شده با استفاده از مجموعهدادههایی مانند CelebV-HQ و RAVDESS نشان میدهد که این مدل بالاترین امتیازات را در معیارهای کلیدی، از جمله ارزیابی کیفیت تصویر (IQA)، زیباییشناسی (ASE) و دقت همگامسازی لب (Sync-C) به دست میآورد. در مقایسه با مدلهای تثبیت شده مانند SadTalker، Hallo و Loopy برای انیمیشن پرتره، و CyberHost و DiffTED برای انیمیشن بدن، OmniHuman-1 به طور مداوم واقعگرایی، سیالیت حرکت و دقت نقاط کلیدی دست را بهبود میبخشد.
کارشناسان صنعت معتقدند که مدلهایی مانند OmniHuman-1 میتوانند رسانههای دیجیتال و انیمیشن انسانی مبتنی بر هوش مصنوعی را متحول کنند. با این حال، آنها بر اهمیت اطمینان از دسترسی و درک برای همه کاربران، نه فقط متخصصان فنی، تاکید میکنند. با پیشرفت هوش مصنوعی، ایجاد تعادل بین نوآوری و آموزش کاربران یک چالش مهم باقی میماند.
OmniHuman-1 کاربردهای بالقوهای در مراقبتهای بهداشتی، آموزش و داستانسرایی تعاملی دارد. این مدل میتواند انیمیشنهای واقعگرایانه انسانی را با حداقل ورودی تولید کند و به درمان و آموزش مجازی کمک کند. توسعهدهندگان بر روی اصلاح مدل، با تاکید بر ملاحظات اخلاقی، کاهش سوگیری و بهبود عملکرد در زمان واقعی تمرکز کردهاند.
درباره نویسنده
Robert Krzaczynski یک مهندس نرمافزار است که در فناوریهای مایکروسافت تخصص دارد. او روزانه نرمافزارهایی را عمدتاً در داتنت توسعه میدهد، اما علاقههای او بسیار فراتر میرود. در کنار تخصص اصلی خود، Robert علاقه زیادی به یادگیری ماشین و هوش مصنوعی دارد و به طور مداوم دانش خود را در این زمینههای پیشرفته گسترش میدهد. او دارای مدرک کارشناسی مهندسی در مهندسی کنترل و رباتیک و مدرک کارشناسی ارشد مهندسی در علوم کامپیوتر است.