ساخت مدلهای سهبعدی واقعگرایانه برای کاربردهایی مانند واقعیت مجازی، فیلمسازی و طراحی مهندسی میتواند فرآیندی دست و پا گیر باشد که نیازمند آزمون و خطای دستی زیادی است.
در حالی که مدلهای هوش مصنوعی مولد برای تصاویر میتوانند فرآیندهای هنری را با فعال کردن سازندگان برای تولید تصاویر دوبعدی شبیه به واقعیت از متنهای ورودی، ساده کنند، این مدلها برای تولید اشکال سهبعدی طراحی نشدهاند. برای پر کردن این شکاف، تکنیکی که اخیراً توسعه یافته و Score Distillation (تقطیر امتیاز) نام دارد، از مدلهای تولید تصویر دوبعدی برای ایجاد اشکال سهبعدی استفاده میکند، اما خروجی آن اغلب مبهم یا کارتونی است.
محققان MIT روابط و تفاوتهای بین الگوریتمهای مورد استفاده برای تولید تصاویر دوبعدی و اشکال سهبعدی را بررسی کردند و علت اصلی کیفیت پایین مدلهای سهبعدی را شناسایی کردند. سپس، یک راهکار ساده برای Score Distillation ابداع کردند که امکان تولید اشکال سهبعدی واضح و با کیفیت بالا را فراهم میکند و کیفیت آنها به بهترین تصاویر دوبعدی تولید شده توسط مدل نزدیکتر است.
برخی روشهای دیگر تلاش میکنند این مشکل را با آموزش مجدد یا تنظیم دقیق مدل هوش مصنوعی مولد برطرف کنند، که میتواند پرهزینه و زمانبر باشد.
در مقابل، تکنیک محققان MIT بدون نیاز به آموزش اضافی یا پردازش پس از تولید پیچیده، به کیفیت شکل سهبعدی همسطح یا بهتر از این رویکردها دست مییابد.
علاوه بر این، با شناسایی علت مشکل، محققان درک ریاضی از Score Distillation و تکنیکهای مرتبط را بهبود بخشیدهاند و امکان کارهای آینده را برای بهبود بیشتر عملکرد فراهم کردهاند.
آرتم لوکویانوف، دانشجوی تحصیلات تکمیلی مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی مقالهای در مورد این تکنیک میگوید: «اکنون میدانیم به کجا باید برویم، که به ما امکان میدهد راهحلهای کارآمدتری پیدا کنیم که سریعتر و با کیفیتتر هستند. در درازمدت، کار ما میتواند به تسهیل فرآیند برای همراهی طراحان کمک کند و ساخت اشکال سهبعدی واقعگرایانهتر را آسانتر سازد.»
همکاران لوکویانوف شامل: هیتز سائز ده اوکاریز بورده، دانشجوی تحصیلات تکمیلی در دانشگاه آکسفورد؛ کریستیان گرینهوالد، دانشمند پژوهشگر در آزمایشگاه هوش مصنوعی MIT-IBM واتسون؛ ویتور کامپانیولو گویزیلینی، دانشمند در موسسه تحقیقاتی تویوتا؛ تیمور باگااوتدینوف، دانشمند پژوهشگر در متا؛ و نویسندگان ارشد وینسنت سیتزمان، استادیار EECS در MIT و سرپرست گروه نمایش صحنه در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL)، و جاستین سلیمان، دانشیار EECS و سرپرست گروه پردازش دادههای هندسی CSAIL هستند. این تحقیق در کنفرانس سیستمهای پردازش اطلاعات عصبی ارائه خواهد شد.
از تصاویر دوبعدی تا اشکال سهبعدی
مدلهای انتشار (Diffusion models)، مانند DALL-E، نوعی مدل هوش مصنوعی مولد هستند که میتوانند تصاویر شبیه به واقعیت را از نویز تصادفی تولید کنند. برای آموزش این مدلها، محققان به تصاویر نویز اضافه میکنند و سپس به مدل آموزش میدهند که فرآیند را معکوس کرده و نویز را حذف کند. این مدلها از این فرآیند یادگرفته شده "حذف نویز" برای ایجاد تصاویر بر اساس متنهای ورودی کاربر استفاده میکنند.
اما مدلهای انتشار در تولید مستقیم اشکال سهبعدی واقعگرایانه عملکرد ضعیفی دارند زیرا دادههای سهبعدی کافی برای آموزش آنها وجود ندارد. برای حل این مشکل، محققان در سال 2022 تکنیکی به نام Score Distillation Sampling (SDS) را توسعه دادند که از یک مدل انتشار از پیش آموزشدیده برای ترکیب تصاویر دوبعدی به یک نمایش سهبعدی استفاده میکند.
این تکنیک شامل شروع با یک نمایش سهبعدی تصادفی، رندر کردن یک نمای دوبعدی از شیء مورد نظر از یک زاویه دوربین تصادفی، اضافه کردن نویز به آن تصویر، حذف نویز با یک مدل انتشار، و سپس بهینهسازی نمایش سهبعدی تصادفی به گونهای است که با تصویر حذف نویز شده مطابقت داشته باشد. این مراحل تا زمانی که شیء سهبعدی مورد نظر تولید شود، تکرار میشوند.
با این حال، اشکال سهبعدی تولید شده به این روش تمایل دارند مبهم یا بیش از حد اشباع شده به نظر برسند.
لوکویانوف میگوید: «این برای مدتی یک گلوگاه بوده است. میدانیم مدل اصلی قادر به انجام بهتر است، اما مردم نمیدانستند چرا این اتفاق با اشکال سهبعدی میافتد.»
محققان MIT مراحل SDS را بررسی کردند و عدم تطابق بین فرمولی که بخش کلیدی این فرآیند را تشکیل میدهد و همتای آن در مدلهای انتشار دوبعدی را شناسایی کردند. این فرمول به مدل میگوید که چگونه نمایش تصادفی را با اضافه کردن و حذف نویز، گام به گام، بهروزرسانی کند تا شبیه تصویر مورد نظر به نظر برسد.
از آنجایی که بخشی از این فرمول شامل یک معادله است که حل آن به صورت کارآمد بیش از حد پیچیده است، SDS آن را با نویز نمونهبرداری شده تصادفی در هر مرحله جایگزین میکند. محققان MIT دریافتند که این نویز منجر به اشکال سهبعدی مبهم یا کارتونی میشود.
پاسخی تقریبی
محققان به جای تلاش برای حل دقیق این فرمول دست و پا گیر، تکنیکهای تقریبی را آزمایش کردند تا بهترین را شناسایی کنند. به جای نمونهبرداری تصادفی از عبارت نویز، تکنیک تقریبی آنها عبارت گمشده را از رندر شکل سهبعدی فعلی استنتاج میکند.
او میگوید: «با انجام این کار، همانطور که تحلیل در مقاله پیشبینی میکند، اشکال سهبعدی تولید میشود که واضح و واقعگرایانه به نظر میرسند.»
علاوه بر این، محققان رزولوشن رندر تصویر را افزایش دادند و برخی پارامترهای مدل را تنظیم کردند تا کیفیت شکل سهبعدی را بیشتر افزایش دهند.
در نهایت، آنها توانستند از یک مدل انتشار تصویر از پیش آموزشدیده استاندارد برای ایجاد اشکال سهبعدی صاف و واقعگرایانه بدون نیاز به آموزش مجدد پرهزینه استفاده کنند. اشیاء سهبعدی تولید شده به همان اندازه واضح هستند که با استفاده از روشهای دیگری که بر راهحلهای موقتی تکیه دارند، تولید میشوند.
او میگوید: «تلاش برای آزمایش کورکورانه با پارامترهای مختلف، گاهی جواب میدهد و گاهی نه، اما نمیدانید چرا. ما میدانیم که این معادلهای است که باید حل کنیم. اکنون، این به ما امکان میدهد به روشهای کارآمدتری برای حل آن فکر کنیم.»
از آنجا که روش آنها بر یک مدل انتشار از پیش آموزشدیده تکیه دارد، سوگیریها و کاستیهای آن مدل را به ارث میبرد و مستعد توهمات و سایر خطاها است. بهبود مدل انتشار اصلی فرآیند آنها را افزایش خواهد داد.
علاوه بر مطالعه فرمول برای دیدن چگونگی حل مؤثرتر آن، محققان علاقهمند به بررسی چگونگی بهبود تکنیکهای ویرایش تصویر با استفاده از این بینشها هستند.
کار آرتم لوکویانوف توسط مرکز تحقیقات مشترک تویوتا-CSAIL تامین مالی میشود. تحقیقات وینسنت سیتزمان توسط بنیاد ملی علوم ایالات متحده، سازمان علوم و فناوری دفاع سنگاپور، وزارت کشور/مرکز تجاری داخلی، و IBM پشتیبانی میشود. تحقیقات جاستین سلیمان، بخشی از آن، توسط دفتر تحقیقات ارتش ایالات متحده، بنیاد ملی علوم، برنامه آینده دادههای CSAIL، آزمایشگاه هوش مصنوعی MIT-IBM واتسون، شرکت ویسترون، و مرکز تحقیقات مشترک تویوتا-CSAIL تامین مالی میشود.