تکنیک جدید امکان تولید اشکال سه‌بعدی واضح‌تر و شبیه به واقعیت – مانند این زنبورهای رباتیک – را بدون نیاز به آموزش مجدد یا تنظیم دقیق مدل هوش مصنوعی مولد فراهم می‌کند. تصویر: با احترام از محققان؛ اخبار MIT
تکنیک جدید امکان تولید اشکال سه‌بعدی واضح‌تر و شبیه به واقعیت – مانند این زنبورهای رباتیک – را بدون نیاز به آموزش مجدد یا تنظیم دقیق مدل هوش مصنوعی مولد فراهم می‌کند. تصویر: با احترام از محققان؛ اخبار MIT

روشی جدید برای ساخت اشکال سه‌بعدی واقع‌گرایانه با هوش مصنوعی مولد

محققان یک راهکار ساده برای بهبود تکنیک موجود پیشنهاد می‌دهند که می‌تواند به هنرمندان، طراحان و مهندسان در ساخت مدل‌های سه‌بعدی بهتر کمک کند.

ساخت مدل‌های سه‌بعدی واقع‌گرایانه برای کاربردهایی مانند واقعیت مجازی، فیلم‌سازی و طراحی مهندسی می‌تواند فرآیندی دست و پا گیر باشد که نیازمند آزمون و خطای دستی زیادی است.

در حالی که مدل‌های هوش مصنوعی مولد برای تصاویر می‌توانند فرآیندهای هنری را با فعال کردن سازندگان برای تولید تصاویر دوبعدی شبیه به واقعیت از متن‌های ورودی، ساده کنند، این مدل‌ها برای تولید اشکال سه‌بعدی طراحی نشده‌اند. برای پر کردن این شکاف، تکنیکی که اخیراً توسعه یافته و Score Distillation (تقطیر امتیاز) نام دارد، از مدل‌های تولید تصویر دوبعدی برای ایجاد اشکال سه‌بعدی استفاده می‌کند، اما خروجی آن اغلب مبهم یا کارتونی است.

محققان MIT روابط و تفاوت‌های بین الگوریتم‌های مورد استفاده برای تولید تصاویر دوبعدی و اشکال سه‌بعدی را بررسی کردند و علت اصلی کیفیت پایین مدل‌های سه‌بعدی را شناسایی کردند. سپس، یک راهکار ساده برای Score Distillation ابداع کردند که امکان تولید اشکال سه‌بعدی واضح و با کیفیت بالا را فراهم می‌کند و کیفیت آن‌ها به بهترین تصاویر دوبعدی تولید شده توسط مدل نزدیک‌تر است.

تصویر متحرک از یک زنبور رباتیک در حال چرخش.
    
تصویر متحرک از یک توت‌فرنگی در حال چرخش.
این نمونه‌ها دو شیء سه‌بعدی در حال چرخش را نشان می‌دهند: یک زنبور رباتیک و یک توت‌فرنگی. محققان از هوش مصنوعی مولد مبتنی بر متن و تکنیک جدید خود برای ایجاد اشیاء سه‌بعدی استفاده کردند.<br><br>تصویر: با احترام از محققان؛ اخبار MIT

برخی روش‌های دیگر تلاش می‌کنند این مشکل را با آموزش مجدد یا تنظیم دقیق مدل هوش مصنوعی مولد برطرف کنند، که می‌تواند پرهزینه و زمان‌بر باشد.

در مقابل، تکنیک محققان MIT بدون نیاز به آموزش اضافی یا پردازش پس از تولید پیچیده، به کیفیت شکل سه‌بعدی هم‌سطح یا بهتر از این رویکردها دست می‌یابد.

علاوه بر این، با شناسایی علت مشکل، محققان درک ریاضی از Score Distillation و تکنیک‌های مرتبط را بهبود بخشیده‌اند و امکان کارهای آینده را برای بهبود بیشتر عملکرد فراهم کرده‌اند.

آرتم لوکویانوف، دانشجوی تحصیلات تکمیلی مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی مقاله‌ای در مورد این تکنیک می‌گوید: «اکنون می‌دانیم به کجا باید برویم، که به ما امکان می‌دهد راه‌حل‌های کارآمدتری پیدا کنیم که سریع‌تر و با کیفیت‌تر هستند. در درازمدت، کار ما می‌تواند به تسهیل فرآیند برای همراهی طراحان کمک کند و ساخت اشکال سه‌بعدی واقع‌گرایانه‌تر را آسان‌تر سازد.»

همکاران لوکویانوف شامل: هیتز سائز ده اوکاریز بورده، دانشجوی تحصیلات تکمیلی در دانشگاه آکسفورد؛ کریستیان گرینه‌والد، دانشمند پژوهشگر در آزمایشگاه هوش مصنوعی MIT-IBM واتسون؛ ویتور کامپانیولو گویزیلینی، دانشمند در موسسه تحقیقاتی تویوتا؛ تیمور باگااوتدینوف، دانشمند پژوهشگر در متا؛ و نویسندگان ارشد وینسنت سیتزمان، استادیار EECS در MIT و سرپرست گروه نمایش صحنه در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL)، و جاستین سلیمان، دانشیار EECS و سرپرست گروه پردازش داده‌های هندسی CSAIL هستند. این تحقیق در کنفرانس سیستم‌های پردازش اطلاعات عصبی ارائه خواهد شد.

از تصاویر دوبعدی تا اشکال سه‌بعدی

مدل‌های انتشار (Diffusion models)، مانند DALL-E، نوعی مدل هوش مصنوعی مولد هستند که می‌توانند تصاویر شبیه به واقعیت را از نویز تصادفی تولید کنند. برای آموزش این مدل‌ها، محققان به تصاویر نویز اضافه می‌کنند و سپس به مدل آموزش می‌دهند که فرآیند را معکوس کرده و نویز را حذف کند. این مدل‌ها از این فرآیند یادگرفته شده "حذف نویز" برای ایجاد تصاویر بر اساس متن‌های ورودی کاربر استفاده می‌کنند.

اما مدل‌های انتشار در تولید مستقیم اشکال سه‌بعدی واقع‌گرایانه عملکرد ضعیفی دارند زیرا داده‌های سه‌بعدی کافی برای آموزش آن‌ها وجود ندارد. برای حل این مشکل، محققان در سال 2022 تکنیکی به نام Score Distillation Sampling (SDS) را توسعه دادند که از یک مدل انتشار از پیش آموزش‌دیده برای ترکیب تصاویر دوبعدی به یک نمایش سه‌بعدی استفاده می‌کند.

این تکنیک شامل شروع با یک نمایش سه‌بعدی تصادفی، رندر کردن یک نمای دوبعدی از شیء مورد نظر از یک زاویه دوربین تصادفی، اضافه کردن نویز به آن تصویر، حذف نویز با یک مدل انتشار، و سپس بهینه‌سازی نمایش سه‌بعدی تصادفی به گونه‌ای است که با تصویر حذف نویز شده مطابقت داشته باشد. این مراحل تا زمانی که شیء سه‌بعدی مورد نظر تولید شود، تکرار می‌شوند.

با این حال، اشکال سه‌بعدی تولید شده به این روش تمایل دارند مبهم یا بیش از حد اشباع شده به نظر برسند.

لوکویانوف می‌گوید: «این برای مدتی یک گلوگاه بوده است. می‌دانیم مدل اصلی قادر به انجام بهتر است، اما مردم نمی‌دانستند چرا این اتفاق با اشکال سه‌بعدی می‌افتد.»

محققان MIT مراحل SDS را بررسی کردند و عدم تطابق بین فرمولی که بخش کلیدی این فرآیند را تشکیل می‌دهد و همتای آن در مدل‌های انتشار دوبعدی را شناسایی کردند. این فرمول به مدل می‌گوید که چگونه نمایش تصادفی را با اضافه کردن و حذف نویز، گام به گام، به‌روزرسانی کند تا شبیه تصویر مورد نظر به نظر برسد.

از آنجایی که بخشی از این فرمول شامل یک معادله است که حل آن به صورت کارآمد بیش از حد پیچیده است، SDS آن را با نویز نمونه‌برداری شده تصادفی در هر مرحله جایگزین می‌کند. محققان MIT دریافتند که این نویز منجر به اشکال سه‌بعدی مبهم یا کارتونی می‌شود.

پاسخی تقریبی

محققان به جای تلاش برای حل دقیق این فرمول دست و پا گیر، تکنیک‌های تقریبی را آزمایش کردند تا بهترین را شناسایی کنند. به جای نمونه‌برداری تصادفی از عبارت نویز، تکنیک تقریبی آن‌ها عبارت گمشده را از رندر شکل سه‌بعدی فعلی استنتاج می‌کند.

او می‌گوید: «با انجام این کار، همانطور که تحلیل در مقاله پیش‌بینی می‌کند، اشکال سه‌بعدی تولید می‌شود که واضح و واقع‌گرایانه به نظر می‌رسند.»

علاوه بر این، محققان رزولوشن رندر تصویر را افزایش دادند و برخی پارامترهای مدل را تنظیم کردند تا کیفیت شکل سه‌بعدی را بیشتر افزایش دهند.

در نهایت، آن‌ها توانستند از یک مدل انتشار تصویر از پیش آموزش‌دیده استاندارد برای ایجاد اشکال سه‌بعدی صاف و واقع‌گرایانه بدون نیاز به آموزش مجدد پرهزینه استفاده کنند. اشیاء سه‌بعدی تولید شده به همان اندازه واضح هستند که با استفاده از روش‌های دیگری که بر راه‌حل‌های موقتی تکیه دارند، تولید می‌شوند.

او می‌گوید: «تلاش برای آزمایش کورکورانه با پارامترهای مختلف، گاهی جواب می‌دهد و گاهی نه، اما نمی‌دانید چرا. ما می‌دانیم که این معادله‌ای است که باید حل کنیم. اکنون، این به ما امکان می‌دهد به روش‌های کارآمدتری برای حل آن فکر کنیم.»

از آنجا که روش آن‌ها بر یک مدل انتشار از پیش آموزش‌دیده تکیه دارد، سوگیری‌ها و کاستی‌های آن مدل را به ارث می‌برد و مستعد توهمات و سایر خطاها است. بهبود مدل انتشار اصلی فرآیند آن‌ها را افزایش خواهد داد.

علاوه بر مطالعه فرمول برای دیدن چگونگی حل مؤثرتر آن، محققان علاقه‌مند به بررسی چگونگی بهبود تکنیک‌های ویرایش تصویر با استفاده از این بینش‌ها هستند.

کار آرتم لوکویانوف توسط مرکز تحقیقات مشترک تویوتا-CSAIL تامین مالی می‌شود. تحقیقات وینسنت سیتزمان توسط بنیاد ملی علوم ایالات متحده، سازمان علوم و فناوری دفاع سنگاپور، وزارت کشور/مرکز تجاری داخلی، و IBM پشتیبانی می‌شود. تحقیقات جاستین سلیمان، بخشی از آن، توسط دفتر تحقیقات ارتش ایالات متحده، بنیاد ملی علوم، برنامه آینده داده‌های CSAIL، آزمایشگاه هوش مصنوعی MIT-IBM واتسون، شرکت ویسترون، و مرکز تحقیقات مشترک تویوتا-CSAIL تامین مالی می‌شود.