توانایی تولید سریع تصاویر با کیفیت بالا برای تولید محیطهای شبیهسازیشده واقعی که میتوان از آنها برای آموزش اتومبیلهای خودران برای جلوگیری از خطرات غیرقابل پیشبینی استفاده کرد، بسیار مهم است و آنها را در خیابانهای واقعی ایمنتر میکند.
اما تکنیکهای هوش مصنوعی مولد که به طور فزایندهای برای تولید چنین تصاویری استفاده میشوند، دارای معایبی هستند. یک نوع محبوب از مدل، به نام مدل انتشار، میتواند تصاویری فوقالعاده واقعی ایجاد کند، اما برای بسیاری از کاربردها بسیار کند و از نظر محاسباتی فشرده است. از سوی دیگر، مدلهای خودبازگشتی که LLMهایی مانند ChatGPT را تغذیه میکنند بسیار سریعتر هستند، اما تصاویری با کیفیت پایینتر تولید میکنند که اغلب پر از خطا هستند.
محققان MIT و NVIDIA رویکرد جدیدی را توسعه دادهاند که بهترینهای هر دو روش را گرد هم میآورد. ابزار تولید تصویر ترکیبی آنها از یک مدل خودبازگشتی برای گرفتن سریع تصویر بزرگ و سپس یک مدل انتشار کوچک برای اصلاح جزئیات تصویر استفاده میکند.
این کار در سرور پیشچاپ arXiv منتشر شده است.
ابزار آنها، که به عنوان HART (مخفف Hybrid Autoregressive Transformer) شناخته میشود، میتواند تصاویری تولید کند که با کیفیت مدلهای انتشار پیشرفته مطابقت داشته یا از آن فراتر رود، اما این کار را حدود نه برابر سریعتر انجام میدهد.
فرآیند تولید منابع محاسباتی کمتری نسبت به مدلهای انتشار معمولی مصرف میکند و HART را قادر میسازد تا به صورت محلی بر روی یک لپتاپ یا تلفن هوشمند تجاری اجرا شود. یک کاربر فقط باید یک دستور زبان طبیعی را در رابط HART وارد کند تا یک تصویر تولید کند.
HART میتواند کاربردهای گستردهای داشته باشد، مانند کمک به محققان برای آموزش رباتها برای انجام وظایف پیچیده در دنیای واقعی و کمک به طراحان در تولید صحنههای چشمگیر برای بازیهای ویدیویی.
هاوتیان تانگ، نویسنده ارشد یکی از مقالات جدید HART میگوید: «اگر در حال نقاشی یک منظره هستید و فقط یک بار کل بوم را رنگ میکنید، ممکن است خیلی خوب به نظر نرسد. اما اگر تصویر بزرگ را نقاشی کنید و سپس تصویر را با ضربههای قلم موی کوچکتر اصلاح کنید، نقاشی شما میتواند بسیار بهتر به نظر برسد. این ایده اصلی HART است.»
یعچنگ وو، دانشجوی مقطع کارشناسی در دانشگاه تسینگهوا؛ سونگ هان، استادیار گروه مهندسی برق و علوم کامپیوتر (EECS)، عضو آزمایشگاه هوش مصنوعی MIT-IBM واتسون و دانشمند برجسته NVIDIA؛ و همچنین سایرین در MIT، دانشگاه تسینگهوا و NVIDIA به او ملحق شدهاند.
این تحقیق در کنفرانس بینالمللی ارائه بازنماییهای یادگیری ارائه خواهد شد.
بهترینهای هر دو دنیا
مدلهای انتشار محبوب، مانند Stable Diffusion و DALL-E، به تولید تصاویر بسیار دقیق معروف هستند. این مدلها تصاویر را از طریق یک فرآیند تکراری تولید میکنند که در آن مقداری نویز تصادفی را روی هر پیکسل پیشبینی میکنند، نویز را کم میکنند، سپس فرآیند پیشبینی و "حذف نویز" را چندین بار تکرار میکنند تا یک تصویر جدید تولید کنند که کاملاً عاری از نویز باشد.
از آنجایی که مدل انتشار در هر مرحله تمام پیکسلهای یک تصویر را حذف نویز میکند و ممکن است 30 مرحله یا بیشتر وجود داشته باشد، این فرآیند کند و از نظر محاسباتی گران است. اما از آنجایی که مدل چندین فرصت برای تصحیح جزئیاتی که اشتباه متوجه شده است دارد، تصاویر با کیفیت بالایی دارند.
مدلهای خودبازگشتی که معمولاً برای پیشبینی متن استفاده میشوند، میتوانند با پیشبینی متوالی تکههایی از یک تصویر، چند پیکسل در یک زمان، تصاویری تولید کنند. آنها نمیتوانند به عقب برگردند و اشتباهات خود را تصحیح کنند، اما فرآیند پیشبینی متوالی بسیار سریعتر از انتشار است.
این مدلها از بازنماییهایی به نام توکن برای پیشبینی استفاده میکنند. یک مدل خودبازگشتی از یک رمزگذار خودکار برای فشردهسازی پیکسلهای تصویر خام به توکنهای گسسته و همچنین بازسازی تصویر از توکنهای پیشبینیشده استفاده میکند. در حالی که این کار سرعت مدل را افزایش میدهد، از دست دادن اطلاعاتی که در طول فشردهسازی رخ میدهد، هنگام تولید یک تصویر جدید توسط مدل، باعث ایجاد خطا میشود.
با HART، محققان یک رویکرد ترکیبی توسعه دادهاند که از یک مدل خودبازگشتی برای پیشبینی توکنهای تصویر فشرده و گسسته استفاده میکند، سپس یک مدل انتشار کوچک برای پیشبینی توکنهای پسماند. توکنهای پسماند با ثبت جزئیاتی که توسط توکنهای گسسته حذف شدهاند، از دست دادن اطلاعات مدل را جبران میکنند.
تانگ میگوید: «ما میتوانیم به افزایش عظیمی از نظر کیفیت بازسازی دست یابیم. توکنهای پسماند ما جزئیات با فرکانس بالا، مانند لبههای یک شی یا مو، چشمها یا دهان یک شخص را یاد میگیرند. اینها مکانهایی هستند که توکنهای گسسته میتوانند اشتباه کنند.»
از آنجایی که مدل انتشار فقط جزئیات باقیمانده را پس از انجام کار مدل خودبازگشتی پیشبینی میکند، میتواند این کار را در هشت مرحله انجام دهد، به جای 30 مرحله یا بیشتر که یک مدل انتشار استاندارد برای تولید یک تصویر کامل به آن نیاز دارد.
این سربار حداقلی مدل انتشار اضافی به HART اجازه میدهد تا مزیت سرعت مدل خودبازگشتی را حفظ کند و در عین حال توانایی خود را برای تولید جزئیات پیچیده تصویر به طور قابل توجهی افزایش دهد.
او میافزاید: «مدل انتشار کار آسانتری برای انجام دادن دارد که منجر به کارایی بیشتر میشود.»
عملکرد بهتر از مدلهای بزرگتر
در طول توسعه HART، محققان در ادغام مؤثر مدل انتشار برای بهبود مدل خودبازگشتی با چالشهایی مواجه شدند. آنها دریافتند که گنجاندن مدل انتشار در مراحل اولیه فرآیند خودبازگشتی منجر به تجمع خطاها میشود. در عوض، طراحی نهایی آنها برای اعمال مدل انتشار برای پیشبینی فقط توکنهای پسماند به عنوان آخرین مرحله، کیفیت تولید را به طور قابل توجهی بهبود بخشید.
روش آنها، که از ترکیبی از یک مدل ترانسفورماتور خودبازگشتی با 700 میلیون پارامتر و یک مدل انتشار سبک وزن با 37 میلیون پارامتر استفاده میکند، میتواند تصاویری با همان کیفیت تصاویر ایجاد شده توسط یک مدل انتشار با 2 میلیارد پارامتر تولید کند، اما این کار را حدود نه برابر سریعتر انجام میدهد. این روش حدود 31 درصد محاسبات کمتری نسبت به مدلهای پیشرفته استفاده میکند.
علاوه بر این، از آنجایی که HART از یک مدل خودبازگشتی برای انجام بیشتر کار استفاده میکند - همان نوع مدلی که LLMها را تغذیه میکند - برای ادغام با کلاس جدیدی از مدلهای تولیدی زبان-بینایی یکپارچه سازگارتر است. در آینده، میتوان با یک مدل تولیدی زبان-بینایی یکپارچه تعامل داشت، شاید با درخواست از آن برای نشان دادن مراحل میانی مورد نیاز برای مونتاژ یک قطعه مبلمان.
او میگوید: «LLMها یک رابط خوب برای انواع مدلها، مانند مدلهای چندوجهی و مدلهایی که میتوانند استدلال کنند، هستند. این راهی برای هل دادن هوش به یک مرز جدید است. یک مدل تولید تصویر کارآمد امکانات زیادی را باز میکند.»
در آینده، محققان میخواهند در این مسیر پیش بروند و مدلهای زبان-بینایی را در بالای معماری HART بسازند. از آنجایی که HART مقیاسپذیر و قابل تعمیم به چندین حالت است، آنها همچنین میخواهند از آن برای تولید ویدیو و وظایف پیشبینی صدا استفاده کنند.