توانایی تولید سریع تصاویر با کیفیت بالا برای تولید محیطهای شبیهسازی شده واقعی که میتوان از آنها برای آموزش خودروهای خودران برای جلوگیری از خطرات غیرقابل پیشبینی استفاده کرد، بسیار مهم است و آنها را در خیابانهای واقعی ایمنتر میکند.
اما تکنیکهای هوش مصنوعی مولد که به طور فزایندهای برای تولید چنین تصاویری استفاده میشوند، دارای معایبی هستند. یک نوع محبوب از مدل، به نام مدل انتشار، میتواند تصاویر خیرهکنندهای واقعی ایجاد کند، اما برای بسیاری از کاربردها بسیار کند و از نظر محاسباتی فشرده است. از سوی دیگر، مدلهای اتورگرسیو که LLMهایی مانند ChatGPT را تغذیه میکنند، بسیار سریعتر هستند، اما تصاویر با کیفیت پایینتری تولید میکنند که اغلب پر از خطا هستند.
محققان MIT و NVIDIA رویکرد جدیدی را توسعه دادند که بهترینهای هر دو روش را گرد هم میآورد. ابزار تولید تصویر ترکیبی آنها از یک مدل اتورگرسیو برای گرفتن سریع تصویر بزرگ و سپس یک مدل انتشار کوچک برای اصلاح جزئیات تصویر استفاده میکند.
ابزار آنها، معروف به HART (مخفف hybrid autoregressive transformer)، میتواند تصاویری تولید کند که با کیفیت مدلهای انتشار پیشرفته مطابقت داشته باشد یا از آن فراتر رود، اما این کار را حدود نه برابر سریعتر انجام میدهد.
فرآیند تولید منابع محاسباتی کمتری نسبت به مدلهای انتشار معمولی مصرف میکند و HART را قادر میسازد تا به صورت محلی روی یک لپتاپ یا تلفن هوشمند تجاری اجرا شود. یک کاربر فقط باید یک اعلان زبان طبیعی را در رابط HART وارد کند تا یک تصویر تولید کند.
HART میتواند کاربردهای گستردهای داشته باشد، مانند کمک به محققان برای آموزش رباتها برای انجام کارهای پیچیده در دنیای واقعی و کمک به طراحان در تولید صحنههای چشمگیر برای بازیهای ویدیویی.
هاوتیان تانگ، نویسنده اصلی مقاله جدیدی در مورد HART، میگوید: «اگر در حال نقاشی یک منظره هستید و فقط یک بار کل بوم را نقاشی کنید، ممکن است خیلی خوب به نظر نرسد. اما اگر تصویر بزرگ را نقاشی کنید و سپس تصویر را با ضربات قلم موی کوچکتر اصلاح کنید، نقاشی شما میتواند بسیار بهتر به نظر برسد. این ایده اصلی HART است.»
یچنگ وو، دانشجوی کارشناسی در دانشگاه تسینگهوا، نویسنده اصلی این مقاله است. سونگ هان، استادیار گروه مهندسی برق و علوم کامپیوتر MIT (EECS)، یکی از اعضای آزمایشگاه هوش مصنوعی MIT-IBM Watson، و یک دانشمند برجسته NVIDIA؛ و همچنین سایر افراد در MIT، دانشگاه تسینگهوا و NVIDIA به او پیوستند. این تحقیق در کنفرانس بینالمللی ارائه بازنمودهای یادگیری ارائه خواهد شد.
بهترینِ هر دو دنیا
مدلهای انتشار محبوب، مانند Stable Diffusion و DALL-E، به تولید تصاویر بسیار دقیق معروف هستند. این مدلها تصاویر را از طریق یک فرآیند تکراری تولید میکنند که در آن مقداری نویز تصادفی را روی هر پیکسل پیشبینی میکنند، نویز را کم میکنند، سپس فرآیند پیشبینی و «حذف نویز» را چندین بار تکرار میکنند تا تصویری جدید تولید کنند که کاملاً عاری از نویز باشد.
از آنجایی که مدل انتشار تمام پیکسلهای یک تصویر را در هر مرحله حذف میکند و ممکن است 30 مرحله یا بیشتر وجود داشته باشد، این فرآیند کند و از نظر محاسباتی پرهزینه است. اما از آنجایی که مدل چندین فرصت برای اصلاح جزئیاتی که اشتباه دریافت کرده است دارد، تصاویر با کیفیت بالایی دارند.
مدلهای اتورگرسیو که معمولاً برای پیشبینی متن استفاده میشوند، میتوانند با پیشبینی تکههایی از یک تصویر به صورت متوالی، چند پیکسل در یک زمان، تصاویری تولید کنند. آنها نمیتوانند به عقب برگردند و اشتباهات خود را اصلاح کنند، اما فرآیند پیشبینی متوالی بسیار سریعتر از انتشار است.
این مدلها از بازنمودهایی به نام توکن برای پیشبینی استفاده میکنند. یک مدل اتورگرسیو از یک خودرمزگذار برای فشردهسازی پیکسلهای تصویر خام به توکنهای گسسته و همچنین بازسازی تصویر از توکنهای پیشبینیشده استفاده میکند. در حالی که این سرعت مدل را افزایش میدهد، از دست دادن اطلاعاتی که در طول فشردهسازی رخ میدهد، باعث ایجاد خطا در هنگام تولید تصویر جدید توسط مدل میشود.
با HART، محققان یک رویکرد ترکیبی را توسعه دادند که از یک مدل اتورگرسیو برای پیشبینی توکنهای تصویر گسسته فشردهشده و سپس یک مدل انتشار کوچک برای پیشبینی توکنهای باقیمانده استفاده میکند. توکنهای باقیمانده با گرفتن جزئیات حذف شده توسط توکنهای گسسته، از دست دادن اطلاعات مدل را جبران میکنند.
تانگ میگوید: «ما میتوانیم از نظر کیفیت بازسازی، جهش بزرگی داشته باشیم. توکنهای باقیمانده ما جزئیات با فرکانس بالا، مانند لبههای یک جسم، یا مو، چشم یا دهان یک شخص را یاد میگیرند. اینها مکانهایی هستند که توکنهای گسسته میتوانند اشتباه کنند.»
از آنجایی که مدل انتشار فقط جزئیات باقیمانده را پس از انجام کار مدل اتورگرسیو پیشبینی میکند، میتواند این کار را در هشت مرحله انجام دهد، به جای 30 مرحله یا بیشتر که یک مدل انتشار استاندارد برای تولید یک تصویر کامل به آن نیاز دارد. این سربار حداقلی مدل انتشار اضافی به HART اجازه میدهد تا مزیت سرعت مدل اتورگرسیو را حفظ کند و در عین حال توانایی خود را برای تولید جزئیات پیچیده تصویر به طور قابل توجهی افزایش دهد.
او میافزاید: «مدل انتشار کار آسانتری برای انجام دارد که منجر به کارایی بیشتر میشود.»
عملکرد بهتر از مدلهای بزرگتر
در طول توسعه HART، محققان در ادغام موثر مدل انتشار برای بهبود مدل اتورگرسیو با چالشهایی مواجه شدند. آنها دریافتند که گنجاندن مدل انتشار در مراحل اولیه فرآیند اتورگرسیو منجر به تجمع خطاها میشود. در عوض، طراحی نهایی آنها مبنی بر اعمال مدل انتشار برای پیشبینی فقط توکنهای باقیمانده به عنوان آخرین گام، کیفیت تولید را به طور قابل توجهی بهبود بخشید.
روش آنها، که از ترکیبی از یک مدل ترانسفورماتور اتورگرسیو با 700 میلیون پارامتر و یک مدل انتشار سبک وزن با 37 میلیون پارامتر استفاده میکند، میتواند تصاویری با همان کیفیت تصاویر ایجاد شده توسط یک مدل انتشار با 2 میلیارد پارامتر تولید کند، اما این کار را حدود نه برابر سریعتر انجام میدهد. این روش حدود 31 درصد محاسبات کمتری نسبت به مدلهای پیشرفته مصرف میکند.
علاوه بر این، از آنجایی که HART از یک مدل اتورگرسیو برای انجام عمده کار استفاده میکند - همان نوع مدلی که LLMها را تغذیه میکند - برای ادغام با کلاس جدیدی از مدلهای تولیدی یکپارچه بینایی-زبانی سازگارتر است. در آینده، میتوان با یک مدل تولیدی یکپارچه بینایی-زبانی تعامل داشت، شاید با درخواست از آن برای نشان دادن مراحل میانی مورد نیاز برای مونتاژ یک قطعه مبلمان.
او میگوید: «LLMها یک رابط خوب برای انواع مدلها، مانند مدلهای چندوجهی و مدلهایی که میتوانند استدلال کنند، هستند. این راهی برای سوق دادن هوش به یک مرز جدید است. یک مدل تولید تصویر کارآمد امکانات زیادی را باز میکند.»
در آینده، محققان میخواهند این مسیر را ادامه دهند و مدلهای بینایی-زبانی را در بالای معماری HART بسازند. از آنجایی که HART مقیاسپذیر و قابل تعمیم به چندین وجه است، آنها همچنین میخواهند از آن برای تولید ویدیو و وظایف پیشبینی صدا استفاده کنند.
این تحقیق تا حدی توسط آزمایشگاه هوش مصنوعی MIT-IBM Watson، هاب علم MIT و آمازون، برنامه سختافزار هوش مصنوعی MIT و بنیاد ملی علوم ایالات متحده تامین شده است. زیرساخت GPU برای آموزش این مدل توسط NVIDIA اهدا شده است.