محققان دو نوع مدل هوش مصنوعی مولد، یک مدل اتورگرسیو و یک مدل انتشار را با هم ترکیب کردند تا ابزاری ایجاد کنند که از بهترین‌های هر مدل برای تولید سریع تصاویر با کیفیت بالا استفاده می‌کند. اعتبار: کریستین دانیلوف، MIT; تصویر فضانورد سوار بر اسب با حسن نیت محققان
محققان دو نوع مدل هوش مصنوعی مولد، یک مدل اتورگرسیو و یک مدل انتشار را با هم ترکیب کردند تا ابزاری ایجاد کنند که از بهترین‌های هر مدل برای تولید سریع تصاویر با کیفیت بالا استفاده می‌کند. اعتبار: کریستین دانیلوف، MIT; تصویر فضانورد سوار بر اسب با حسن نیت محققان

ابزار هوش مصنوعی تصاویری با کیفیت بالا سریع‌تر از روش‌های پیشرفته تولید می‌کند

چهار تصویر تولید شده توسط هوش مصنوعی از یک فضانورد سوار بر اسب
تولید کننده تصویر جدید، به نام HART (مخفف Hybrid Autoregressive Transformer)، می‌تواند تصاویری تولید کند که با کیفیت مدل‌های انتشار پیشرفته مطابقت داشته باشد یا از آن فراتر رود، اما این کار را حدود نه برابر سریع‌تر انجام می‌دهد. اعتبار: با حسن نیت محققان
با حسن نیت محققان

توانایی تولید سریع تصاویر با کیفیت بالا برای تولید محیط‌های شبیه‌سازی شده واقعی که می‌توان از آنها برای آموزش خودروهای خودران برای جلوگیری از خطرات غیرقابل پیش‌بینی استفاده کرد، بسیار مهم است و آنها را در خیابان‌های واقعی ایمن‌تر می‌کند.

اما تکنیک‌های هوش مصنوعی مولد که به طور فزاینده‌ای برای تولید چنین تصاویری استفاده می‌شوند، دارای معایبی هستند. یک نوع محبوب از مدل، به نام مدل انتشار، می‌تواند تصاویر خیره‌کننده‌ای واقعی ایجاد کند، اما برای بسیاری از کاربردها بسیار کند و از نظر محاسباتی فشرده است. از سوی دیگر، مدل‌های اتورگرسیو که LLMهایی مانند ChatGPT را تغذیه می‌کنند، بسیار سریع‌تر هستند، اما تصاویر با کیفیت پایین‌تری تولید می‌کنند که اغلب پر از خطا هستند.

محققان MIT و NVIDIA رویکرد جدیدی را توسعه دادند که بهترین‌های هر دو روش را گرد هم می‌آورد. ابزار تولید تصویر ترکیبی آنها از یک مدل اتورگرسیو برای گرفتن سریع تصویر بزرگ و سپس یک مدل انتشار کوچک برای اصلاح جزئیات تصویر استفاده می‌کند.

ابزار آنها، معروف به HART (مخفف hybrid autoregressive transformer)، می‌تواند تصاویری تولید کند که با کیفیت مدل‌های انتشار پیشرفته مطابقت داشته باشد یا از آن فراتر رود، اما این کار را حدود نه برابر سریع‌تر انجام می‌دهد.

فرآیند تولید منابع محاسباتی کمتری نسبت به مدل‌های انتشار معمولی مصرف می‌کند و HART را قادر می‌سازد تا به صورت محلی روی یک لپ‌تاپ یا تلفن هوشمند تجاری اجرا شود. یک کاربر فقط باید یک اعلان زبان طبیعی را در رابط HART وارد کند تا یک تصویر تولید کند.

HART می‌تواند کاربردهای گسترده‌ای داشته باشد، مانند کمک به محققان برای آموزش ربات‌ها برای انجام کارهای پیچیده در دنیای واقعی و کمک به طراحان در تولید صحنه‌های چشمگیر برای بازی‌های ویدیویی.

هاوتیان تانگ، نویسنده اصلی مقاله جدیدی در مورد HART، می‌گوید: «اگر در حال نقاشی یک منظره هستید و فقط یک بار کل بوم را نقاشی کنید، ممکن است خیلی خوب به نظر نرسد. اما اگر تصویر بزرگ را نقاشی کنید و سپس تصویر را با ضربات قلم موی کوچکتر اصلاح کنید، نقاشی شما می‌تواند بسیار بهتر به نظر برسد. این ایده اصلی HART است.»

یچنگ وو، دانشجوی کارشناسی در دانشگاه تسینگهوا، نویسنده اصلی این مقاله است. سونگ هان، استادیار گروه مهندسی برق و علوم کامپیوتر MIT (EECS)، یکی از اعضای آزمایشگاه هوش مصنوعی MIT-IBM Watson، و یک دانشمند برجسته NVIDIA؛ و همچنین سایر افراد در MIT، دانشگاه تسینگهوا و NVIDIA به او پیوستند. این تحقیق در کنفرانس بین‌المللی ارائه بازنمودهای یادگیری ارائه خواهد شد.

بهترینِ هر دو دنیا

مدل‌های انتشار محبوب، مانند Stable Diffusion و DALL-E، به تولید تصاویر بسیار دقیق معروف هستند. این مدل‌ها تصاویر را از طریق یک فرآیند تکراری تولید می‌کنند که در آن مقداری نویز تصادفی را روی هر پیکسل پیش‌بینی می‌کنند، نویز را کم می‌کنند، سپس فرآیند پیش‌بینی و «حذف نویز» را چندین بار تکرار می‌کنند تا تصویری جدید تولید کنند که کاملاً عاری از نویز باشد.

از آنجایی که مدل انتشار تمام پیکسل‌های یک تصویر را در هر مرحله حذف می‌کند و ممکن است 30 مرحله یا بیشتر وجود داشته باشد، این فرآیند کند و از نظر محاسباتی پرهزینه است. اما از آنجایی که مدل چندین فرصت برای اصلاح جزئیاتی که اشتباه دریافت کرده است دارد، تصاویر با کیفیت بالایی دارند.

مدل‌های اتورگرسیو که معمولاً برای پیش‌بینی متن استفاده می‌شوند، می‌توانند با پیش‌بینی تکه‌هایی از یک تصویر به صورت متوالی، چند پیکسل در یک زمان، تصاویری تولید کنند. آنها نمی‌توانند به عقب برگردند و اشتباهات خود را اصلاح کنند، اما فرآیند پیش‌بینی متوالی بسیار سریع‌تر از انتشار است.

این مدل‌ها از بازنمودهایی به نام توکن برای پیش‌بینی استفاده می‌کنند. یک مدل اتورگرسیو از یک خودرمزگذار برای فشرده‌سازی پیکسل‌های تصویر خام به توکن‌های گسسته و همچنین بازسازی تصویر از توکن‌های پیش‌بینی‌شده استفاده می‌کند. در حالی که این سرعت مدل را افزایش می‌دهد، از دست دادن اطلاعاتی که در طول فشرده‌سازی رخ می‌دهد، باعث ایجاد خطا در هنگام تولید تصویر جدید توسط مدل می‌شود.

با HART، محققان یک رویکرد ترکیبی را توسعه دادند که از یک مدل اتورگرسیو برای پیش‌بینی توکن‌های تصویر گسسته فشرده‌شده و سپس یک مدل انتشار کوچک برای پیش‌بینی توکن‌های باقیمانده استفاده می‌کند. توکن‌های باقیمانده با گرفتن جزئیات حذف شده توسط توکن‌های گسسته، از دست دادن اطلاعات مدل را جبران می‌کنند.

تانگ می‌گوید: «ما می‌توانیم از نظر کیفیت بازسازی، جهش بزرگی داشته باشیم. توکن‌های باقیمانده ما جزئیات با فرکانس بالا، مانند لبه‌های یک جسم، یا مو، چشم یا دهان یک شخص را یاد می‌گیرند. اینها مکان‌هایی هستند که توکن‌های گسسته می‌توانند اشتباه کنند.»

از آنجایی که مدل انتشار فقط جزئیات باقی‌مانده را پس از انجام کار مدل اتورگرسیو پیش‌بینی می‌کند، می‌تواند این کار را در هشت مرحله انجام دهد، به جای 30 مرحله یا بیشتر که یک مدل انتشار استاندارد برای تولید یک تصویر کامل به آن نیاز دارد. این سربار حداقلی مدل انتشار اضافی به HART اجازه می‌دهد تا مزیت سرعت مدل اتورگرسیو را حفظ کند و در عین حال توانایی خود را برای تولید جزئیات پیچیده تصویر به طور قابل توجهی افزایش دهد.

او می‌افزاید: «مدل انتشار کار آسان‌تری برای انجام دارد که منجر به کارایی بیشتر می‌شود.»

عملکرد بهتر از مدل‌های بزرگتر

در طول توسعه HART، محققان در ادغام موثر مدل انتشار برای بهبود مدل اتورگرسیو با چالش‌هایی مواجه شدند. آنها دریافتند که گنجاندن مدل انتشار در مراحل اولیه فرآیند اتورگرسیو منجر به تجمع خطاها می‌شود. در عوض، طراحی نهایی آنها مبنی بر اعمال مدل انتشار برای پیش‌بینی فقط توکن‌های باقیمانده به عنوان آخرین گام، کیفیت تولید را به طور قابل توجهی بهبود بخشید.

روش آنها، که از ترکیبی از یک مدل ترانسفورماتور اتورگرسیو با 700 میلیون پارامتر و یک مدل انتشار سبک وزن با 37 میلیون پارامتر استفاده می‌کند، می‌تواند تصاویری با همان کیفیت تصاویر ایجاد شده توسط یک مدل انتشار با 2 میلیارد پارامتر تولید کند، اما این کار را حدود نه برابر سریع‌تر انجام می‌دهد. این روش حدود 31 درصد محاسبات کمتری نسبت به مدل‌های پیشرفته مصرف می‌کند.

علاوه بر این، از آنجایی که HART از یک مدل اتورگرسیو برای انجام عمده کار استفاده می‌کند - همان نوع مدلی که LLMها را تغذیه می‌کند - برای ادغام با کلاس جدیدی از مدل‌های تولیدی یکپارچه بینایی-زبانی سازگارتر است. در آینده، می‌توان با یک مدل تولیدی یکپارچه بینایی-زبانی تعامل داشت، شاید با درخواست از آن برای نشان دادن مراحل میانی مورد نیاز برای مونتاژ یک قطعه مبلمان.

او می‌گوید: «LLMها یک رابط خوب برای انواع مدل‌ها، مانند مدل‌های چندوجهی و مدل‌هایی که می‌توانند استدلال کنند، هستند. این راهی برای سوق دادن هوش به یک مرز جدید است. یک مدل تولید تصویر کارآمد امکانات زیادی را باز می‌کند.»

در آینده، محققان می‌خواهند این مسیر را ادامه دهند و مدل‌های بینایی-زبانی را در بالای معماری HART بسازند. از آنجایی که HART مقیاس‌پذیر و قابل تعمیم به چندین وجه است، آنها همچنین می‌خواهند از آن برای تولید ویدیو و وظایف پیش‌بینی صدا استفاده کنند.

این تحقیق تا حدی توسط آزمایشگاه هوش مصنوعی MIT-IBM Watson، هاب علم MIT و آمازون، برنامه سخت‌افزار هوش مصنوعی MIT و بنیاد ملی علوم ایالات متحده تامین شده است. زیرساخت GPU برای آموزش این مدل توسط NVIDIA اهدا شده است.