پژوهشگران دو نوع مدل هوش مصنوعی مولد، یک مدل خودبازگشتی و یک مدل انتشار را با هم ترکیب کردند تا ابزاری ایجاد کنند که از بهترین‌های هر مدل برای تولید سریع تصاویر با کیفیت بالا استفاده می‌کند. اعتبار: کریستین دانیلوف، MIT
پژوهشگران دو نوع مدل هوش مصنوعی مولد، یک مدل خودبازگشتی و یک مدل انتشار را با هم ترکیب کردند تا ابزاری ایجاد کنند که از بهترین‌های هر مدل برای تولید سریع تصاویر با کیفیت بالا استفاده می‌کند. اعتبار: کریستین دانیلوف، MIT

ابزار جدید هوش مصنوعی تصاویری با کیفیت بالا و سریع‌تر از روش‌های پیشرفته تولید می‌کند

توانایی تولید سریع تصاویر با کیفیت بالا برای تولید محیط‌های شبیه‌سازی‌شده واقعی که می‌توان از آن‌ها برای آموزش اتومبیل‌های خودران برای جلوگیری از خطرات غیرقابل پیش‌بینی استفاده کرد، بسیار مهم است و آن‌ها را در خیابان‌های واقعی ایمن‌تر می‌کند.

اما تکنیک‌های هوش مصنوعی مولد که به طور فزاینده‌ای برای تولید چنین تصاویری استفاده می‌شوند، دارای معایبی هستند. یک نوع محبوب از مدل، به نام مدل انتشار، می‌تواند تصاویری فوق‌العاده واقعی ایجاد کند، اما برای بسیاری از کاربردها بسیار کند و از نظر محاسباتی فشرده است. از سوی دیگر، مدل‌های خودبازگشتی که LLMهایی مانند ChatGPT را تغذیه می‌کنند بسیار سریع‌تر هستند، اما تصاویری با کیفیت پایین‌تر تولید می‌کنند که اغلب پر از خطا هستند.

محققان MIT و NVIDIA رویکرد جدیدی را توسعه داده‌اند که بهترین‌های هر دو روش را گرد هم می‌آورد. ابزار تولید تصویر ترکیبی آن‌ها از یک مدل خودبازگشتی برای گرفتن سریع تصویر بزرگ و سپس یک مدل انتشار کوچک برای اصلاح جزئیات تصویر استفاده می‌کند.

این کار در سرور پیش‌چاپ arXiv منتشر شده است.

ابزار آن‌ها، که به عنوان HART (مخفف Hybrid Autoregressive Transformer) شناخته می‌شود، می‌تواند تصاویری تولید کند که با کیفیت مدل‌های انتشار پیشرفته مطابقت داشته یا از آن فراتر رود، اما این کار را حدود نه برابر سریع‌تر انجام می‌دهد.

فرآیند تولید منابع محاسباتی کمتری نسبت به مدل‌های انتشار معمولی مصرف می‌کند و HART را قادر می‌سازد تا به صورت محلی بر روی یک لپ‌تاپ یا تلفن هوشمند تجاری اجرا شود. یک کاربر فقط باید یک دستور را در رابط HART وارد کند تا یک تصویر تولید کند.

HART می‌تواند کاربردهای گسترده‌ای داشته باشد، مانند کمک به محققان برای آموزش ربات‌ها برای انجام وظایف پیچیده در دنیای واقعی و کمک به طراحان در تولید صحنه‌های چشمگیر برای بازی‌های ویدیویی.

هاوتیان تانگ، نویسنده ارشد یکی از مقالات جدید HART می‌گوید: «اگر در حال نقاشی یک منظره هستید و فقط یک بار کل بوم را رنگ می‌کنید، ممکن است خیلی خوب به نظر نرسد. اما اگر تصویر بزرگ را نقاشی کنید و سپس تصویر را با ضربه‌های قلم موی کوچک‌تر اصلاح کنید، نقاشی شما می‌تواند بسیار بهتر به نظر برسد. این ایده اصلی HART است.»

یعچنگ وو، دانشجوی مقطع کارشناسی در دانشگاه تسینگهوا؛ سونگ هان، استادیار گروه مهندسی برق و علوم کامپیوتر (EECS)، عضو آزمایشگاه هوش مصنوعی MIT-IBM واتسون و دانشمند برجسته NVIDIA؛ و همچنین سایرین در MIT، دانشگاه تسینگهوا و NVIDIA به او ملحق شده‌اند.

این تحقیق در کنفرانس بین‌المللی ارائه بازنمایی‌های یادگیری ارائه خواهد شد.

بهترین‌های هر دو دنیا

مدل‌های انتشار محبوب، مانند Stable Diffusion و DALL-E، به تولید تصاویر بسیار دقیق معروف هستند. این مدل‌ها تصاویر را از طریق یک فرآیند تکراری تولید می‌کنند که در آن مقداری نویز تصادفی را روی هر پیکسل پیش‌بینی می‌کنند، نویز را کم می‌کنند، سپس فرآیند پیش‌بینی و "حذف نویز" را چندین بار تکرار می‌کنند تا یک تصویر جدید تولید کنند که کاملاً عاری از نویز باشد.

از آنجایی که مدل انتشار در هر مرحله تمام پیکسل‌های یک تصویر را حذف نویز می‌کند و ممکن است 30 مرحله یا بیشتر وجود داشته باشد، این فرآیند کند و از نظر محاسباتی گران است. اما از آنجایی که مدل چندین فرصت برای تصحیح جزئیاتی که اشتباه متوجه شده است دارد، تصاویر با کیفیت بالایی دارند.

مولد تصویر جدید، به نام HART (مخفف Hybrid Autoregressive Transformer)، می‌تواند تصاویری تولید کند که با کیفیت مدل‌های انتشار پیشرفته مطابقت داشته یا از آن فراتر رود، اما این کار را حدود نه برابر سریع‌تر انجام می‌دهد.
مولد تصویر جدید، به نام HART (مخفف Hybrid Autoregressive Transformer)، می‌تواند تصاویری تولید کند که با کیفیت مدل‌های انتشار پیشرفته مطابقت داشته یا از آن فراتر رود، اما این کار را حدود نه برابر سریع‌تر انجام می‌دهد.
محققان

مدل‌های خودبازگشتی که معمولاً برای پیش‌بینی متن استفاده می‌شوند، می‌توانند با پیش‌بینی متوالی تکه‌هایی از یک تصویر، چند پیکسل در یک زمان، تصاویری تولید کنند. آن‌ها نمی‌توانند به عقب برگردند و اشتباهات خود را تصحیح کنند، اما فرآیند پیش‌بینی متوالی بسیار سریع‌تر از انتشار است.

این مدل‌ها از بازنمایی‌هایی به نام توکن برای پیش‌بینی استفاده می‌کنند. یک مدل خودبازگشتی از یک رمزگذار خودکار برای فشرده‌سازی پیکسل‌های تصویر خام به توکن‌های گسسته و همچنین بازسازی تصویر از توکن‌های پیش‌بینی‌شده استفاده می‌کند. در حالی که این کار سرعت مدل را افزایش می‌دهد، از دست دادن اطلاعاتی که در طول فشرده‌سازی رخ می‌دهد، هنگام تولید یک تصویر جدید توسط مدل، باعث ایجاد خطا می‌شود.

با HART، محققان یک رویکرد ترکیبی توسعه داده‌اند که از یک مدل خودبازگشتی برای پیش‌بینی توکن‌های تصویر فشرده و گسسته استفاده می‌کند، سپس یک مدل انتشار کوچک برای پیش‌بینی توکن‌های پسماند. توکن‌های پسماند با ثبت جزئیاتی که توسط توکن‌های گسسته حذف شده‌اند، از دست دادن اطلاعات مدل را جبران می‌کنند.

تانگ می‌گوید: «ما می‌توانیم به افزایش عظیمی از نظر کیفیت بازسازی دست یابیم. توکن‌های پسماند ما جزئیات با فرکانس بالا، مانند لبه‌های یک شی یا مو، چشم‌ها یا دهان یک شخص را یاد می‌گیرند. اینها مکان‌هایی هستند که توکن‌های گسسته می‌توانند اشتباه کنند.»

از آنجایی که مدل انتشار فقط جزئیات باقیمانده را پس از انجام کار مدل خودبازگشتی پیش‌بینی می‌کند، می‌تواند این کار را در هشت مرحله انجام دهد، به جای 30 مرحله یا بیشتر که یک مدل انتشار استاندارد برای تولید یک تصویر کامل به آن نیاز دارد.

این سربار حداقلی مدل انتشار اضافی به HART اجازه می‌دهد تا مزیت سرعت مدل خودبازگشتی را حفظ کند و در عین حال توانایی خود را برای تولید جزئیات پیچیده تصویر به طور قابل توجهی افزایش دهد.

او می‌افزاید: «مدل انتشار کار آسان‌تری برای انجام دادن دارد که منجر به کارایی بیشتر می‌شود.»

عملکرد بهتر از مدل‌های بزرگ‌تر

در طول توسعه HART، محققان در ادغام مؤثر مدل انتشار برای بهبود مدل خودبازگشتی با چالش‌هایی مواجه شدند. آن‌ها دریافتند که گنجاندن مدل انتشار در مراحل اولیه فرآیند خودبازگشتی منجر به تجمع خطاها می‌شود. در عوض، طراحی نهایی آن‌ها برای اعمال مدل انتشار برای پیش‌بینی فقط توکن‌های پسماند به عنوان آخرین مرحله، کیفیت تولید را به طور قابل توجهی بهبود بخشید.

روش آن‌ها، که از ترکیبی از یک مدل ترانسفورماتور خودبازگشتی با 700 میلیون پارامتر و یک مدل انتشار سبک وزن با 37 میلیون پارامتر استفاده می‌کند، می‌تواند تصاویری با همان کیفیت تصاویر ایجاد شده توسط یک با 2 میلیارد پارامتر تولید کند، اما این کار را حدود نه برابر سریع‌تر انجام می‌دهد. این روش حدود 31 درصد محاسبات کمتری نسبت به مدل‌های پیشرفته استفاده می‌کند.

علاوه بر این، از آنجایی که HART از یک مدل خودبازگشتی برای انجام بیشتر کار استفاده می‌کند - همان نوع مدلی که LLMها را تغذیه می‌کند - برای ادغام با کلاس جدیدی از مدل‌های تولیدی زبان-بینایی یکپارچه سازگارتر است. در آینده، می‌توان با یک مدل تولیدی زبان-بینایی یکپارچه تعامل داشت، شاید با درخواست از آن برای نشان دادن مراحل میانی مورد نیاز برای مونتاژ یک قطعه مبلمان.

او می‌گوید: «LLMها یک رابط خوب برای انواع مدل‌ها، مانند مدل‌های چندوجهی و مدل‌هایی که می‌توانند استدلال کنند، هستند. این راهی برای هل دادن هوش به یک مرز جدید است. یک مدل تولید تصویر کارآمد امکانات زیادی را باز می‌کند.»

در آینده، محققان می‌خواهند در این مسیر پیش بروند و مدل‌های زبان-بینایی را در بالای معماری HART بسازند. از آنجایی که HART مقیاس‌پذیر و قابل تعمیم به چندین حالت است، آن‌ها همچنین می‌خواهند از آن برای تولید ویدیو و وظایف پیش‌بینی صدا استفاده کنند.