تلاقی ترانسفورمر و دیفیوژن: معماری ترانسفیوژن چگونه خلاقیت GPT-4o را تقویت می‌کند؟

GPT-4o از OpenAI نشان‌دهنده نقطه عطفی جدید در هوش مصنوعی چندوجهی است: یک مدل واحد که قادر به تولید متن روان و تصاویر با کیفیت بالا در یک توالی خروجی است. برخلاف سیستم‌های قبلی (به عنوان مثال، ChatGPT) که مجبور بودند یک تولیدکننده تصویر خارجی مانند DALL-E را فراخوانی کنند، GPT-4o تصاویر را به صورت بومی به عنوان بخشی از پاسخ خود تولید می‌کند. این پیشرفت توسط یک معماری جدید Transfusion که در سال 2024 توسط محققان Meta AI، Waymo و USC توصیف شد، پشتیبانی می‌شود. Transfusion مدل‌های ترانسفورمر مورد استفاده در تولید زبان را با مدل‌های Diffusion مورد استفاده در سنتز تصویر ادغام می‌کند و به یک مدل بزرگ اجازه می‌دهد تا متن و تصاویر را به طور یکپارچه مدیریت کند. در GPT-4o، مدل زبان می‌تواند در لحظه تصمیم بگیرد که یک تصویر تولید کند، آن را در خروجی قرار دهد و سپس به تولید متن در یک توالی منسجم ادامه دهد.

بیایید نگاهی دقیق و فنی به قابلیت‌های تولید تصویر GPT-4o از دریچه معماری Transfusion بیندازیم. ابتدا، نحوه کار Transfusion را بررسی می‌کنیم: یک مدل مبتنی بر ترانسفورمر واحد می‌تواند با گنجاندن تولید دیفیوژن در داخل، توکن‌های متن گسسته و محتوای تصویر پیوسته را خروجی دهد. سپس این را با رویکردهای قبلی، به ویژه، روش مبتنی بر ابزار که در آن یک مدل زبان یک API تصویر خارجی را فراخوانی می‌کند و روش توکن گسسته که توسط مدل Chameleon (CM3Leon) قبلی متا نمونه‌سازی شده است، مقایسه می‌کنیم. طراحی Transfusion را تشریح می‌کنیم: توکن‌های ویژه Begin-of-Image (BOI) و End-of-Image (EOI) که محتوای تصویر را در بر می‌گیرند، تولید تکه‌های تصویر که بعداً به سبک دیفیوژن اصلاح می‌شوند و تبدیل این تکه‌ها به یک تصویر نهایی از طریق لایه‌های رمزگشایی آموخته شده (طرح‌های خطی، U-Net upsamplerها و یک خودرمزگذار واریانس). همچنین عملکرد تجربی را مقایسه می‌کنیم: مدل‌های مبتنی بر Transfusion (مانند GPT-4o) به طور قابل توجهی عملکرد بهتری نسبت به مدل‌های مبتنی بر گسسته‌سازی (Chameleon) در کیفیت و کارایی تصویر دارند و با مدل‌های دیفیوژن پیشرفته در معیارهای تصویر مطابقت دارند. در نهایت، این کار را در چارچوب تحقیقات 2023-2025 در مورد تولید چندوجهی یکپارچه قرار می‌دهیم و برجسته می‌کنیم که چگونه Transfusion و تلاش‌های مشابه تولید زبان و تصویر را در یک گذر رو به جلو یا چارچوب نشانه‌گذاری مشترک متحد می‌کنند.

از ابزارها تا تولید چندوجهی بومی

رویکرد مبتنی بر ابزار قبلی: قبل از معماری‌هایی مانند GPT-4o، اگر کسی می‌خواست یک عامل مکالمه‌ای تصاویر تولید کند، یک رویکرد رایج، استراتژی خط لوله یا فراخوانی ابزار بود. به عنوان مثال، ChatGPT می‌تواند با یک دستور برای فراخوانی یک تولیدکننده تصویر (مانند DALL·E 3) زمانی که کاربر یک تصویر را درخواست می‌کند، تقویت شود. در این تنظیم دو مدلی، خود مدل زبان واقعاً تصویر را تولید نمی‌کند. این صرفاً یک توصیف متنی یا فراخوانی API تولید می‌کند که یک مدل دیفیوژن خارجی آن را به یک تصویر تبدیل می‌کند. در حالی که این رویکرد مؤثر است، محدودیت‌های روشنی دارد: تولید تصویر به طور محکم با دانش و زمینه مدل زبان یکپارچه نیست.

ادغام زودهنگام توکن گسسته: یک خط تحقیق جایگزین، تولید تصویر را به طور درونی بخشی از مدل‌سازی توالی با در نظر گرفتن تصاویر به عنوان توالی‌هایی از توکن‌های گسسته قرار داد. این رویکرد که توسط مدل‌هایی مانند DALL·E (2021) پیشگام شد، که از VQ-VAE برای رمزگذاری تصاویر در شاخص‌های دفترچه کد استفاده می‌کرد، به یک ترانسفورمر واحد اجازه می‌دهد تا توکن‌های متن و تصویر را از یک واژگان تولید کند. به عنوان مثال، Parti (Google، 2022) و Chameleon (2024) متا، مدل‌سازی زبان را با کمی کردن تصاویر به توکن‌ها و آموزش مدل برای پیش‌بینی آن توکن‌ها مانند کلمات، به سنتز تصویر گسترش می‌دهند. ایده کلیدی Chameleon "ادغام زودهنگام" روش‌ها بود: تصاویر و متن از همان ابتدا به یک فضای توکن مشترک تبدیل می‌شوند.

نمودار ادغام زودهنگام توکن گسسته
<a href="https://arxiv.org/pdf/2206.10789"><strong>منبع تصویر</strong></a>

با این حال، این رویکرد گسسته‌سازی یک تنگنای اطلاعاتی ایجاد می‌کند. تبدیل یک تصویر به یک توالی از توکن‌های گسسته لزوماً برخی از جزئیات را دور می‌اندازد. دفترچه کد VQ-VAE اندازه ثابتی دارد، بنابراین ممکن است گرادیان‌های رنگ ظریف یا بافت‌های دقیقی را که در تصویر اصلی وجود دارد، ثبت نکند. علاوه بر این، برای حفظ حداکثر وفاداری ممکن، تصویر باید به توکن‌های زیادی، اغلب صدها یا بیشتر برای یک تصویر واحد، تقسیم شود. این باعث می‌شود تولید کند و آموزش پرهزینه باشد. علی‌رغم این تلاش‌ها، یک مصالحه ذاتی وجود دارد: استفاده از یک دفترچه کد بزرگتر یا توکن‌های بیشتر کیفیت تصویر را بهبود می‌بخشد، اما طول توالی و محاسبات را افزایش می‌دهد، در حالی که استفاده از یک دفترچه کد کوچکتر تولید را سرعت می‌بخشد اما جزئیات را از دست می‌دهد. از نظر تجربی، مدل‌هایی مانند Chameleon، در حالی که نوآورانه هستند، از مدل‌های دیفیوژن اختصاصی در وفاداری تصویر عقب هستند.

معماری ترانسفیوژن: ادغام ترانسفورمرها با دیفیوژن

Transfusion یک رویکرد ترکیبی را در پیش می‌گیرد و به طور مستقیم یک تولیدکننده تصویر مبتنی بر دیفیوژن پیوسته را در چارچوب مدل‌سازی توالی ترانسفورمر ادغام می‌کند. هسته اصلی Transfusion یک مدل ترانسفورمر واحد (فقط رمزگشا) است که روی ترکیبی از متن و تصاویر آموزش داده شده است، اما با اهداف مختلف برای هر کدام. توکن‌های متن از دست دادن پیش‌بینی توکن بعدی استاندارد استفاده می‌کنند. توکن‌های تصویر، تعبیه‌های پیوسته تکه‌های تصویر، از دست دادن دیفیوژن استفاده می‌کنند، همان نوع هدف حذف نویز که برای آموزش مدل‌هایی مانند Stable Diffusion استفاده می‌شود، با این تفاوت که در داخل ترانسفورمر پیاده‌سازی می‌شود.

نمودار معماری Transfusion
<a href="https://arxiv.org/pdf/2408.11039v1"><strong>منبع تصویر</strong></a>

توالی یکپارچه با نشانگرهای BOI/EOI: در Transfusion (و GPT-4o)، داده‌های متن و تصویر در طول آموزش در یک توالی به هم متصل می‌شوند. توکن‌های ویژه مرزهای بین روش‌ها را مشخص می‌کنند. یک توکن Begin-of-Image (BOI) نشان می‌دهد که عناصر بعدی در توالی محتوای تصویر هستند و یک توکن End-of-Image (EOI) سیگنال می‌دهد که محتوای تصویر به پایان رسیده است. همه چیز خارج از BOI…EOI به عنوان متن معمولی در نظر گرفته می‌شود. همه چیز داخل آن به عنوان یک نمایش تصویر پیوسته در نظر گرفته می‌شود. همان ترانسفورمر تمام توالی‌ها را پردازش می‌کند. در داخل بلوک BOI-EOI یک تصویر، توجه در بین عناصر تکه تصویر دو طرفه است. این بدان معناست که ترانسفورمر می‌تواند یک تصویر را به عنوان یک موجودیت دو بعدی در نظر بگیرد در حالی که تصویر را به طور کامل به عنوان یک مرحله در یک توالی خودرگرسیو در نظر می‌گیرد.

تکه‌های تصویر به عنوان توکن‌های پیوسته: Transfusion یک تصویر را به عنوان مجموعه‌ای کوچک از بردارهای پیوسته به نام تکه‌های نهفته به جای توکن‌های دفترچه کد گسسته نشان می‌دهد. تصویر ابتدا توسط یک خودرمزگذار واریانس (VAE) به یک فضای نهفته با ابعاد کمتر رمزگذاری می‌شود. سپس تصویر نهفته به یک شبکه از تکه‌ها تقسیم می‌شود و هر تکه به یک بردار مسطح می‌شود. این بردارهای تکه همان چیزی هستند که ترانسفورمر می‌بیند و برای مناطق تصویر پیش‌بینی می‌کند. از آنجایی که آنها مقادیر پیوسته هستند، مدل نمی‌تواند از یک softmax روی یک واژگان ثابت برای تولید یک تکه تصویر استفاده کند. در عوض، تولید تصویر از طریق دیفیوژن آموخته می‌شود: مدل آموزش داده می‌شود تا تکه‌های بدون نویز را از تکه‌های نویزدار خروجی دهد.

لایه‌های خاص روش سبک وزن این بردارهای تکه را به فضای ورودی ترانسفورمر طرح می‌کنند. دو گزینه طراحی مورد بررسی قرار گرفت: یک لایه خطی ساده یا یک رمزگذار کوچک به سبک U-Net که محتوای تکه محلی را بیشتر نمونه‌برداری می‌کند. U-Net downsampler می‌تواند ساختارهای فضایی پیچیده‌تری را از یک تکه بزرگتر ضبط کند. در عمل، Transfusion دریافت که استفاده از بلوک‌های بالا/پایین U-Net به آنها اجازه می‌دهد تا کل یک تصویر را تنها در 16 تکه نهفته با حداقل از دست دادن عملکرد فشرده کنند. تکه‌های کمتر به معنای توالی‌های کوتاه‌تر و تولید سریع‌تر است. در بهترین پیکربندی، یک مدل Transfusion در مقیاس 7B یک تصویر را با 22 بردار تکه نهفته به طور متوسط نشان می‌دهد.

ادغام دیفیوژن حذف نویز: آموزش مدل روی تصاویر از یک هدف دیفیوژن تعبیه شده در توالی استفاده می‌کند. برای هر تصویر، تکه‌های نهفته با یک سطح نویز تصادفی نویزدار می‌شوند، مانند یک مدل دیفیوژن استاندارد. این تکه‌های پر سر و صدا به ترانسفورمر داده می‌شوند (قبل از BOI). ترانسفورمر باید نسخه بدون نویز را پیش‌بینی کند. از دست دادن روی توکن‌های تصویر از دست دادن دیفیوژن معمول (خطای L2) است، در حالی که از دست دادن روی توکن‌های متن آنتروپی متقابل است. این دو ضرر به سادگی برای آموزش مشترک اضافه می‌شوند. بنابراین، بسته به پردازش فعلی خود، مدل یاد می‌گیرد که متن را ادامه دهد یا یک تصویر را اصلاح کند.

در زمان استنتاج، روش تولید آموزش را منعکس می‌کند. GPT-4o توکن‌ها را به صورت خودرگرسیو تولید می‌کند. اگر یک توکن متن معمولی تولید کند، طبق معمول ادامه می‌یابد. اما اگر توکن ویژه BOI را تولید کند، به تولید تصویر منتقل می‌شود. پس از تولید BOI، مدل یک بلوک از توکن‌های تصویر نهفته را که با نویز تصادفی خالص مقداردهی اولیه شده‌اند، به توالی اضافه می‌کند. اینها به عنوان مکان نگهدارنده برای تصویر عمل می‌کنند. سپس مدل وارد رمزگشایی دیفیوژن می‌شود و به طور مکرر توالی را از طریق ترانسفورمر عبور می‌دهد تا به تدریج تصویر را بدون نویز کند. توکن‌های متن در زمینه به عنوان شرط عمل می‌کنند. هنگامی که تکه‌های تصویر به طور کامل تولید شدند، مدل یک توکن EOI را برای نشان دادن پایان بلوک تصویر منتشر می‌کند.

رمزگشایی تکه‌ها به یک تصویر: بردارهای تکه نهفته نهایی به یک تصویر واقعی تبدیل می‌شوند. این کار با معکوس کردن رمزگذاری قبلی انجام می‌شود: ابتدا، بردارهای تکه با استفاده از یک طرح خطی یا بلوک‌های بالای U-Net به کاشی‌های تصویر نهفته نگاشت می‌شوند. پس از این، رمزگشای VAE تصویر نهفته را به تصویر پیکسلی RGB نهایی رمزگشایی می‌کند. نتیجه معمولاً با کیفیت بالا و منسجم است زیرا تصویر از طریق یک فرآیند دیفیوژن در فضای نهفته تولید شده است.

Transfusion در مقابل روش‌های قبلی: تفاوت‌ها و مزایای کلیدی

ادغام بومی در مقابل تماس‌های خارجی: فوری‌ترین مزیت Transfusion این است که تولید تصویر بومی گذر رو به جلو مدل است، نه یک ابزار جداگانه. این بدان معناست که مدل می‌تواند متن و تصاویر را به طور روان با هم ترکیب کند. علاوه بر این، دانش و توانایی‌های استدلال مدل زبان مستقیماً به ایجاد تصویر اطلاع می‌دهد. GPT-4o در ارائه متن در تصاویر و مدیریت چندین شیء عالی است، احتمالاً به دلیل این ادغام محکم‌تر.

دیفیوژن پیوسته در مقابل توکن‌های گسسته: رویکرد دیفیوژن تکه پیوسته Transfusion اطلاعات بسیار بیشتری را حفظ می‌کند و خروجی‌های با وفاداری بالاتری را به دست می‌دهد. ترانسفورمر نمی‌تواند با حذف تنگنای کمی‌سازی، از یک پالت محدود انتخاب کند. در عوض، مقادیر پیوسته را پیش‌بینی می‌کند و امکان تغییرات ظریف را فراهم می‌کند. در معیارها، یک مدل Transfusion با پارامتر 7.3B به FID 6.78 در MS-COCO دست یافت، در مقایسه با FID 26.7 برای یک مدل Chameleon با اندازه مشابه. Transfusion همچنین دارای امتیاز CLIP بالاتری (0.63 در مقابل 0.39) بود که نشان دهنده هم ترازی بهتر تصویر و متن است.

کارایی و مقیاس‌بندی: Transfusion می‌تواند یک تصویر را تنها در 16 تا 20 تکه نهفته فشرده کند. Chameleon ممکن است به صدها توکن نیاز داشته باشد. این بدان معناست که ترانسفورمر Transfusion در هر تصویر مراحل کمتری را انجام می‌دهد. Transfusion با استفاده از تنها ~22٪ از محاسبات با عملکرد Chameleon مطابقت داشت. این مدل با استفاده از تقریباً نیمی از محاسبات Chameleon به همان سردرگمی زبانی رسید.

مقایسه عملکرد Transfusion و Chameleon
<a href="https://ar5iv.labs.arxiv.org/html/2405.09818"><strong>منبع تصویر</strong></a>

کیفیت تولید تصویر: Transfusion تصاویری فوتورئالیستی تولید می‌کند که با مدل‌های دیفیوژن پیشرفته قابل مقایسه است. در معیار GenEval برای تولید متن به تصویر، یک مدل Transfusion 7B از DALL-E 2 و حتی SDXL 1.0 عملکرد بهتری داشت. GPT-4o متن خوانا را در تصاویر ارائه می‌کند و اشیاء متمایز زیادی را در یک صحنه مدیریت می‌کند.

انعطاف‌پذیری و چندوجهی چند نوبتی: GPT-4o می‌تواند تعاملات دووجهی را مدیریت کند، نه فقط متن به تصویر، بلکه تصویر به متن و وظایف ترکیبی. به عنوان مثال، می‌تواند یک تصویر را نشان دهد و سپس به تولید متن در مورد آن ادامه دهد یا آن را با دستورالعمل‌های بیشتر ویرایش کند. Transfusion این قابلیت‌ها را به طور طبیعی در همان معماری فعال می‌کند.

محدودیت‌ها: در حالی که Transfusion از رویکردهای گسسته عملکرد بهتری دارد، اما همچنان برخی از محدودیت‌ها را از مدل‌های دیفیوژن به ارث می‌برد. خروجی تصویر به دلیل مراحل تکراری متعدد کندتر است. ترانسفورمر باید وظیفه مضاعف را انجام دهد که پیچیدگی آموزش را افزایش می‌دهد. با این حال، ماسک‌سازی و عادی‌سازی دقیق، آموزش را برای میلیاردها پارامتر بدون فروپاشی فعال می‌کند.

کارهای مرتبط و مدل‌های مولد چندوجهی (2023-2025)

قبل از Transfusion، بیشتر تلاش‌ها به مدل‌های تقویت شده با ابزار و مدل‌های ادغام توکن سقوط می‌کرد. HuggingGPT و Visual ChatGPT به یک LLM اجازه دادند تا APIهای مختلف را برای کارهایی مانند تولید تصویر فراخوانی کند. رویکردهای ادغام توکن شامل DALL·E، CogView و Parti است که تصاویر را به عنوان توالی‌هایی از توکن‌ها در نظر می‌گیرند. Chameleon روی توالی‌های متن-تصویر در هم آمیخته آموزش دید. Kosmos-1 و Kosmos-2 ترانسفورمرهای چندوجهی بودند که هدفشان درک به جای تولید بود.

Transfusion با حفظ ظرافت تک مدلی ادغام توکن، اما با استفاده از نهفته پیوسته و پالایش تکراری مانند دیفیوژن، شکاف را پر می‌کند. Muse گوگل و DeepFloyd IF تغییراتی را معرفی کردند، اما از مراحل متعدد یا رمزگذارهای زبان منجمد استفاده کردند. Transfusion تمام قابلیت‌ها را در یک ترانسفورمر ادغام می‌کند. نمونه‌های دیگر عبارتند از Make-A-Scene و Paint-by-Example متا، DeepFloyd IF Stability AI و IDEFICS HuggingFace.

در پایان، معماری Transfusion نشان می‌دهد که متحد کردن تولید متن و تصویر در یک ترانسفورمر امکان‌پذیر است. GPT-4o با Transfusion تصاویر را به صورت بومی، هدایت شده توسط زمینه و دانش تولید می‌کند و تصاویر بصری با کیفیت بالا را با متن در هم می‌آمیزد. در مقایسه با مدل‌های قبلی مانند Chameleon، کیفیت تصویر بهتر، آموزش کارآمدتر و یکپارچگی عمیق‌تری را ارائه می‌دهد.