GPT-4o از OpenAI نشاندهنده نقطه عطفی جدید در هوش مصنوعی چندوجهی است: یک مدل واحد که قادر به تولید متن روان و تصاویر با کیفیت بالا در یک توالی خروجی است. برخلاف سیستمهای قبلی (به عنوان مثال، ChatGPT) که مجبور بودند یک تولیدکننده تصویر خارجی مانند DALL-E را فراخوانی کنند، GPT-4o تصاویر را به صورت بومی به عنوان بخشی از پاسخ خود تولید میکند. این پیشرفت توسط یک معماری جدید Transfusion که در سال 2024 توسط محققان Meta AI، Waymo و USC توصیف شد، پشتیبانی میشود. Transfusion مدلهای ترانسفورمر مورد استفاده در تولید زبان را با مدلهای Diffusion مورد استفاده در سنتز تصویر ادغام میکند و به یک مدل بزرگ اجازه میدهد تا متن و تصاویر را به طور یکپارچه مدیریت کند. در GPT-4o، مدل زبان میتواند در لحظه تصمیم بگیرد که یک تصویر تولید کند، آن را در خروجی قرار دهد و سپس به تولید متن در یک توالی منسجم ادامه دهد.
بیایید نگاهی دقیق و فنی به قابلیتهای تولید تصویر GPT-4o از دریچه معماری Transfusion بیندازیم. ابتدا، نحوه کار Transfusion را بررسی میکنیم: یک مدل مبتنی بر ترانسفورمر واحد میتواند با گنجاندن تولید دیفیوژن در داخل، توکنهای متن گسسته و محتوای تصویر پیوسته را خروجی دهد. سپس این را با رویکردهای قبلی، به ویژه، روش مبتنی بر ابزار که در آن یک مدل زبان یک API تصویر خارجی را فراخوانی میکند و روش توکن گسسته که توسط مدل Chameleon (CM3Leon) قبلی متا نمونهسازی شده است، مقایسه میکنیم. طراحی Transfusion را تشریح میکنیم: توکنهای ویژه Begin-of-Image (BOI) و End-of-Image (EOI) که محتوای تصویر را در بر میگیرند، تولید تکههای تصویر که بعداً به سبک دیفیوژن اصلاح میشوند و تبدیل این تکهها به یک تصویر نهایی از طریق لایههای رمزگشایی آموخته شده (طرحهای خطی، U-Net upsamplerها و یک خودرمزگذار واریانس). همچنین عملکرد تجربی را مقایسه میکنیم: مدلهای مبتنی بر Transfusion (مانند GPT-4o) به طور قابل توجهی عملکرد بهتری نسبت به مدلهای مبتنی بر گسستهسازی (Chameleon) در کیفیت و کارایی تصویر دارند و با مدلهای دیفیوژن پیشرفته در معیارهای تصویر مطابقت دارند. در نهایت، این کار را در چارچوب تحقیقات 2023-2025 در مورد تولید چندوجهی یکپارچه قرار میدهیم و برجسته میکنیم که چگونه Transfusion و تلاشهای مشابه تولید زبان و تصویر را در یک گذر رو به جلو یا چارچوب نشانهگذاری مشترک متحد میکنند.
از ابزارها تا تولید چندوجهی بومی
رویکرد مبتنی بر ابزار قبلی: قبل از معماریهایی مانند GPT-4o، اگر کسی میخواست یک عامل مکالمهای تصاویر تولید کند، یک رویکرد رایج، استراتژی خط لوله یا فراخوانی ابزار بود. به عنوان مثال، ChatGPT میتواند با یک دستور برای فراخوانی یک تولیدکننده تصویر (مانند DALL·E 3) زمانی که کاربر یک تصویر را درخواست میکند، تقویت شود. در این تنظیم دو مدلی، خود مدل زبان واقعاً تصویر را تولید نمیکند. این صرفاً یک توصیف متنی یا فراخوانی API تولید میکند که یک مدل دیفیوژن خارجی آن را به یک تصویر تبدیل میکند. در حالی که این رویکرد مؤثر است، محدودیتهای روشنی دارد: تولید تصویر به طور محکم با دانش و زمینه مدل زبان یکپارچه نیست.
ادغام زودهنگام توکن گسسته: یک خط تحقیق جایگزین، تولید تصویر را به طور درونی بخشی از مدلسازی توالی با در نظر گرفتن تصاویر به عنوان توالیهایی از توکنهای گسسته قرار داد. این رویکرد که توسط مدلهایی مانند DALL·E (2021) پیشگام شد، که از VQ-VAE برای رمزگذاری تصاویر در شاخصهای دفترچه کد استفاده میکرد، به یک ترانسفورمر واحد اجازه میدهد تا توکنهای متن و تصویر را از یک واژگان تولید کند. به عنوان مثال، Parti (Google، 2022) و Chameleon (2024) متا، مدلسازی زبان را با کمی کردن تصاویر به توکنها و آموزش مدل برای پیشبینی آن توکنها مانند کلمات، به سنتز تصویر گسترش میدهند. ایده کلیدی Chameleon "ادغام زودهنگام" روشها بود: تصاویر و متن از همان ابتدا به یک فضای توکن مشترک تبدیل میشوند.
با این حال، این رویکرد گسستهسازی یک تنگنای اطلاعاتی ایجاد میکند. تبدیل یک تصویر به یک توالی از توکنهای گسسته لزوماً برخی از جزئیات را دور میاندازد. دفترچه کد VQ-VAE اندازه ثابتی دارد، بنابراین ممکن است گرادیانهای رنگ ظریف یا بافتهای دقیقی را که در تصویر اصلی وجود دارد، ثبت نکند. علاوه بر این، برای حفظ حداکثر وفاداری ممکن، تصویر باید به توکنهای زیادی، اغلب صدها یا بیشتر برای یک تصویر واحد، تقسیم شود. این باعث میشود تولید کند و آموزش پرهزینه باشد. علیرغم این تلاشها، یک مصالحه ذاتی وجود دارد: استفاده از یک دفترچه کد بزرگتر یا توکنهای بیشتر کیفیت تصویر را بهبود میبخشد، اما طول توالی و محاسبات را افزایش میدهد، در حالی که استفاده از یک دفترچه کد کوچکتر تولید را سرعت میبخشد اما جزئیات را از دست میدهد. از نظر تجربی، مدلهایی مانند Chameleon، در حالی که نوآورانه هستند، از مدلهای دیفیوژن اختصاصی در وفاداری تصویر عقب هستند.
معماری ترانسفیوژن: ادغام ترانسفورمرها با دیفیوژن
Transfusion یک رویکرد ترکیبی را در پیش میگیرد و به طور مستقیم یک تولیدکننده تصویر مبتنی بر دیفیوژن پیوسته را در چارچوب مدلسازی توالی ترانسفورمر ادغام میکند. هسته اصلی Transfusion یک مدل ترانسفورمر واحد (فقط رمزگشا) است که روی ترکیبی از متن و تصاویر آموزش داده شده است، اما با اهداف مختلف برای هر کدام. توکنهای متن از دست دادن پیشبینی توکن بعدی استاندارد استفاده میکنند. توکنهای تصویر، تعبیههای پیوسته تکههای تصویر، از دست دادن دیفیوژن استفاده میکنند، همان نوع هدف حذف نویز که برای آموزش مدلهایی مانند Stable Diffusion استفاده میشود، با این تفاوت که در داخل ترانسفورمر پیادهسازی میشود.
توالی یکپارچه با نشانگرهای BOI/EOI: در Transfusion (و GPT-4o)، دادههای متن و تصویر در طول آموزش در یک توالی به هم متصل میشوند. توکنهای ویژه مرزهای بین روشها را مشخص میکنند. یک توکن Begin-of-Image (BOI) نشان میدهد که عناصر بعدی در توالی محتوای تصویر هستند و یک توکن End-of-Image (EOI) سیگنال میدهد که محتوای تصویر به پایان رسیده است. همه چیز خارج از BOI…EOI به عنوان متن معمولی در نظر گرفته میشود. همه چیز داخل آن به عنوان یک نمایش تصویر پیوسته در نظر گرفته میشود. همان ترانسفورمر تمام توالیها را پردازش میکند. در داخل بلوک BOI-EOI یک تصویر، توجه در بین عناصر تکه تصویر دو طرفه است. این بدان معناست که ترانسفورمر میتواند یک تصویر را به عنوان یک موجودیت دو بعدی در نظر بگیرد در حالی که تصویر را به طور کامل به عنوان یک مرحله در یک توالی خودرگرسیو در نظر میگیرد.
تکههای تصویر به عنوان توکنهای پیوسته: Transfusion یک تصویر را به عنوان مجموعهای کوچک از بردارهای پیوسته به نام تکههای نهفته به جای توکنهای دفترچه کد گسسته نشان میدهد. تصویر ابتدا توسط یک خودرمزگذار واریانس (VAE) به یک فضای نهفته با ابعاد کمتر رمزگذاری میشود. سپس تصویر نهفته به یک شبکه از تکهها تقسیم میشود و هر تکه به یک بردار مسطح میشود. این بردارهای تکه همان چیزی هستند که ترانسفورمر میبیند و برای مناطق تصویر پیشبینی میکند. از آنجایی که آنها مقادیر پیوسته هستند، مدل نمیتواند از یک softmax روی یک واژگان ثابت برای تولید یک تکه تصویر استفاده کند. در عوض، تولید تصویر از طریق دیفیوژن آموخته میشود: مدل آموزش داده میشود تا تکههای بدون نویز را از تکههای نویزدار خروجی دهد.
لایههای خاص روش سبک وزن این بردارهای تکه را به فضای ورودی ترانسفورمر طرح میکنند. دو گزینه طراحی مورد بررسی قرار گرفت: یک لایه خطی ساده یا یک رمزگذار کوچک به سبک U-Net که محتوای تکه محلی را بیشتر نمونهبرداری میکند. U-Net downsampler میتواند ساختارهای فضایی پیچیدهتری را از یک تکه بزرگتر ضبط کند. در عمل، Transfusion دریافت که استفاده از بلوکهای بالا/پایین U-Net به آنها اجازه میدهد تا کل یک تصویر را تنها در 16 تکه نهفته با حداقل از دست دادن عملکرد فشرده کنند. تکههای کمتر به معنای توالیهای کوتاهتر و تولید سریعتر است. در بهترین پیکربندی، یک مدل Transfusion در مقیاس 7B یک تصویر را با 22 بردار تکه نهفته به طور متوسط نشان میدهد.
ادغام دیفیوژن حذف نویز: آموزش مدل روی تصاویر از یک هدف دیفیوژن تعبیه شده در توالی استفاده میکند. برای هر تصویر، تکههای نهفته با یک سطح نویز تصادفی نویزدار میشوند، مانند یک مدل دیفیوژن استاندارد. این تکههای پر سر و صدا به ترانسفورمر داده میشوند (قبل از BOI). ترانسفورمر باید نسخه بدون نویز را پیشبینی کند. از دست دادن روی توکنهای تصویر از دست دادن دیفیوژن معمول (خطای L2) است، در حالی که از دست دادن روی توکنهای متن آنتروپی متقابل است. این دو ضرر به سادگی برای آموزش مشترک اضافه میشوند. بنابراین، بسته به پردازش فعلی خود، مدل یاد میگیرد که متن را ادامه دهد یا یک تصویر را اصلاح کند.
در زمان استنتاج، روش تولید آموزش را منعکس میکند. GPT-4o توکنها را به صورت خودرگرسیو تولید میکند. اگر یک توکن متن معمولی تولید کند، طبق معمول ادامه مییابد. اما اگر توکن ویژه BOI را تولید کند، به تولید تصویر منتقل میشود. پس از تولید BOI، مدل یک بلوک از توکنهای تصویر نهفته را که با نویز تصادفی خالص مقداردهی اولیه شدهاند، به توالی اضافه میکند. اینها به عنوان مکان نگهدارنده برای تصویر عمل میکنند. سپس مدل وارد رمزگشایی دیفیوژن میشود و به طور مکرر توالی را از طریق ترانسفورمر عبور میدهد تا به تدریج تصویر را بدون نویز کند. توکنهای متن در زمینه به عنوان شرط عمل میکنند. هنگامی که تکههای تصویر به طور کامل تولید شدند، مدل یک توکن EOI را برای نشان دادن پایان بلوک تصویر منتشر میکند.
رمزگشایی تکهها به یک تصویر: بردارهای تکه نهفته نهایی به یک تصویر واقعی تبدیل میشوند. این کار با معکوس کردن رمزگذاری قبلی انجام میشود: ابتدا، بردارهای تکه با استفاده از یک طرح خطی یا بلوکهای بالای U-Net به کاشیهای تصویر نهفته نگاشت میشوند. پس از این، رمزگشای VAE تصویر نهفته را به تصویر پیکسلی RGB نهایی رمزگشایی میکند. نتیجه معمولاً با کیفیت بالا و منسجم است زیرا تصویر از طریق یک فرآیند دیفیوژن در فضای نهفته تولید شده است.
Transfusion در مقابل روشهای قبلی: تفاوتها و مزایای کلیدی
ادغام بومی در مقابل تماسهای خارجی: فوریترین مزیت Transfusion این است که تولید تصویر بومی گذر رو به جلو مدل است، نه یک ابزار جداگانه. این بدان معناست که مدل میتواند متن و تصاویر را به طور روان با هم ترکیب کند. علاوه بر این، دانش و تواناییهای استدلال مدل زبان مستقیماً به ایجاد تصویر اطلاع میدهد. GPT-4o در ارائه متن در تصاویر و مدیریت چندین شیء عالی است، احتمالاً به دلیل این ادغام محکمتر.
دیفیوژن پیوسته در مقابل توکنهای گسسته: رویکرد دیفیوژن تکه پیوسته Transfusion اطلاعات بسیار بیشتری را حفظ میکند و خروجیهای با وفاداری بالاتری را به دست میدهد. ترانسفورمر نمیتواند با حذف تنگنای کمیسازی، از یک پالت محدود انتخاب کند. در عوض، مقادیر پیوسته را پیشبینی میکند و امکان تغییرات ظریف را فراهم میکند. در معیارها، یک مدل Transfusion با پارامتر 7.3B به FID 6.78 در MS-COCO دست یافت، در مقایسه با FID 26.7 برای یک مدل Chameleon با اندازه مشابه. Transfusion همچنین دارای امتیاز CLIP بالاتری (0.63 در مقابل 0.39) بود که نشان دهنده هم ترازی بهتر تصویر و متن است.
کارایی و مقیاسبندی: Transfusion میتواند یک تصویر را تنها در 16 تا 20 تکه نهفته فشرده کند. Chameleon ممکن است به صدها توکن نیاز داشته باشد. این بدان معناست که ترانسفورمر Transfusion در هر تصویر مراحل کمتری را انجام میدهد. Transfusion با استفاده از تنها ~22٪ از محاسبات با عملکرد Chameleon مطابقت داشت. این مدل با استفاده از تقریباً نیمی از محاسبات Chameleon به همان سردرگمی زبانی رسید.
کیفیت تولید تصویر: Transfusion تصاویری فوتورئالیستی تولید میکند که با مدلهای دیفیوژن پیشرفته قابل مقایسه است. در معیار GenEval برای تولید متن به تصویر، یک مدل Transfusion 7B از DALL-E 2 و حتی SDXL 1.0 عملکرد بهتری داشت. GPT-4o متن خوانا را در تصاویر ارائه میکند و اشیاء متمایز زیادی را در یک صحنه مدیریت میکند.
انعطافپذیری و چندوجهی چند نوبتی: GPT-4o میتواند تعاملات دووجهی را مدیریت کند، نه فقط متن به تصویر، بلکه تصویر به متن و وظایف ترکیبی. به عنوان مثال، میتواند یک تصویر را نشان دهد و سپس به تولید متن در مورد آن ادامه دهد یا آن را با دستورالعملهای بیشتر ویرایش کند. Transfusion این قابلیتها را به طور طبیعی در همان معماری فعال میکند.
محدودیتها: در حالی که Transfusion از رویکردهای گسسته عملکرد بهتری دارد، اما همچنان برخی از محدودیتها را از مدلهای دیفیوژن به ارث میبرد. خروجی تصویر به دلیل مراحل تکراری متعدد کندتر است. ترانسفورمر باید وظیفه مضاعف را انجام دهد که پیچیدگی آموزش را افزایش میدهد. با این حال، ماسکسازی و عادیسازی دقیق، آموزش را برای میلیاردها پارامتر بدون فروپاشی فعال میکند.
کارهای مرتبط و مدلهای مولد چندوجهی (2023-2025)
قبل از Transfusion، بیشتر تلاشها به مدلهای تقویت شده با ابزار و مدلهای ادغام توکن سقوط میکرد. HuggingGPT و Visual ChatGPT به یک LLM اجازه دادند تا APIهای مختلف را برای کارهایی مانند تولید تصویر فراخوانی کند. رویکردهای ادغام توکن شامل DALL·E، CogView و Parti است که تصاویر را به عنوان توالیهایی از توکنها در نظر میگیرند. Chameleon روی توالیهای متن-تصویر در هم آمیخته آموزش دید. Kosmos-1 و Kosmos-2 ترانسفورمرهای چندوجهی بودند که هدفشان درک به جای تولید بود.
Transfusion با حفظ ظرافت تک مدلی ادغام توکن، اما با استفاده از نهفته پیوسته و پالایش تکراری مانند دیفیوژن، شکاف را پر میکند. Muse گوگل و DeepFloyd IF تغییراتی را معرفی کردند، اما از مراحل متعدد یا رمزگذارهای زبان منجمد استفاده کردند. Transfusion تمام قابلیتها را در یک ترانسفورمر ادغام میکند. نمونههای دیگر عبارتند از Make-A-Scene و Paint-by-Example متا، DeepFloyd IF Stability AI و IDEFICS HuggingFace.
در پایان، معماری Transfusion نشان میدهد که متحد کردن تولید متن و تصویر در یک ترانسفورمر امکانپذیر است. GPT-4o با Transfusion تصاویر را به صورت بومی، هدایت شده توسط زمینه و دانش تولید میکند و تصاویر بصری با کیفیت بالا را با متن در هم میآمیزد. در مقایسه با مدلهای قبلی مانند Chameleon، کیفیت تصویر بهتر، آموزش کارآمدتر و یکپارچگی عمیقتری را ارائه میدهد.