قابلیتهای جدید تولید تصویر ChatGPT فوقالعاده هستند. فقط کافیست وارد X (توییتر سابق) شوید و عبارت «ChatGPT» یا «Ghibli» را جستجو کنید—مردم به طور قابل درکی هیجانزده شدهاند و آن را دوست دارند. اگر من یک اینفلوئنسر بودم، این را «لحظه ChatGPT» مینامیدم، حداقل از نظر جلب توجه. اما در حالی که ما در شگفتی هستیم، منصفانه است که به Google Gemini 2.5 Pro نیز اشاره کنیم، یک مدل هوش مصنوعی پیشرفته جدید که حداقل به همان اندازه سزاوار توجه است، اگرچه هیچ توجهی دریافت نخواهد کرد. از آنجایی که کار من پیروی از جمعیت است، میگویم ما هم آن را فراموش کنیم.
(من واقعاً کار Google DeepMind را دوست دارم—یکی از پیشبینیهای بحثبرانگیز من این است که آنها تا پایان سال در صدر خواهند بود—اما آنها باید بازی بازاریابی خود را تقویت کنند. در حالی که سم آلتمن (Sam Altman) شبیه یک زومر صحبت میکند، دمیس (Demis Hassabis) و سوندار (Sundar Pichai) شبیه بومرها به نظر میرسند… که سعی میکنند زومر باشند. یک توصیه ناخواسته از یک هزارهای متأخر: شما باید حداقل یک تیم داشته باشید که خود را خیلی جدی نگیرد، که کارها را به روش قدیمی از طریق کمیتهها انجام ندهد، بلکه از طریق حس و حال انجام دهد. این نظر شخصی من است.)
به هر حال، ChatGPT اکنون بهترین مدل تولید تصویر است (از تجربه من، کمی بهتر از مدل گوگل). ثبات شخصیت، ویرایش دقیق، پردازش متن، و برخی آزمایشهای عجیب دیگر فوقالعاده هستند. همچنین در پیروی از دستورالعملها از متن و استنباط هدف از نشانههای ضمنی (تولید چند نوبتی) بهترین است. این مزیت ادغام کامل آن در مدل زبانی است. همچنین سانسور نرمتری وجود دارد (سم آلتمن به این موضوع اشاره کرده بود در یک AMA مدتی پیش). میتوانید از آن بخواهید یک زن جذاب یا هر چیزی که به ذهنتان میرسد را نقاشی کند؛ نکته مهم این است که به طور فزایندهای احساس عدم قیممآبی میکند. این خوب است.
و سپس تمام آن تصاویر شبیه استودیو جیبلی (Studio Ghibli) وجود دارد که فیدهای من را پر کردهاند (این شخص مقصر است). میازاکی (Miyazaki) باید خشمگین باشد—یا اگر نه، مطمئناً آن اندک ایمانی را که به بشریت داشت از دست داده است. هرچقدر هم که از جیبلیسازی لذت میبرم—برای دو میلیون تصویر اولی که دیدم جالب بود—برای میازاکی احساس ناراحتی میکنم. (آیا تمام جذابیت سبک جیبلی این نیست که با دقت و زحمت توسط هنرمندان انسانی خلق شده است؟). من همچنین از این ویروسی شدن شگفتزده شدهام. از زمان تب اسکرینشاتهای ChatGPT در اواخر سال 2022، ندیده بودم که شبکههای اجتماعی من توسط یک موضوع واحد تسخیر شوند. میتوان نتیجه گرفت که، همانطور که آقای اَپِلز میگفت: «این مدل خوبی است، قربان.» (یا حداقل تا زمانی که شروع به درک این موضوع کنیم که این تجسم دیگری از «اسلاپیفیکیشن بزرگ» (The Great Slopification) است، اینطور خواهیم گفت.)
بنابراین، OpenAI چگونه این کار را انجام داد؟ چگونه آنها مشکل تولید تصویر را یک بار برای همیشه حل کردند؟ پست وبلاگ، طبق معمول جزئیات زیادی را فاش نمیکند، این را میگوید:
ما مدلهای خود را بر روی توزیع مشترک تصاویر و متن آنلاین آموزش دادیم و نه تنها یاد گرفتیم که چگونه تصاویر به زبان مربوط میشوند، بلکه چگونه به یکدیگر مربوط میشوند. در ترکیب با پسآموزش تهاجمی، مدل حاصل دارای تسلط بصری شگفتانگیزی است که قادر به تولید تصاویری مفید، منسجم و آگاه از زمینه است.
حدس میزنم که عوامل کلیدی در اینجا توزیع مشترک متن-تصویر و چیزی است که OpenAI به طور مبهم «پسآموزش تهاجمی» مینامد. چندوجهی بومی (Native multimodality) قبلاً وجود داشت، اما نه در این سطح از کیفیت. محققان در آزمایشگاههای دیگر شروع به ارائه فرضیههای جالبی کردهاند در حالی که سعی میکنند دقیقاً بفهمند چه اتفاقی در حال رخ دادن است.
به هر حال، اجماع روشن است: جهان به تازگی شاهد یک تغییر پارادایم در تولید تصویر بوده است (تغییری که زمان میبرد تا در معیارهای رشد اقتصادی و بهرهوری خود را نشان دهد، اما با این وجود رخ داده است).
با این حال.
یک خط در پست OpenAI وجود دارد که احتمالاً از کنار آن عبور کردهاید. آنها تقریباً به طور گذرا به آن اشاره میکنند. اما من فکر میکنم این مهمترین بخش است—و توضیح خواهم داد که چرا این نحوه تفکر ما در مورد این عرضه را تغییر میدهد.