تصویری نمادین مرتبط با قابلیت‌های جدید تولید تصویر OpenAI
تصویری نمادین مرتبط با قابلیت‌های جدید تولید تصویر OpenAI

تبریک بابت مجموعه استودیو جیبلی، OpenAI، اما نه چیز دیگر

همه ما بی‌خیالانه رشته کلام را گم می‌کنیم

قابلیت‌های جدید تولید تصویر ChatGPT فوق‌العاده هستند. فقط کافیست وارد X (توییتر سابق) شوید و عبارت «ChatGPT» یا «Ghibli» را جستجو کنید—مردم به طور قابل درکی هیجان‌زده شده‌اند و آن را دوست دارند. اگر من یک اینفلوئنسر بودم، این را «لحظه ChatGPT» می‌نامیدم، حداقل از نظر جلب توجه. اما در حالی که ما در شگفتی هستیم، منصفانه است که به Google Gemini 2.5 Pro نیز اشاره کنیم، یک مدل هوش مصنوعی پیشرفته جدید که حداقل به همان اندازه سزاوار توجه است، اگرچه هیچ توجهی دریافت نخواهد کرد. از آنجایی که کار من پیروی از جمعیت است، می‌گویم ما هم آن را فراموش کنیم.

(من واقعاً کار Google DeepMind را دوست دارم—یکی از پیش‌بینی‌های بحث‌برانگیز من این است که آن‌ها تا پایان سال در صدر خواهند بود—اما آن‌ها باید بازی بازاریابی خود را تقویت کنند. در حالی که سم آلتمن (Sam Altman) شبیه یک زومر صحبت می‌کند، دمیس (Demis Hassabis) و سوندار (Sundar Pichai) شبیه بومرها به نظر می‌رسند… که سعی می‌کنند زومر باشند. یک توصیه ناخواسته از یک هزاره‌ای متأخر: شما باید حداقل یک تیم داشته باشید که خود را خیلی جدی نگیرد، که کارها را به روش قدیمی از طریق کمیته‌ها انجام ندهد، بلکه از طریق حس و حال انجام دهد. این نظر شخصی من است.)

به هر حال، ChatGPT اکنون بهترین مدل تولید تصویر است (از تجربه من، کمی بهتر از مدل گوگل). ثبات شخصیت، ویرایش دقیق، پردازش متن، و برخی آزمایش‌های عجیب دیگر فوق‌العاده هستند. همچنین در پیروی از دستورالعمل‌ها از متن و استنباط هدف از نشانه‌های ضمنی (تولید چند نوبتی) بهترین است. این مزیت ادغام کامل آن در مدل زبانی است. همچنین سانسور نرم‌تری وجود دارد (سم آلتمن به این موضوع اشاره کرده بود در یک AMA مدتی پیش). می‌توانید از آن بخواهید یک زن جذاب یا هر چیزی که به ذهنتان می‌رسد را نقاشی کند؛ نکته مهم این است که به طور فزاینده‌ای احساس عدم قیم‌مآبی می‌کند. این خوب است.

و سپس تمام آن تصاویر شبیه استودیو جیبلی (Studio Ghibli) وجود دارد که فیدهای من را پر کرده‌اند (این شخص مقصر است). میازاکی (Miyazaki) باید خشمگین باشد—یا اگر نه، مطمئناً آن اندک ایمانی را که به بشریت داشت از دست داده است. هرچقدر هم که از جیبلی‌سازی لذت می‌برم—برای دو میلیون تصویر اولی که دیدم جالب بود—برای میازاکی احساس ناراحتی می‌کنم. (آیا تمام جذابیت سبک جیبلی این نیست که با دقت و زحمت توسط هنرمندان انسانی خلق شده است؟). من همچنین از این ویروسی شدن شگفت‌زده شده‌ام. از زمان تب اسکرین‌شات‌های ChatGPT در اواخر سال 2022، ندیده بودم که شبکه‌های اجتماعی من توسط یک موضوع واحد تسخیر شوند. می‌توان نتیجه گرفت که، همانطور که آقای اَپِلز می‌گفت: «این مدل خوبی است، قربان.» (یا حداقل تا زمانی که شروع به درک این موضوع کنیم که این تجسم دیگری از «اسلاپیفیکیشن بزرگ» (The Great Slopification) است، اینطور خواهیم گفت.)

بنابراین، OpenAI چگونه این کار را انجام داد؟ چگونه آن‌ها مشکل تولید تصویر را یک بار برای همیشه حل کردند؟ پست وبلاگ، طبق معمول جزئیات زیادی را فاش نمی‌کند، این را می‌گوید:

ما مدل‌های خود را بر روی توزیع مشترک تصاویر و متن آنلاین آموزش دادیم و نه تنها یاد گرفتیم که چگونه تصاویر به زبان مربوط می‌شوند، بلکه چگونه به یکدیگر مربوط می‌شوند. در ترکیب با پس‌آموزش تهاجمی، مدل حاصل دارای تسلط بصری شگفت‌انگیزی است که قادر به تولید تصاویری مفید، منسجم و آگاه از زمینه است.

حدس می‌زنم که عوامل کلیدی در اینجا توزیع مشترک متن-تصویر و چیزی است که OpenAI به طور مبهم «پس‌آموزش تهاجمی» می‌نامد. چندوجهی بومی (Native multimodality) قبلاً وجود داشت، اما نه در این سطح از کیفیت. محققان در آزمایشگاه‌های دیگر شروع به ارائه فرضیه‌های جالبی کرده‌اند در حالی که سعی می‌کنند دقیقاً بفهمند چه اتفاقی در حال رخ دادن است.

به هر حال، اجماع روشن است: جهان به تازگی شاهد یک تغییر پارادایم در تولید تصویر بوده است (تغییری که زمان می‌برد تا در معیارهای رشد اقتصادی و بهره‌وری خود را نشان دهد، اما با این وجود رخ داده است).

با این حال.

یک خط در پست OpenAI وجود دارد که احتمالاً از کنار آن عبور کرده‌اید. آن‌ها تقریباً به طور گذرا به آن اشاره می‌کنند. اما من فکر می‌کنم این مهم‌ترین بخش است—و توضیح خواهم داد که چرا این نحوه تفکر ما در مورد این عرضه را تغییر می‌دهد.