تصویر از OpenAI
تصویر از OpenAI

تولیدکننده تصویر جدید OpenAI می‌تواند متنی تقریباً بی‌نقص ایجاد کند

اوه اوه.

کمیک استریپ چهار قابی درباره حلزون که با GPT-4o تولید شده و متن خوانایی دارد
مثالی از کمیک استریپ تولید شده توسط GPT-4o با متن خوانا
تصویر واقع‌گرایانه از یک نوشیدنی بوبا که توسط GPT-4o تولید شده است
مثالی از تصویر واقع‌گرایانه تولید شده توسط GPT-4o

شرکت OpenAI در حال عرضه قابلیت‌های کاملاً جدید تولید تصویر برای ChatGPT است. و حدس بزنید چه؟ بالاخره — تقریباً — متن را بی‌نقص تولید می‌کند.

تاکنون، این چت‌بات از مدل جداگانه شرکت به نام DALL-E برای خلق تصاویر استفاده می‌کرد. با این به‌روزرسانی اخیر، کاربران می‌توانند به ویژگی جدیدی به نام «تصاویر در ChatGPT» دسترسی پیدا کنند که از مدل پرچم‌دار OpenAI یعنی GPT-4o بهره می‌برد؛ مدلی که نزدیک به یک سال است زیربنای این چت‌بات بوده است. این ارتقا همچنین در Sora، ابزار تولید ویدیوی OpenAI، نیز در دسترس است.

گابریل گو (Gabriel Goh)، سرپرست تحقیقات، به The Verge گفت: «این مدل یک تغییر جهشی نسبت به مدل‌های قبلی است.»

بارزترین تغییر، نحوه مدیریت متن توسط این مدل است؛ چیزی که این مدل و رقبایش مدت‌ها با آن دست‌وپنجه نرم می‌کردند. کلمات معمولاً شبیه به نوشته‌های نامفهوم به نظر می‌رسیدند و متنی هم که خوانا بود، نامرتب به نظر می‌رسید، پر از خطاهای قالب‌بندی و غلط‌های املایی بود.

به گفته OpenAI، دیگر این‌طور نیست. یک مثال به اشتراک گذاشته شده توسط این شرکت، کارمندی را نشان می‌دهد که مزایا و معایب به‌روزرسانی تصویر ChatGPT را روی یک وایت‌برد می‌نویسد و دقیقاً همان چیزی را که در دستور (prompt) مشخص شده بود، دنبال می‌کند؛ همین امر در مورد یک کمیک استریپ چهار قابی درباره یک حلزون نیز صادق است — همگی با متنی که به شکلی تمیز ارائه شده است.

گو به The Verge گفت: «این فقط یک فرآیند تکرار بود که ماه‌ها طول کشید تا درست شود.» «ماه‌ها بهبودهای کوچک انجام شده است.» گو افزود که این مدل هنوز با حروف بسیار کوچک مشکل دارد، اما به طور کلی، کیفیت متن به طور مداوم قابل استفاده است.

برخلاف تولیدکنندگان تصویر مانند DALL-E که از مدل انتشاری (diffusion model) استفاده می‌کنند، GPT-4o از رویکرد خودهمبسته (autoregressive) استفاده می‌کند که تصاویر را از چپ به راست و از بالا به پایین تولید می‌کند، به نقل از The Verge، شبیه به نحوه نوشتن متن — حداقل در زبان انگلیسی.

فراتر از بهبود دست‌خط، OpenAI می‌گوید این مدل اکنون دستورالعمل‌ها را بهتر دنبال می‌کند، زیرا یک مشکل رایج در نسخه‌های قدیمی‌تر این بود که جزئیات خاصی را در دستورات طولانی‌تر نادیده می‌گرفتند. همچنین برای تولید تصاویر واقع‌گرایانه‌تر (photorealistic) بهینه‌سازی شده است.

البته ملاحظاتی نیز وجود دارد. اول اینکه، تولید خروجی‌ها زمان بیشتری می‌برد. و مانند همه مدل‌های مولد، هنوز مستعد ساختن اطلاعات یا توهم (hallucinating) است. همچنین در تولید خطوط غیرلاتین مشکل دارد و هنگام تلاش برای نوشتن زبان‌هایی مانند کره‌ای، کاراکترها را به صورت توهمی تولید می‌کند.

با قابلیت‌های بیشتر، نگرانی‌های ایمنی و اطلاعات نادرست بیشتری نیز به وجود می‌آید. در این راستا، OpenAI تأکید کرد که به ویژه «حفاظت‌های قوی» پیرامون برهنگی، خشونت و تصاویر افراد واقعی در نظر گرفته است. علاوه بر این، تمام تصاویری که مدل هوش مصنوعی تولید می‌کند با فراداده C2PA جاسازی می‌شوند که نشان می‌دهد با GPT-4o ساخته شده‌اند. اما این نوع واترمارک پنهان به راحتی قابل حذف است — در واقع، بسیاری از پلتفرم‌های رسانه‌های اجتماعی به طور خودکار فراداده تصویر را پس از آپلود حذف می‌کنند.

جکی شانون (Jackie Shannon)، سرپرست محصول چندوجهی ChatGPT، به The Verge گفت: «در نهایت، هیچ سیستمی برای این نوع کار بی‌نقص نیست، اما ما به طور مداوم در حال بهبود حفاظت‌های خود هستیم و این را به عنوان نقطه شروع در نظر می‌گیریم.»

در حال حاضر، تولید تصویر با GPT-4o فقط برای مشترکین سطح اشتراک مضحک ۲۰۰ دلاری ماهانه Pro شرکت OpenAI در دسترس است و برنامه‌هایی برای عرضه این ویژگی به کاربران Plus و رایگان در آینده نزدیک وجود دارد.

بیشتر در مورد OpenAI: اتفاق عجیبی برای افرادی که زیاد از ChatGPT استفاده می‌کنند در حال رخ دادن است