شرکت OpenAI در حال عرضه قابلیتهای کاملاً جدید تولید تصویر برای ChatGPT است. و حدس بزنید چه؟ بالاخره — تقریباً — متن را بینقص تولید میکند.
تاکنون، این چتبات از مدل جداگانه شرکت به نام DALL-E برای خلق تصاویر استفاده میکرد. با این بهروزرسانی اخیر، کاربران میتوانند به ویژگی جدیدی به نام «تصاویر در ChatGPT» دسترسی پیدا کنند که از مدل پرچمدار OpenAI یعنی GPT-4o بهره میبرد؛ مدلی که نزدیک به یک سال است زیربنای این چتبات بوده است. این ارتقا همچنین در Sora، ابزار تولید ویدیوی OpenAI، نیز در دسترس است.
گابریل گو (Gabriel Goh)، سرپرست تحقیقات، به The Verge گفت: «این مدل یک تغییر جهشی نسبت به مدلهای قبلی است.»
بارزترین تغییر، نحوه مدیریت متن توسط این مدل است؛ چیزی که این مدل و رقبایش مدتها با آن دستوپنجه نرم میکردند. کلمات معمولاً شبیه به نوشتههای نامفهوم به نظر میرسیدند و متنی هم که خوانا بود، نامرتب به نظر میرسید، پر از خطاهای قالببندی و غلطهای املایی بود.
به گفته OpenAI، دیگر اینطور نیست. یک مثال به اشتراک گذاشته شده توسط این شرکت، کارمندی را نشان میدهد که مزایا و معایب بهروزرسانی تصویر ChatGPT را روی یک وایتبرد مینویسد و دقیقاً همان چیزی را که در دستور (prompt) مشخص شده بود، دنبال میکند؛ همین امر در مورد یک کمیک استریپ چهار قابی درباره یک حلزون نیز صادق است — همگی با متنی که به شکلی تمیز ارائه شده است.
گو به The Verge گفت: «این فقط یک فرآیند تکرار بود که ماهها طول کشید تا درست شود.» «ماهها بهبودهای کوچک انجام شده است.» گو افزود که این مدل هنوز با حروف بسیار کوچک مشکل دارد، اما به طور کلی، کیفیت متن به طور مداوم قابل استفاده است.
برخلاف تولیدکنندگان تصویر مانند DALL-E که از مدل انتشاری (diffusion model) استفاده میکنند، GPT-4o از رویکرد خودهمبسته (autoregressive) استفاده میکند که تصاویر را از چپ به راست و از بالا به پایین تولید میکند، به نقل از The Verge، شبیه به نحوه نوشتن متن — حداقل در زبان انگلیسی.
فراتر از بهبود دستخط، OpenAI میگوید این مدل اکنون دستورالعملها را بهتر دنبال میکند، زیرا یک مشکل رایج در نسخههای قدیمیتر این بود که جزئیات خاصی را در دستورات طولانیتر نادیده میگرفتند. همچنین برای تولید تصاویر واقعگرایانهتر (photorealistic) بهینهسازی شده است.
البته ملاحظاتی نیز وجود دارد. اول اینکه، تولید خروجیها زمان بیشتری میبرد. و مانند همه مدلهای مولد، هنوز مستعد ساختن اطلاعات یا توهم (hallucinating) است. همچنین در تولید خطوط غیرلاتین مشکل دارد و هنگام تلاش برای نوشتن زبانهایی مانند کرهای، کاراکترها را به صورت توهمی تولید میکند.
با قابلیتهای بیشتر، نگرانیهای ایمنی و اطلاعات نادرست بیشتری نیز به وجود میآید. در این راستا، OpenAI تأکید کرد که به ویژه «حفاظتهای قوی» پیرامون برهنگی، خشونت و تصاویر افراد واقعی در نظر گرفته است. علاوه بر این، تمام تصاویری که مدل هوش مصنوعی تولید میکند با فراداده C2PA جاسازی میشوند که نشان میدهد با GPT-4o ساخته شدهاند. اما این نوع واترمارک پنهان به راحتی قابل حذف است — در واقع، بسیاری از پلتفرمهای رسانههای اجتماعی به طور خودکار فراداده تصویر را پس از آپلود حذف میکنند.
جکی شانون (Jackie Shannon)، سرپرست محصول چندوجهی ChatGPT، به The Verge گفت: «در نهایت، هیچ سیستمی برای این نوع کار بینقص نیست، اما ما به طور مداوم در حال بهبود حفاظتهای خود هستیم و این را به عنوان نقطه شروع در نظر میگیریم.»
در حال حاضر، تولید تصویر با GPT-4o فقط برای مشترکین سطح اشتراک مضحک ۲۰۰ دلاری ماهانه Pro شرکت OpenAI در دسترس است و برنامههایی برای عرضه این ویژگی به کاربران Plus و رایگان در آینده نزدیک وجود دارد.
بیشتر در مورد OpenAI: اتفاق عجیبی برای افرادی که زیاد از ChatGPT استفاده میکنند در حال رخ دادن است