میدجرنی انتشار نسخه آلفای مدل تولید تصویر V7 خود را برای آزمایش توسط جامعه هوش مصنوعی اعلام کرده است. این مدل جدید بهبودهایی در درک دستورات متنی، کیفیت تصویر و انسجام ویژگیها ارائه میدهد.
میدجرنی توضیح داد: «V7 مدلی شگفتانگیز است. در فهم دستورات متنی بسیار هوشمندتر عمل میکند، تصاویر تولید شده از روی تصاویر دیگر فوقالعاده به نظر میرسند، کیفیت تصویر با بافتهای زیبا به طور قابل توجهی بالاتر است و بدنها، دستها و اشیاء از هر نوع، انسجام بسیار بهتری در تمام جزئیات دارند.»
یک نوآوری کلیدی در V7، فعالسازی پیشفرض شخصیسازی مدل است. کاربران باید در ابتدا این ویژگی را باز کنند، فرآیندی که تقریباً پنج دقیقه طول میکشد. این شخصیسازی را میتوان در هر زمان فعال یا غیرفعال کرد و هدف آن بهبود قابل توجه توانایی هوش مصنوعی در تفسیر خواستهها و ترجیحات زیباییشناختی کاربر است. میدجرنی معتقد است این ویژگی معیار جدیدی برای درک قصد کاربر تعیین میکند.
میدجرنی همچنین در کنار مدل تولید تصویر V7، ویژگی جدیدی به نام «حالت پیشنویس» (Draft Mode) را معرفی میکند که نوید تولید تصاویر ده برابر سریعتر و با نصف هزینه را میدهد.
این افزایش سرعت به میدجرنی امکان داده است تا یک «حالت مکالمهای» منحصر به فرد را در رابط وب خود پیادهسازی کند. کاربران اکنون میتوانند به سیستم دستور دهند تا تغییراتی ایجاد کند، مانند جایگزین کردن یک گربه با یک جغد یا تغییر زمان روز به شب، و هوش مصنوعی به طور خودکار دستور را تنظیم کرده و وظیفه تولید تصویر جدیدی را آغاز میکند.
حالت پیشنویس همچنین قابلیت ورودی صوتی را در خود جای داده است. با فشردن دکمه میکروفون، کاربران میتوانند ایدههای خود را به صورت شفاهی بیان کرده و تصاویر را در حین تولید، تقریباً به صورت آنی مشاهده کنند:
میدجرنی بر این باور است که حالت پیشنویس روشی بیسابقه برای اصلاح مفاهیم خلاقانه ارائه میدهد. اگر تصویر تولید شده جذاب باشد، کاربران میتوانند گزینههای «بهبود» (enhance) یا «تغییر» (vary) را انتخاب کنند تا آن را با کیفیت کامل دوباره رندر کنند. در حالی که تصاویر پیشنویس در مقایسه با حالت استاندارد کیفیت پایینتری دارند، رفتار و ویژگیهای زیباییشناختی آنها ثابت باقی میماند.
مدل تولید تصویر V7 از میدجرنی در ابتدا در دو حالت سرعت در دسترس خواهد بود: توربو (Turbo) و ریلکس (Relax). حالت سرعت استاندارد در حال حاضر تحت بهینهسازی بیشتر است و انتظار میرود به زودی منتشر شود. میدجرنی تصریح کرده است که هزینه کارهای توربو دو برابر یک کار استاندارد خواهد بود، در حالی که هزینه کارهای پیشنویس نصف این مقدار است.
این شرکت همچنین بهروزرسانیهایی در مورد سایر عملکردها ارائه کرد. ویژگیهایی مانند ارتقاء کیفیت (upscaling)، ویرایش (editing) و بازسازی بافت (retexturing) در ابتدا به استفاده از مدل V6 بازمیگردند و بهروزرسانیهایی برای آینده برنامهریزی شده است. عملکرد مود برد (mood boards) و SREF در حال حاضر عملیاتی است و انتظار میرود عملکرد آنها با بهروزرسانیهای بعدی بهبود یابد.
با نگاهی به آینده نزدیک، میدجرنی یک برنامه توسعه فعال را ترسیم کرده است. کاربران میتوانند انتظار ویژگیهای جدیدی را هر یک تا دو هفته برای ۶۰ روز آینده داشته باشند. یک ویژگی مهم آینده، قابلیت جدید مرجع شخصیت و شیء V7 خواهد بود.
در نهایت، میدجرنی به کاربران توصیه کرده است که V7 یک مدل کاملاً جدید با نقاط قوت و ضعف بالقوه منحصر به فرد خود است. آنها آزمایش و بازخورد در مورد قابلیتهای آن را تشویق میکنند و به کاربران یادآوری میکنند که ممکن است به تکنیکهای دستورنویسی متفاوتی در مقایسه با نسخههای قبلی نیاز داشته باشد.
(Image credit: Midjourney)