میدجرنی V7: تولید سریع‌تر تصاویر با هوش مصنوعی

میدجرنی انتشار نسخه آلفای مدل تولید تصویر V7 خود را برای آزمایش توسط جامعه هوش مصنوعی اعلام کرده است. این مدل جدید بهبودهایی در درک دستورات متنی، کیفیت تصویر و انسجام ویژگی‌ها ارائه می‌دهد.

میدجرنی توضیح داد: «V7 مدلی شگفت‌انگیز است. در فهم دستورات متنی بسیار هوشمندتر عمل می‌کند، تصاویر تولید شده از روی تصاویر دیگر فوق‌العاده به نظر می‌رسند، کیفیت تصویر با بافت‌های زیبا به طور قابل توجهی بالاتر است و بدن‌ها، دست‌ها و اشیاء از هر نوع، انسجام بسیار بهتری در تمام جزئیات دارند.»

یک نوآوری کلیدی در V7، فعال‌سازی پیش‌فرض شخصی‌سازی مدل است. کاربران باید در ابتدا این ویژگی را باز کنند، فرآیندی که تقریباً پنج دقیقه طول می‌کشد. این شخصی‌سازی را می‌توان در هر زمان فعال یا غیرفعال کرد و هدف آن بهبود قابل توجه توانایی هوش مصنوعی در تفسیر خواسته‌ها و ترجیحات زیبایی‌شناختی کاربر است. میدجرنی معتقد است این ویژگی معیار جدیدی برای درک قصد کاربر تعیین می‌کند.

میدجرنی همچنین در کنار مدل تولید تصویر V7، ویژگی جدیدی به نام «حالت پیش‌نویس» (Draft Mode) را معرفی می‌کند که نوید تولید تصاویر ده برابر سریع‌تر و با نصف هزینه را می‌دهد.

این افزایش سرعت به میدجرنی امکان داده است تا یک «حالت مکالمه‌ای» منحصر به فرد را در رابط وب خود پیاده‌سازی کند. کاربران اکنون می‌توانند به سیستم دستور دهند تا تغییراتی ایجاد کند، مانند جایگزین کردن یک گربه با یک جغد یا تغییر زمان روز به شب، و هوش مصنوعی به طور خودکار دستور را تنظیم کرده و وظیفه تولید تصویر جدیدی را آغاز می‌کند.

حالت پیش‌نویس همچنین قابلیت ورودی صوتی را در خود جای داده است. با فشردن دکمه میکروفون، کاربران می‌توانند ایده‌های خود را به صورت شفاهی بیان کرده و تصاویر را در حین تولید، تقریباً به صورت آنی مشاهده کنند:

تصویر صفحه از قابلیت ورودی صوتی در حالت پیش‌نویس هنگام استفاده از مدل تولید تصویر میدجرنی V7 — تصویر صفحه از قابلیت ورودی صوتی در حالت پیش‌نویس میدجرنی V7

میدجرنی بر این باور است که حالت پیش‌نویس روشی بی‌سابقه برای اصلاح مفاهیم خلاقانه ارائه می‌دهد. اگر تصویر تولید شده جذاب باشد، کاربران می‌توانند گزینه‌های «بهبود» (enhance) یا «تغییر» (vary) را انتخاب کنند تا آن را با کیفیت کامل دوباره رندر کنند. در حالی که تصاویر پیش‌نویس در مقایسه با حالت استاندارد کیفیت پایین‌تری دارند، رفتار و ویژگی‌های زیبایی‌شناختی آن‌ها ثابت باقی می‌ماند.

مدل تولید تصویر V7 از میدجرنی در ابتدا در دو حالت سرعت در دسترس خواهد بود: توربو (Turbo) و ریلکس (Relax). حالت سرعت استاندارد در حال حاضر تحت بهینه‌سازی بیشتر است و انتظار می‌رود به زودی منتشر شود. میدجرنی تصریح کرده است که هزینه کارهای توربو دو برابر یک کار استاندارد خواهد بود، در حالی که هزینه کارهای پیش‌نویس نصف این مقدار است.

این شرکت همچنین به‌روزرسانی‌هایی در مورد سایر عملکردها ارائه کرد. ویژگی‌هایی مانند ارتقاء کیفیت (upscaling)، ویرایش (editing) و بازسازی بافت (retexturing) در ابتدا به استفاده از مدل V6 بازمی‌گردند و به‌روزرسانی‌هایی برای آینده برنامه‌ریزی شده است. عملکرد مود برد (mood boards) و SREF در حال حاضر عملیاتی است و انتظار می‌رود عملکرد آن‌ها با به‌روزرسانی‌های بعدی بهبود یابد.

با نگاهی به آینده نزدیک، میدجرنی یک برنامه توسعه فعال را ترسیم کرده است. کاربران می‌توانند انتظار ویژگی‌های جدیدی را هر یک تا دو هفته برای ۶۰ روز آینده داشته باشند. یک ویژگی مهم آینده، قابلیت جدید مرجع شخصیت و شیء V7 خواهد بود.

در نهایت، میدجرنی به کاربران توصیه کرده است که V7 یک مدل کاملاً جدید با نقاط قوت و ضعف بالقوه منحصر به فرد خود است. آن‌ها آزمایش و بازخورد در مورد قابلیت‌های آن را تشویق می‌کنند و به کاربران یادآوری می‌کنند که ممکن است به تکنیک‌های دستورنویسی متفاوتی در مقایسه با نسخه‌های قبلی نیاز داشته باشد.

(Image credit: Midjourney)

این گزارش ترجمه و بازنویسی خبری با موتور هوش مصنوعی افق آبی است و برای خوانندهٔ فارسی‌زبان بازتنظیم شده. منبع اصلی: artificial intelligence news