Seedream 3.0
Seedream 3.0

بایت‌دنس از Seedream 3.0 برای رقابت با GPT-4o و Imagen 3 رونمایی کرد

نمونه‌های Seedream
نمونه‌های Seedream
معیارهای تحلیل مصنوعی
منبع: artificialanalysis.ai

بایت‌دنس (ByteDance)، شرکت سازنده TikTok، از جدیدترین مدل پایه تولید تصویر خود، Seedream 3.0، رونمایی کرد و ادعا می‌کند که در قابلیت‌های تولید تصویر از GPT-4o شرکت OpenAI پیشی می‌گیرد.

Seedream 3.0 یک مدل دو زبانه (چینی-انگلیسی) است که تلاش می‌کند محدودیت‌های موجود در نسخه قبلی خود، Seedream 2.0، را برطرف کند.

این اتفاق درست پس از «گیبلی‌سازی» تصاویر با کمک GPT-4o رخ می‌دهد.

این مدل از یک مجموعه داده گسترده‌تر (تقریباً ۱۰۰٪) استفاده می‌کند و از یک مکانیسم نمونه‌برداری پویا بهره می‌برد. فاز پیش‌آموزش شامل آموزش با وضوح ترکیبی، RoPE متقابل، تلفات هم ترازی نمایش و نمونه‌برداری گام زمانی آگاه از وضوح برای بهبود مقیاس‌پذیری و هم ترازی زبان بصری است.

بهینه‌سازی پس از آموزش از شرح‌های زیبایی‌شناختی متنوع و یک مدل پاداش مبتنی بر VLM برای بهبود کیفیت خروجی نهایی استفاده می‌کند.

در گزارش فنی آمده است: «با به کارگیری انتظار نویز ثابت و نمونه‌برداری گام زمانی آگاه از اهمیت، به سرعت ۴ تا ۸ برابر دست می‌یابیم در حالی که کیفیت تصویر را حفظ می‌کنیم.»

با استفاده از این مدل، می‌توان تصاویری با وضوح تا 2K تولید کرد و قادر است نتایج با کیفیت بالا ارائه دهد.

در این گزارش آمده است که این مدل با OpenAI GPT-4o، Imagen 3، Midjourney و سایر مدل‌ها مقایسه شده است. اگرچه در ابتدا طبق ادعاهای خود در صدر جدول قرار داشت، اما به نظر می‌رسد با GPT-4o هم تراز است و از Imagen 3 پیشی می‌گیرد. این موضوع هنگام مراجعه به آخرین معیارهای Artificial Analysis در زمان انتشار مشهود است.

بایت‌دنس بر نقاط قوت متمایز این مدل تأکید می‌کند. در رندر متون متراکم، Seedream 3.0 در مدیریت تولید متون پیچیده چینی با صفحه‌آرایی برتر و ترکیب زیبایی‌شناختی عالی است، در حالی که GPT-4o، در حالی که با حروف کوچک انگلیسی و LaTeX قوی است، محدودیت‌هایی را با فونت‌های چینی نشان می‌دهد.

در وظایف ویرایش تصویر، SeedEdit بایت‌دنس (ByteDance)، مشتق شده از Seedream، در مقایسه با GPT-4o و Gemini-2.0، حفظ بهتر ID و پیروی از دستورالعمل‌ها را نشان می‌دهد، اگرچه با سناریوهای ویرایش پیچیده‌تر چالش‌هایی دارد.

بایت‌دنس ادعا می‌کند تصاویری که توسط GPT-4o تولید می‌شوند تمایل به نمایش یک رنگ زرد تیره و نویز قابل توجه دارند که به طور بالقوه بر قابلیت استفاده آنها تأثیر می‌گذارد. در عین حال، مدل‌های Seedream به طور مداوم عملکرد قوی از نظر رنگ، بافت، وضوح و جذابیت کلی زیبایی‌شناختی نشان داده‌اند.