بایتدنس (ByteDance)، شرکت سازنده TikTok، از جدیدترین مدل پایه تولید تصویر خود، Seedream 3.0، رونمایی کرد و ادعا میکند که در قابلیتهای تولید تصویر از GPT-4o شرکت OpenAI پیشی میگیرد.
Seedream 3.0 یک مدل دو زبانه (چینی-انگلیسی) است که تلاش میکند محدودیتهای موجود در نسخه قبلی خود، Seedream 2.0، را برطرف کند.
این اتفاق درست پس از «گیبلیسازی» تصاویر با کمک GPT-4o رخ میدهد.
این مدل از یک مجموعه داده گستردهتر (تقریباً ۱۰۰٪) استفاده میکند و از یک مکانیسم نمونهبرداری پویا بهره میبرد. فاز پیشآموزش شامل آموزش با وضوح ترکیبی، RoPE متقابل، تلفات هم ترازی نمایش و نمونهبرداری گام زمانی آگاه از وضوح برای بهبود مقیاسپذیری و هم ترازی زبان بصری است.
بهینهسازی پس از آموزش از شرحهای زیباییشناختی متنوع و یک مدل پاداش مبتنی بر VLM برای بهبود کیفیت خروجی نهایی استفاده میکند.
در گزارش فنی آمده است: «با به کارگیری انتظار نویز ثابت و نمونهبرداری گام زمانی آگاه از اهمیت، به سرعت ۴ تا ۸ برابر دست مییابیم در حالی که کیفیت تصویر را حفظ میکنیم.»
با استفاده از این مدل، میتوان تصاویری با وضوح تا 2K تولید کرد و قادر است نتایج با کیفیت بالا ارائه دهد.
در این گزارش آمده است که این مدل با OpenAI GPT-4o، Imagen 3، Midjourney و سایر مدلها مقایسه شده است. اگرچه در ابتدا طبق ادعاهای خود در صدر جدول قرار داشت، اما به نظر میرسد با GPT-4o هم تراز است و از Imagen 3 پیشی میگیرد. این موضوع هنگام مراجعه به آخرین معیارهای Artificial Analysis در زمان انتشار مشهود است.
بایتدنس بر نقاط قوت متمایز این مدل تأکید میکند. در رندر متون متراکم، Seedream 3.0 در مدیریت تولید متون پیچیده چینی با صفحهآرایی برتر و ترکیب زیباییشناختی عالی است، در حالی که GPT-4o، در حالی که با حروف کوچک انگلیسی و LaTeX قوی است، محدودیتهایی را با فونتهای چینی نشان میدهد.
در وظایف ویرایش تصویر، SeedEdit بایتدنس (ByteDance)، مشتق شده از Seedream، در مقایسه با GPT-4o و Gemini-2.0، حفظ بهتر ID و پیروی از دستورالعملها را نشان میدهد، اگرچه با سناریوهای ویرایش پیچیدهتر چالشهایی دارد.
بایتدنس ادعا میکند تصاویری که توسط GPT-4o تولید میشوند تمایل به نمایش یک رنگ زرد تیره و نویز قابل توجه دارند که به طور بالقوه بر قابلیت استفاده آنها تأثیر میگذارد. در عین حال، مدلهای Seedream به طور مداوم عملکرد قوی از نظر رنگ، بافت، وضوح و جذابیت کلی زیباییشناختی نشان دادهاند.