بایت‌دنس از «InfiniteYou»، یک مدل هوش مصنوعی برای بازسازی عکس، رونمایی کرد

خروجی های مدل InfiniteYou

محققان در بخش تولید هوشمند بایت‌دنس (ByteDance Intelligent Creation) یک مدل هوش مصنوعی جدید توسعه داده‌اند که نسخه‌های متعددی از یک هویت را به همراه مقاله، نسخه آزمایشی و کد آن تولید می‌کند. لیمینگ جیانگ، دانشمند ارشد تحقیقاتی در بایت‌دنس، این خبر را روز یکشنبه در X اعلام کرد.

هدف از مدل هوش مصنوعی جدید با نام InfiniteYou (InfU)، رفع چالش‌های مربوط به تولید تصویر با حفظ هویت است. با استفاده از اعلان‌ها (prompts) در صورت نیاز، می‌توان نسخه‌های متعددی از هویت خود را در تنظیمات مختلف ایجاد کرد و از دقت مناسب اطمینان حاصل نمود. این مدل از Diffusion Transformers (DiTs) برای تولید تصاویری استفاده می‌کند که نه‌تنها هویت فرد را از یک عکس منبع حفظ می‌کنند، بلکه امکان ویرایش انعطاف‌پذیر مبتنی بر متن را نیز فراهم می‌سازند.

هدف InfU غلبه بر محدودیت‌های موجود در روش‌های فعلی، مانند شباهت ناکافی هویت، هم‌ترازی ضعیف متن و تصویر و کیفیت پایین تولید است. هسته اصلی InfU، InfuseNet است، یک جزء طراحی‌شده برای تزریق ویژگی‌های هویتی به مدل پایه DiT از طریق اتصالات پسماند (residual connections). این فرآیند شباهت هویتی را افزایش می‌دهد و در عین حال قابلیت‌های تولیدی مدل را حفظ می‌کند.

برای اصلاح بیشتر عملکرد مدل، یک استراتژی آموزشی چندمرحله‌ای به کار گرفته شد که شامل پیش‌آموزش (pretraining) و تنظیم دقیق نظارت‌شده (SFT) با داده‌های مصنوعی تک‌نفره-چندنمونه‌ای (SPMS) بود. این رویکرد آموزشی برای بهبود هم‌ترازی متن و تصویر، افزایش کیفیت تصویر و کاهش مشکلات مربوط به کپی-پیست کردن چهره طراحی شده است.

در وب‌سایت رسمی ذکر شده است: «InfU دارای طراحی مطلوب پلاگین و پخش است که با بسیاری از روش‌های موجود سازگار است. این مدل به‌طور طبیعی از جایگزینی مدل پایه با هر یک از انواع FLUX.1-dev، مانند FLUX.1-schnell برای تولید کارآمدتر، پشتیبانی می‌کند.»

در این مقاله اضافه شده است: «سازگاری با ControlNets و LoRAs قابلیت کنترل و انعطاف‌پذیری بیشتری را برای وظایف سفارشی فراهم می‌کند. به‌ویژه، سازگاری با OminiControl پتانسیل ما را برای شخصی‌سازی چندمفهومی، مانند هویت تعاملی (ID) و تولید شخصی‌سازی‌شده شی، گسترش می‌دهد.»

کد در صفحه GitHub در دسترس است و می‌توان به نسخه آزمایشی و مدل در Hugging Face دسترسی داشت تا آن را امتحان کرد.

بایت‌دنس در سال ۲۰۲۵ پیشرفت‌های متعددی داشته است، از جمله Goku به عنوان جایگزینی برای Luma گوگل و یک قاتل React Native. این مدل هوش مصنوعی به لیست پیشرفت‌های هیجان‌انگیز آن تا به امروز اضافه می‌کند.