محققان در بخش تولید هوشمند بایتدنس (ByteDance Intelligent Creation) یک مدل هوش مصنوعی جدید توسعه دادهاند که نسخههای متعددی از یک هویت را به همراه مقاله، نسخه آزمایشی و کد آن تولید میکند. لیمینگ جیانگ، دانشمند ارشد تحقیقاتی در بایتدنس، این خبر را روز یکشنبه در X اعلام کرد.
هدف از مدل هوش مصنوعی جدید با نام InfiniteYou (InfU)، رفع چالشهای مربوط به تولید تصویر با حفظ هویت است. با استفاده از اعلانها (prompts) در صورت نیاز، میتوان نسخههای متعددی از هویت خود را در تنظیمات مختلف ایجاد کرد و از دقت مناسب اطمینان حاصل نمود. این مدل از Diffusion Transformers (DiTs) برای تولید تصاویری استفاده میکند که نهتنها هویت فرد را از یک عکس منبع حفظ میکنند، بلکه امکان ویرایش انعطافپذیر مبتنی بر متن را نیز فراهم میسازند.
هدف InfU غلبه بر محدودیتهای موجود در روشهای فعلی، مانند شباهت ناکافی هویت، همترازی ضعیف متن و تصویر و کیفیت پایین تولید است. هسته اصلی InfU، InfuseNet است، یک جزء طراحیشده برای تزریق ویژگیهای هویتی به مدل پایه DiT از طریق اتصالات پسماند (residual connections). این فرآیند شباهت هویتی را افزایش میدهد و در عین حال قابلیتهای تولیدی مدل را حفظ میکند.
برای اصلاح بیشتر عملکرد مدل، یک استراتژی آموزشی چندمرحلهای به کار گرفته شد که شامل پیشآموزش (pretraining) و تنظیم دقیق نظارتشده (SFT) با دادههای مصنوعی تکنفره-چندنمونهای (SPMS) بود. این رویکرد آموزشی برای بهبود همترازی متن و تصویر، افزایش کیفیت تصویر و کاهش مشکلات مربوط به کپی-پیست کردن چهره طراحی شده است.
در وبسایت رسمی ذکر شده است: «InfU دارای طراحی مطلوب پلاگین و پخش است که با بسیاری از روشهای موجود سازگار است. این مدل بهطور طبیعی از جایگزینی مدل پایه با هر یک از انواع FLUX.1-dev، مانند FLUX.1-schnell برای تولید کارآمدتر، پشتیبانی میکند.»
در این مقاله اضافه شده است: «سازگاری با ControlNets و LoRAs قابلیت کنترل و انعطافپذیری بیشتری را برای وظایف سفارشی فراهم میکند. بهویژه، سازگاری با OminiControl پتانسیل ما را برای شخصیسازی چندمفهومی، مانند هویت تعاملی (ID) و تولید شخصیسازیشده شی، گسترش میدهد.»
کد در صفحه GitHub در دسترس است و میتوان به نسخه آزمایشی و مدل در Hugging Face دسترسی داشت تا آن را امتحان کرد.
بایتدنس در سال ۲۰۲۵ پیشرفتهای متعددی داشته است، از جمله Goku به عنوان جایگزینی برای Luma گوگل و یک قاتل React Native. این مدل هوش مصنوعی به لیست پیشرفتهای هیجانانگیز آن تا به امروز اضافه میکند.