مقیاسبندی کارآمد زمان استنتاج برای مدلهای جریان: افزایش تنوع نمونهبرداری و تخصیص محاسبات
پیشرفتهای اخیر در قوانین مقیاسپذیری هوش مصنوعی، تمرکز را از صرفاً افزایش اندازه مدل و دادههای آموزشی به بهینهسازی محاسبات زمان استنتاج تغییر داده است. این رویکرد که در مدلهایی مانند OpenAI o1 و DeepSeek R1 مشهود است، با بهرهگیری از منابع محاسباتی اضافی در طول استنتاج، عملکرد مدل را بهبود میبخشد. تخصیص بودجه زمان-آزمون (test-time budget forcing) به عنوان یک تکنیک کارآمد در مدلهای زبانی بزرگ (LLM) ظهور کرده است که امکان بهبود عملکرد را با حداقل نمونهبرداری توکن فراهم میکند. به طور مشابه، مقیاسبندی زمان استنتاج در مدلهای انتشاری (diffusion models)، بهویژه در نمونهبرداری مبتنی بر پاداش، مورد توجه قرار گرفته است؛ جایی که پالایش تکراری به تولید خروجیهایی کمک میکند که بهتر با ترجیحات کاربر همسو باشند. این روش برای تولید متن به تصویر بسیار حیاتی است، زیرا نمونهبرداری ساده اغلب نمیتواند مشخصات پیچیده مانند روابط بین اشیاء و محدودیتهای منطقی را به طور کامل منعکس کند.
روشهای مقیاسبندی زمان استنتاج برای مدلهای انتشاری را میتوان به طور کلی به دو دسته مبتنی بر تنظیم دقیق (fine-tuning) و نمونهبرداری ذرهای (particle-sampling) تقسیم کرد. تنظیم دقیق، همراستایی مدل با وظایف خاص را بهبود میبخشد، اما برای هر مورد استفاده نیاز به آموزش مجدد دارد که مقیاسپذیری را محدود میکند. در مقابل، نمونهبرداری ذرهای - که در تکنیکهایی مانند SVDD و CoDe استفاده میشود - نمونههای با پاداش بالا را به صورت تکراری در طول فرآیند نویززدایی انتخاب میکند و کیفیت خروجی را به طور قابل توجهی بهبود میبخشد. اگرچه این روشها برای مدلهای انتشاری مؤثر بودهاند، کاربرد آنها در مدلهای جریان (flow models) به دلیل ماهیت قطعی فرآیند تولیدشان محدود بوده است. کارهای اخیر، از جمله SoP، تصادفیبودن را به مدلهای جریان معرفی کردهاند و امکان مقیاسبندی زمان استنتاج مبتنی بر نمونهبرداری ذرهای را فراهم ساختهاند. این مطالعه با اصلاح هسته معکوس، چنین تلاشهایی را گسترش میدهد و تنوع و اثربخشی نمونهبرداری را در مدلهای مولد مبتنی بر جریان بیشتر افزایش میدهد.
پژوهشگران مؤسسه عالی علم و فناوری کره (KAIST) روشی برای مقیاسبندی زمان استنتاج برای مدلهای جریان از پیش آموزشدیده پیشنهاد میکنند که محدودیتهای آنها را در نمونهبرداری ذرهای به دلیل فرآیند تولید قطعی برطرف میسازد. آنها سه نوآوری کلیدی را معرفی میکنند: (۱) تولید مبتنی بر معادله دیفرانسیل تصادفی (SDE) برای فعال کردن نمونهبرداری تصادفی، (۲) تبدیل درونیاب VP (Variance Preserving) برای افزایش تنوع نمونه، و (۳) تخصیص بودجه چرخشی (Rollover Budget Forcing - RBF) برای تخصیص تطبیقی منابع محاسباتی. نتایج تجربی نشان میدهد که این تکنیکها همراستایی پاداش را در وظایفی مانند تولید متن به تصویر ترکیبی بهبود میبخشند. رویکرد آنها از روشهای پیشین بهتر عمل میکند و مزایای مقیاسبندی زمان استنتاج در مدلهای جریان را نشان میدهد، بهویژه هنگامی که با تکنیکهای مبتنی بر گرادیان برای پاداشهای قابل تمایز مانند تولید تصویر زیباییشناختی ترکیب شود.
همراستایی پاداش در زمان استنتاج با هدف تولید نمونههای با پاداش بالا از یک مدل جریان از پیش آموزشدیده بدون نیاز به آموزش مجدد انجام میشود. هدف، به حداکثر رساندن پاداش مورد انتظار ضمن به حداقل رساندن انحراف از توزیع داده اصلی با استفاده از منظمسازی کولبک-لایبلر (KL regularization) است. از آنجا که نمونهبرداری مستقیم چالشبرانگیز است، تکنیکهای نمونهبرداری ذرهای که معمولاً در مدلهای انتشاری استفاده میشوند، اقتباس شدهاند. با این حال، مدلهای جریان به نمونهبرداری قطعی متکی هستند که اکتشاف را محدود میکند. برای رفع این مشکل، نمونهبرداری تصادفی در زمان استنتاج با تبدیل فرآیندهای قطعی به فرآیندهای تصادفی معرفی میشود. علاوه بر این، تبدیل درونیاب، فضای جستجو را با همراستا کردن نمونهبرداری مدل جریان با مدلهای انتشاری افزایش میدهد. یک استراتژی تخصیص پویای محاسبات نیز کارایی را در طول مقیاسبندی زمان استنتاج بیشتر بهینه میکند.
این مطالعه نتایج تجربی روشهای نمونهبرداری ذرهای را برای همراستایی پاداش در زمان استنتاج ارائه میدهد. تمرکز مطالعه بر تولید متن به تصویر ترکیبی و تولید تصویر آگاه از کمیت است و از مدل FLUX به عنوان مدل جریان از پیش آموزشدیده استفاده میکند. معیارهایی مانند VQAScore و RSS برای ارزیابی همراستایی و دقت به کار گرفته شدهاند. نتایج نشان میدهد که نمونهبرداری تصادفی در زمان استنتاج کارایی را بهبود میبخشد و تبدیل درونیاب عملکرد را بیشتر افزایش میدهد. نمونهبرداری ذرهای مبتنی بر جریان در مقایسه با مدلهای انتشاری، خروجیهای با پاداش بالا تولید میکند بدون اینکه کیفیت تصویر را به خطر بیندازد. روش RBF پیشنهادی، تخصیص بودجه را بهینه میکند و به بهترین نتایج همراستایی پاداش و دقت دست مییابد. یافتههای کیفی و کمی، اثربخشی آن را در تولید تصاویر دقیق و با کیفیت بالا تأیید میکنند.
در نتیجهگیری، این مطالعه یک روش مقیاسبندی زمان استنتاج را برای مدلهای جریان معرفی میکند که سه نوآوری کلیدی را در بر میگیرد: (۱) تبدیل معادله دیفرانسیل معمولی (ODE) به معادله دیفرانسیل تصادفی (SDE) برای فعال کردن نمونهبرداری ذرهای، (۲) تبدیل درونیاب خطی به VP برای افزایش تنوع و کارایی جستجو، و (۳) RBF برای تخصیص تطبیقی محاسبات. در حالی که مدلهای انتشاری از نمونهبرداری تصادفی در طول نویززدایی بهرهمند میشوند، مدلهای جریان به دلیل ماهیت قطعی خود به رویکردهای متناسب نیاز دارند. تولید مبتنی بر VP-SDE پیشنهادی به طور مؤثری نمونهبرداری ذرهای را ادغام میکند و RBF استفاده از محاسبات را بهینه میسازد. نتایج تجربی نشان میدهند که این روش از تکنیکهای مقیاسبندی زمان استنتاج موجود پیشی میگیرد و عملکرد را بهبود میبخشد ضمن اینکه خروجیهای با کیفیت بالا را در مدلهای تولید تصویر و ویدیوی مبتنی بر جریان حفظ میکند.