نمایش بصری از فرآیند مقیاس‌بندی زمان استنتاج یا نتایج تولید تصویر توسط مدل‌های جریان.
نمایش بصری از فرآیند مقیاس‌بندی زمان استنتاج یا نتایج تولید تصویر توسط مدل‌های جریان.

مقیاس‌بندی کارآمد زمان استنتاج برای مدل‌های جریان: افزایش تنوع نمونه‌برداری و تخصیص محاسبات

مقیاس‌بندی کارآمد زمان استنتاج برای مدل‌های جریان: افزایش تنوع نمونه‌برداری و تخصیص محاسبات

پیشرفت‌های اخیر در قوانین مقیاس‌پذیری هوش مصنوعی، تمرکز را از صرفاً افزایش اندازه مدل و داده‌های آموزشی به بهینه‌سازی محاسبات زمان استنتاج تغییر داده است. این رویکرد که در مدل‌هایی مانند OpenAI o1 و DeepSeek R1 مشهود است، با بهره‌گیری از منابع محاسباتی اضافی در طول استنتاج، عملکرد مدل را بهبود می‌بخشد. تخصیص بودجه زمان-آزمون (test-time budget forcing) به عنوان یک تکنیک کارآمد در مدل‌های زبانی بزرگ (LLM) ظهور کرده است که امکان بهبود عملکرد را با حداقل نمونه‌برداری توکن فراهم می‌کند. به طور مشابه، مقیاس‌بندی زمان استنتاج در مدل‌های انتشاری (diffusion models)، به‌ویژه در نمونه‌برداری مبتنی بر پاداش، مورد توجه قرار گرفته است؛ جایی که پالایش تکراری به تولید خروجی‌هایی کمک می‌کند که بهتر با ترجیحات کاربر همسو باشند. این روش برای تولید متن به تصویر بسیار حیاتی است، زیرا نمونه‌برداری ساده اغلب نمی‌تواند مشخصات پیچیده مانند روابط بین اشیاء و محدودیت‌های منطقی را به طور کامل منعکس کند.

روش‌های مقیاس‌بندی زمان استنتاج برای مدل‌های انتشاری را می‌توان به طور کلی به دو دسته مبتنی بر تنظیم دقیق (fine-tuning) و نمونه‌برداری ذره‌ای (particle-sampling) تقسیم کرد. تنظیم دقیق، هم‌راستایی مدل با وظایف خاص را بهبود می‌بخشد، اما برای هر مورد استفاده نیاز به آموزش مجدد دارد که مقیاس‌پذیری را محدود می‌کند. در مقابل، نمونه‌برداری ذره‌ای - که در تکنیک‌هایی مانند SVDD و CoDe استفاده می‌شود - نمونه‌های با پاداش بالا را به صورت تکراری در طول فرآیند نویززدایی انتخاب می‌کند و کیفیت خروجی را به طور قابل توجهی بهبود می‌بخشد. اگرچه این روش‌ها برای مدل‌های انتشاری مؤثر بوده‌اند، کاربرد آن‌ها در مدل‌های جریان (flow models) به دلیل ماهیت قطعی فرآیند تولیدشان محدود بوده است. کارهای اخیر، از جمله SoP، تصادفی‌بودن را به مدل‌های جریان معرفی کرده‌اند و امکان مقیاس‌بندی زمان استنتاج مبتنی بر نمونه‌برداری ذره‌ای را فراهم ساخته‌اند. این مطالعه با اصلاح هسته معکوس، چنین تلاش‌هایی را گسترش می‌دهد و تنوع و اثربخشی نمونه‌برداری را در مدل‌های مولد مبتنی بر جریان بیشتر افزایش می‌دهد.

پژوهشگران مؤسسه عالی علم و فناوری کره (KAIST) روشی برای مقیاس‌بندی زمان استنتاج برای مدل‌های جریان از پیش آموزش‌دیده پیشنهاد می‌کنند که محدودیت‌های آن‌ها را در نمونه‌برداری ذره‌ای به دلیل فرآیند تولید قطعی برطرف می‌سازد. آن‌ها سه نوآوری کلیدی را معرفی می‌کنند: (۱) تولید مبتنی بر معادله دیفرانسیل تصادفی (SDE) برای فعال کردن نمونه‌برداری تصادفی، (۲) تبدیل درونیاب VP (Variance Preserving) برای افزایش تنوع نمونه، و (۳) تخصیص بودجه چرخشی (Rollover Budget Forcing - RBF) برای تخصیص تطبیقی منابع محاسباتی. نتایج تجربی نشان می‌دهد که این تکنیک‌ها هم‌راستایی پاداش را در وظایفی مانند تولید متن به تصویر ترکیبی بهبود می‌بخشند. رویکرد آن‌ها از روش‌های پیشین بهتر عمل می‌کند و مزایای مقیاس‌بندی زمان استنتاج در مدل‌های جریان را نشان می‌دهد، به‌ویژه هنگامی که با تکنیک‌های مبتنی بر گرادیان برای پاداش‌های قابل تمایز مانند تولید تصویر زیبایی‌شناختی ترکیب شود.

هم‌راستایی پاداش در زمان استنتاج با هدف تولید نمونه‌های با پاداش بالا از یک مدل جریان از پیش آموزش‌دیده بدون نیاز به آموزش مجدد انجام می‌شود. هدف، به حداکثر رساندن پاداش مورد انتظار ضمن به حداقل رساندن انحراف از توزیع داده اصلی با استفاده از منظم‌سازی کولبک-لایبلر (KL regularization) است. از آنجا که نمونه‌برداری مستقیم چالش‌برانگیز است، تکنیک‌های نمونه‌برداری ذره‌ای که معمولاً در مدل‌های انتشاری استفاده می‌شوند، اقتباس شده‌اند. با این حال، مدل‌های جریان به نمونه‌برداری قطعی متکی هستند که اکتشاف را محدود می‌کند. برای رفع این مشکل، نمونه‌برداری تصادفی در زمان استنتاج با تبدیل فرآیندهای قطعی به فرآیندهای تصادفی معرفی می‌شود. علاوه بر این، تبدیل درونیاب، فضای جستجو را با هم‌راستا کردن نمونه‌برداری مدل جریان با مدل‌های انتشاری افزایش می‌دهد. یک استراتژی تخصیص پویای محاسبات نیز کارایی را در طول مقیاس‌بندی زمان استنتاج بیشتر بهینه می‌کند.

این مطالعه نتایج تجربی روش‌های نمونه‌برداری ذره‌ای را برای هم‌راستایی پاداش در زمان استنتاج ارائه می‌دهد. تمرکز مطالعه بر تولید متن به تصویر ترکیبی و تولید تصویر آگاه از کمیت است و از مدل FLUX به عنوان مدل جریان از پیش آموزش‌دیده استفاده می‌کند. معیارهایی مانند VQAScore و RSS برای ارزیابی هم‌راستایی و دقت به کار گرفته شده‌اند. نتایج نشان می‌دهد که نمونه‌برداری تصادفی در زمان استنتاج کارایی را بهبود می‌بخشد و تبدیل درونیاب عملکرد را بیشتر افزایش می‌دهد. نمونه‌برداری ذره‌ای مبتنی بر جریان در مقایسه با مدل‌های انتشاری، خروجی‌های با پاداش بالا تولید می‌کند بدون اینکه کیفیت تصویر را به خطر بیندازد. روش RBF پیشنهادی، تخصیص بودجه را بهینه می‌کند و به بهترین نتایج هم‌راستایی پاداش و دقت دست می‌یابد. یافته‌های کیفی و کمی، اثربخشی آن را در تولید تصاویر دقیق و با کیفیت بالا تأیید می‌کنند.

در نتیجه‌گیری، این مطالعه یک روش مقیاس‌بندی زمان استنتاج را برای مدل‌های جریان معرفی می‌کند که سه نوآوری کلیدی را در بر می‌گیرد: (۱) تبدیل معادله دیفرانسیل معمولی (ODE) به معادله دیفرانسیل تصادفی (SDE) برای فعال کردن نمونه‌برداری ذره‌ای، (۲) تبدیل درونیاب خطی به VP برای افزایش تنوع و کارایی جستجو، و (۳) RBF برای تخصیص تطبیقی محاسبات. در حالی که مدل‌های انتشاری از نمونه‌برداری تصادفی در طول نویززدایی بهره‌مند می‌شوند، مدل‌های جریان به دلیل ماهیت قطعی خود به رویکردهای متناسب نیاز دارند. تولید مبتنی بر VP-SDE پیشنهادی به طور مؤثری نمونه‌برداری ذره‌ای را ادغام می‌کند و RBF استفاده از محاسبات را بهینه می‌سازد. نتایج تجربی نشان می‌دهند که این روش از تکنیک‌های مقیاس‌بندی زمان استنتاج موجود پیشی می‌گیرد و عملکرد را بهبود می‌بخشد ضمن اینکه خروجی‌های با کیفیت بالا را در مدل‌های تولید تصویر و ویدیوی مبتنی بر جریان حفظ می‌کند.