موارد عقب‌مانده یادگیری تقویتی: انواع RL در OpenAI، شفاف‌سازی تقطیر و استدلال پنهان

من یک وبلاگ دوم دارم که در آن افکار نیمه‌پخته‌ام را منتشر می‌کنم، گاهی پیش‌نمایشی از مطالبی که اینجا می‌آید. اگر علاقه‌مند هستید، چند تأمل درباره انتشار مدل متن‌باز آتی OpenAI پست کردم.

بدیهی است که یادگیری تقویتی (Reinforcement Learning یا RL) در حال بازگشت شکوهمندانه به میان جامعه گسترده‌تر هوش مصنوعی است، اما موفقیت‌های واقعی آن عمدتاً چیزهایی نیستند که مردم روی آنها تمرکز کرده‌اند. مجموعه داده‌های بیشتر ریاضی و کد، بسترهای اصلی برای تحقیق و پیشرفت هستند - می‌دانیم که در راهند. اما همچنان بیش از حد روی آن‌ها تأکید می‌شود. همان روش‌های RL در بسیاری از مدل‌ها و محصولات هوش مصنوعی پیشرو استفاده می‌شوند.

این عمدتاً پستی است که چند هفته پیش درباره اخبار RL نوشتم و آن را دنبال می‌کردم. هرگز عملکرد متمرکزی نداشت، بنابراین منتشر نشد، اما آن را به اشتراک می‌گذارم زیرا بسیاری از افراد این حوزه را بسیار دقیق دنبال می‌کنند. امروز:

اشکال متعدد RL در OpenAI،
درباره تقطیر زنجیره افکار (Chain of Thoughts) در مقابل RL،
آیا DeepSeek مدل o1 را تقطیر کرد؟ و
چرا استدلال پنهان (Latent Reasoning) بسیار جالب است.

اشکال متعدد RL در OpenAI

برای کسانی که به جریان فرهنگی OpenAI در توییتر متصل هستند، واضح است که آن‌ها به شدت روی یادگیری تقویتی سرمایه‌گذاری کرده‌اند.۱ با هیجان پیرامون انتشار سری مدل‌های استدلالگر o، آسان بود که فرض کنیم این‌ها تنها راه هیجان‌انگیز هستند. انتشارات اخیر OpenAI نشان داده است که این‌طور نیست و هر انتشار، از عرضه یک مدل گرفته تا یک محصول جدید، شامل اشاراتی به آموزش RL بوده است. البته بخشی از این موضوع بازاریابی است، اما همه آن‌ها به عنوان کاربردهای متفاوتی از تنظیم دقیق تقویتی (Reinforcement Finetuning یا RFT) / RL با پاداش‌های قابل تأیید (RL with Verifiable Rewards یا RLVR) مناسب هستند.۲

اولین کاربرد دیگر، عامل Operator از OpenAI بود. آن‌ها بیان کردند:

با ترکیب قابلیت‌های بینایی GPT-4o با استدلال پیشرفته از طریق یادگیری تقویتی، CUA آموزش دیده است تا با رابط‌های کاربری گرافیکی (GUI) - دکمه‌ها، منوها و فیلدهای متنی که افراد روی صفحه می‌بینند - تعامل داشته باشد.

در این پست کمی بیشتر از حد معمول نیاز به گمانه‌زنی وجود دارد. در نهایت، با شرکایی مانند DoorDash، Instacart و غیره که با آن‌ها همکاری کردند، می‌توانستند دامنه‌های قابل تأییدی را ایجاد کنند که در آن عامل برای انجام یک وظیفه زبان طبیعی پاداش می‌گیرد. این امر می‌تواند برای شروع به کمک آن وب‌سایت‌ها متکی باشد. در نهایت، افراد زیادی می‌دانند که این *می‌تواند* کار کند، زیرا عامل‌ها عمیقاً به بطن افسانه‌های RL گره خورده‌اند، اما جزئیات پیاده‌سازی در پروژه‌های متن‌باز واقعاً مشخص نشده‌اند.

همین امر در مورد Deep Research نیز صدق می‌کند. آن‌ها بیان کردند:

Deep research به طور مستقل بینش‌هایی را از سراسر وب کشف، استدلال و یکپارچه می‌کند. برای دستیابی به این هدف، با استفاده از همان روش‌های یادگیری تقویتی که در پشت OpenAI o1، اولین مدل استدلالگر ما قرار دارد، بر روی وظایف دنیای واقعی که نیازمند استفاده از ابزارهای مرورگر و پایتون هستند آموزش داده شده است.
Deep research با استفاده از یادگیری تقویتی سرتاسری بر روی وظایف دشوار مرور وب و استدلال در طیف وسیعی از دامنه‌ها آموزش داده شده است.

جزئیات بیشتری در کارت سیستم Deep Research به اشتراک گذاشته شد.

بخشی از کارت سیستم Deep Research که به آموزش RL اشاره دارد. — اشاره به آموزش RL در کارت سیستم Deep Research.

چیزهای زیادی وجود دارد که می‌توان تصور کرد - برای مثال، عامل در صورتی پاداش می‌گیرد که سند بازیابی شده از جستجو اطلاعات مرتبطی داشته باشد (پاداش قابل تأیید نیست، اما از روش LLM-as-a-judge استفاده می‌شود). بیشتر این موارد احتمالاً برای دستیابی به قابلیت اطمینان بسیار بالا در استفاده از ابزارها به کار می‌روند تا امکان انجام تماس‌های فراوان در پس‌زمینه را فراهم کنند، زمانی که یک تماس برای کاربر بیش از ۱۰ دقیقه طول می‌کشد.

کمترین شگفتی مربوط به اعلام مدل جدید GitHub CoPilot با آموزش RL جدید و بهبود یافته برای کد بود:

مدل جدید تکمیل کد ما امروز در پیش‌نمایش عمومی عرضه می‌شود. ما آن را GPT-4o Copilot می‌نامیم. مبتنی بر GPT-4o mini، با آموزش میانی بر روی مجموعه‌ای متمرکز بر کد با بیش از ۱ تریلیون توکن و یادگیری تقویتی با بازخورد اجرای کد (RLEF).

همه این‌ها به آنچه در مطلب تنظیم دقیق تقویتی OpenAI و RL برای همگان گفتم بازمی‌گردد — این آموزش جدید RL روشی کاملاً هماهنگ برای دستیابی به عملکرد تقریباً بی‌نقص در دامنه‌ای است که می‌توانید با دقت کنترل کنید. بهترین نتایج با تسلط بر دامنه و با آموزش به دست می‌آیند.

یک گمانه‌زنی جالب مبنی بر اینکه OpenAI *واقعاً* روی RL و پس‌آموزش سرمایه‌گذاری کرده است، این است که مدل جدید o3-mini آن‌ها همان تاریخ قطع داده، اکتبر ۲۰۲۳، را دارد که سایر مدل‌های پرچمدار OpenAI دارند. این که تاریخ قطع داده بسیار قدیمی شده است، نشان می‌دهد که OpenAI چقدر روی محصولات جستجوی خود (که انصافاً بسیار خوب هستند) سرمایه‌گذاری کرده است و چگونه چنین بهبودهای عملکردی قوی‌ای می‌تواند از طریق بهبودهای دیگر در پشته آموزش حاصل شود.

OpenAI همچنین مقاله‌ای در مورد کدنویسی رقابتی با آموزش RL منتشر کرد، اما جزئیات مفید زیادی نداشت.

درباره تقطیر زنجیره افکار در مقابل RL

چند نکته از مقاله DeepSeek و گفتمان پیرامون آن وجود دارد که ارزش تکرار دارند. برای تکرار، تقطیر (distillation) در این مورد، آموزش یک مدل (معمولاً با SFT، اما هر تابع زیانی کار می‌کند) بر روی خروجی‌های یک مدل قوی‌تر است. بیایید مستقیماً به سراغ آن برویم.

اول، DeepSeek به وضوح بیان کرد که استفاده بیشتر از RL *پس از* تقطیر (SFT) برای بهترین مدل‌های ممکن حیاتی است.

علاوه بر این، ما دریافتیم که اعمال RL بر روی این مدل‌های تقطیر شده، دستاوردهای قابل توجه بیشتری را به همراه دارد. ما معتقدیم این امر مستلزم بررسی بیشتر است و بنابراین در اینجا فقط نتایج مدل‌های ساده تقطیر شده با SFT را ارائه می‌دهیم.

درک فعلی من در اینجا این است که تطبیق توزیع داده‌ها از آموزش مدل پایه با داده‌های تقطیر و پرامپت‌های RL بسیار مهم است. این به طور خاص برای فعال کردن RL در انتها حیاتی است — SFT تقریباً همیشه امتیازات را افزایش می‌دهد، اما می‌تواند دامنه ای را که مدل می‌تواند بیشتر تنظیم دقیق شود، محدود کند. DeepSeek این موضوع را برای مدل‌های خود کشف کرد، اما جزئیات را به اشتراک نگذاشت.

نکته بعدی در مورد چگونگی تأثیر مقیاس بر آموزش RL است:

اول، تقطیر مدل‌های قدرتمندتر به مدل‌های کوچک‌تر نتایج بسیار خوبی به همراه دارد، در حالی که مدل‌های کوچک‌تر که به RL در مقیاس بزرگ ذکر شده در این مقاله متکی هستند، به قدرت محاسباتی عظیمی نیاز دارند و ممکن است حتی به عملکرد تقطیر نرسند.

این بیشتر گیج‌کننده است تا مفید، و از این واقعیت نشأت می‌گیرد که «DeepSeek-R1-Distill-Qwen-32B۳، که از DeepSeek-R1 تقطیر شده است، به طور قابل توجهی بهتر از DeepSeek-R1-Zero-Qwen-32B در تمام بنچمارک‌ها عمل می‌کند». نباید انتظار داشته باشیم که مدل‌های سبک Zero که فقط با RL آموزش دیده‌اند، در بنچمارک‌ها عملکرد خوبی داشته باشند (مگر اینکه روی داده‌های آزمون آموزش دیده باشید). این چیزی نیست که برای آن طراحی شده‌اند. مدل‌های تقطیر شده روی متنی آموزش دیده‌اند که برای گردش کار مدل‌سازی زبان موجود بسیار دقیق تنظیم شده است. مدل‌های RL-Zero (تقطیر نشده) در رفتارهای خود بسیار اکتشافی هستند.

خط پایه مناسب، قرار دادن Qwen-32B در کل دستورالعمل R1 خواهد بود — که احتمالاً بسیار بیشتر از نسخه تقطیر شده عملکرد بهتری خواهد داشت.

با این حال، واقعیت این است که مدل‌های کوچک به کار بیشتری از RL نیاز دارند. انجام این نوع RL اکتشافی با مدل‌های بزرگ بسیار آسان‌تر است. ممکن است به این دلیل باشد که آن‌ها رفتارهای نادر بیشتری را در طول پیش‌آموزش در خود نگه می‌دارند و RL آن‌ها را بیرون می‌کشد. مدل‌های کوچک‌تر ممکن است این رفتارهای دم‌دراز (long-tail) را سرکوب کنند.

در ادامه این بحث، نویسندگان DeepSeek بیان می‌کنند:

دوم، در حالی که استراتژی‌های تقطیر هم اقتصادی و هم مؤثر هستند، پیشروی فراتر از مرزهای هوش ممکن است همچنان به مدل‌های پایه قدرتمندتر و یادگیری تقویتی در مقیاس بزرگ‌تر نیاز داشته باشد.

آیا DeepSeek مدل o1 متعلق به OpenAI را تقطیر کرد؟ (راهنمایی: خیر)

این سؤالی است که مدت‌ها پیش قصد داشتم به آن بپردازم، اما حالا اینجا هستیم، عرضه چند مدل مانع شد. انتقادی که توسط OpenAI و بسیاری از رسانه‌ها مطرح شد این است که DeepSeek بر روی ردپاهای استدلال (reasoning traces) از مدل o1 OpenAI آموزش دیده است. OpenAI تقریباً ۱۸ ماه برای به دست آوردن داده‌های اولیه برای آموزش مدل o1 خود وقت صرف کرد، بنابراین قابل درک است که آن‌ها نگران باشند که آن را به صورت رایگان به اشتراک بگذارند.

خوشبختانه، DeepSeek و یان لکان پاسخ داده‌اند:

@abacaj: برای شفاف‌سازی، ما هرگز از o1 یا GPT4 در آموزش استفاده نکرده‌ایم. ما یک مدل *بزرگتر* از 1.5 تریلیون توکن خودمان داریم که از آن برای تقطیر مدل‌های کوچک‌تر استفاده می‌کنیم.
@ylecun: آن‌ها در یادداشت‌های انتشار، روش استفاده شده برای تولید داده‌های آموزشی را توضیح داده‌اند. این روش از آموزش مدل‌های تقویتی بر روی مسائل ریاضی/کدنویسی به جای تقطیر از o1 استفاده می‌کند.

همانطور که لکان اشاره می‌کند، روش آن‌ها مستند شده است و شامل یک مدل بزرگتر از 1.5 تریلیون توکن برای تقطیر است. این مدل معلم، DeepSeek-R1 نامیده می‌شود، اما هرگز منتشر نشده است. با توجه به اینکه مدل‌های اصلی DeepSeek با داده‌های ۲ تریلیون توکن و سپس ۶ تریلیون توکن آموزش دیده‌اند، می‌توان فرض کرد که مدل معلم آن‌ها نیز در جایی در آن محدوده قرار دارد. با این حال، آن‌ها به وضوح اظهار داشتند که از مدل‌های OpenAI استفاده نکرده‌اند.

چرا استدلال پنهان بسیار جالب است

در چند وقت اخیر، کارهای زیادی در زمینه مدل‌های زبانی وجود داشته است که به دنبال جدا کردن مراحل محاسبات داخلی، یا استدلال، از مراحل تولید توکن هستند. تصویر سرصفحه مقاله مربوط به استدلال پنهان (Latent Reasoning) است، که در آن از یک معماری استفاده می‌شود که دارای عمق بازگشتی است، جایی که محاسبات اضافی قبل از نمونه‌برداری از توکن بعدی انجام می‌شود. این کار جالبی است، زیرا نشان می‌دهد که تخصیص محاسبات زمان آزمون اضافی می‌تواند منجر به دستاوردهای قابل توجهی در عملکرد شود.

نمودار نتایج استدلال پنهان که افزایش عملکرد را با افزایش مراحل محاسباتی نشان می‌دهد. — نتایج استدلال پنهان. محور x نشان‌دهنده تعداد گام‌های بازگشتی یا میزان محاسبات انجام شده برای هر توکن تولیدی است.

این رویکرد کمی شبیه به کاری است که با مهندسی پرامپت، مانند زنجیره افکار، انجام می‌دهیم، اما به جای نوشتن گام‌های میانی به صورت متن، محاسبات در حالت پنهان مدل انجام می‌شود. این امر می‌تواند به طور قابل توجهی سریع‌تر باشد، زیرا تنها توکن‌های نهایی تولید می‌شوند. این روش شباهت زیادی به رویکرد «مدل استدلالگر» OpenAI دارد، اما به نظر می‌رسد بدون نیاز به آموزش RL گسترده پیاده‌سازی شده است.

شایان ذکر است که حداقل یک محقق در OpenAI اشاره کرده است که این کار بسیار شبیه به o1 است، که احتمالاً به این معنی است که o1 از این نوع معماری محاسباتی زمان آزمون انعطاف‌پذیر بهره می‌برد، اگرچه هنوز از RL برای بهبود آن استفاده می‌کند.

جمع‌بندی

RL پیچیده است، نحوه تعامل آن با سایر روش‌های آموزشی نیز پیچیده است، و پیاده‌سازی واقعی آن حتی پیچیده‌تر است. به نظر می‌رسد که در آینده نزدیک، RL نقش مهمی در توسعه مدل‌های پیشرفته ایفا خواهد کرد، اما درک کامل چگونگی و چرایی کارکرد آن همچنان یک حوزه تحقیقاتی فعال است. ترکیب تقطیر، RL، و معماری‌های جدید مانند استدلال پنهان، مرزهای توانایی مدل‌های زبانی را پیش می‌برد.

^۱ من مطمئن نیستم که آیا این نشان‌دهنده این است که آن‌ها به‌طور کامل روی این نوع روش‌های RL سرمایه‌گذاری کرده‌اند، یا اینکه صرفاً آن‌ها را به عنوان یک مسیر موازی که شایسته سرمایه‌گذاری عمده است، می‌بینند. هر دو امکان‌پذیر است.

^۲ جالب است که OpenAI نام‌گذاری را از RFT به RLVR تغییر داد. این موضوع در پست بعدی من در مورد نام‌گذاری OpenAI پوشش داده خواهد شد.

^۳ توجه داشته باشید که نامگذاری مدل کمی گیج‌کننده است. این مدل بر روی Qwen-32B پایه ساخته شده است.

https://www.interconnects.ai/p/rl-backlog-openais-many-rls-clarifying