آخرین یافته‌های باز (#9): پیش‌نویس کتاب RLHF، مسیر مسابقه استدلال باز، و قهرمانان گمنام کار مدل زبانی باز

گزارش شماره ۹ یافته‌ها.

چند هفته پس از انتشار پر فراز و نشیب Llama 4، به نظر می‌رسد جامعه باز بیشتر بر شایعات Qwen 3 تمرکز دارد تا اینکه بخواهد بر روی این مدل‌ها بنا کند - بیشتر به دلیل اندازه آن‌ها و نه به دلیل عرضه گیج‌کننده‌اش. هفته آینده LlamaCon است، بنابراین باید انتظار مدل‌های بیشتری را داشته باشیم.

این وقفه زمانی خوبی است تا بپرسیم - این همه مدل استدلال باز به کجا می‌روند؟ دیگر داشتن یک مدل دیگر که بر روی AIME صعود می‌کند یا یک DeepSeek R1 دیگر برای چیزی، هیجان‌انگیز نیست. برخی از مدل‌ها وارد وظایف کدنویسی و عاملیتی می‌شوند، اما به نظر می‌رسد سیستم‌هایی که از این مدل‌ها استفاده می‌کنند، تاثیرگذارتر از مجموعه داده‌های فردی خواهند بود. این امر تنها با میزان متفاوت و تغییر دهنده انتظارات انتشار o3 با ابزارها به صورت بومی تقویت می‌شود.

ما به پوشش این تحولات ادامه خواهیم داد و اگر مصنوعات باز به این شکل استفاده می‌شوند، پیوندهای پروژه بیشتری را نسبت به پیوندهای HuggingFace اضافه خواهیم کرد. این امر با پوشش ما از نحوه عبور مدل‌های باز از آستانه‌های قابلیت مهم همسو است.

خواندن این موضوع فقط تکرار می‌کند که بزرگترین و بهترین انتشارات باز هنوز هم بیشترین تأثیر را دارند. شکستن و تبدیل شدن به یک استاندارد صنعتی مانند R1 یا Llama 3 یا Qwen 2.5 دشوار است.

همچنین، اولین پیش‌نویس کتاب RLHF که من (Nathan) روی آن کار کرده‌ام به پایان رسیده است (نسخه وب، نسخه Arxiv). این کتاب چیزهای بیشتری نسبت به RLHF دارد، مانند بازخورد هوش مصنوعی، هوش مصنوعی مشروطه، مروری بر تقطیر و سوالات باز مرتبط. این کتاب به گونه‌ای طراحی شده است که لذت‌بخش و مفید باشد تا کامل. در اواخر سال جاری می‌توانید ایمیلی دریافت کنید که اعلام می‌کند پیش‌سفارش‌ها برای نسخه‌های فیزیکی باز است، پس با ما همراه باشید.

در این شماره، ما تحت تأثیر مشارکت‌های اخیر Nvidia در اکوسیستم باز قرار گرفته‌ایم، و شاهد کارهای RAG/embedding زیادی هستیم که برای کاربردهای سازمانی مدل‌های باز ضروری هستند، و از میزان شرکت‌های چینی که مدل‌های شگفت‌انگیزی را منتشر می‌کنند، متعجب نیستیم (این یک هنجار است).

گزینه‌های ما

  • Llama-3_1-Nemotron-Ultra-253B-v1 توسط nvidia: یک مدل استدلال که بر اساس نسخه هرس شده Llama 3.1 ساخته شده است. پس از هرس کردن، آن‌ها چندین دور پس‌آموزش را انجام می‌دهند: با SFT (با استفاده از Llama، Qwen، QwQ و R1) شروع می‌کنند، و به دنبال آن چندین دور RL، هم برای قابلیت‌ها و هم برای همسویی. جدا از نوع 253B، آن‌ها همچنین یک مدل 49B [از Llama 70B] و یک مدل 8B را منتشر می‌کنند.
  • Kimi-VL-A3B-Instruct توسط moonshotai: یک MoE دیداری از Moonshot AI / Kimi، که تحت مجوز MIT منتشر شده است. عملکرد این مدل واقعاً محکم به نظر می‌رسد و با Qwen2.5 VL-7B همتراز است، در حالی که از نیمی از پارامترهای فعال استفاده می‌کند (اما دو برابر پارامترهای کل). آن‌ها همچنین یک نسخه تفکر را منتشر می‌کنند و امتیازات را حتی بیشتر افزایش می‌دهند. در گزارش فنی خود، آن‌ها بیان می‌کنند که مدل‌های بزرگتری را بر روی داده‌های بیشتری آموزش خواهند داد. با توجه به اینکه Moonshot AI یکی از سوپراستارهای فضای LLM چین است، این تیم و سری مدل‌ها یک مورد برای زیر نظر داشتن است. همچنین به روندی که مشاهده کردیم ادامه می‌دهد: آزمایشگاه‌ها و شرکت‌های بزرگ چینی به انتشار مدل‌های بسیار توانمند تحت مجوزهای OSS مجاز، معمولاً MIT یا Apache 2.0، ادامه می‌دهند.
  • Nemotron-H-56B-Base-8K توسط nvidia: یک مدل ترکیبی ترانسفورماتور-مامبا که بر روی 20T توکن آموزش داده شده است. گزارش به جزئیات بیشتری می‌پردازد. این مدل‌ها در همان سطح یک نوع فقط توجه عمل می‌کنند، در حالی که بیش از دو برابر سریع‌تر هستند. معیارهای بافت طولانی نیز رقابتی به نظر می‌رسند و این معماری را به یک رقیب جدی برای جایگزینی مدل‌هایی که از توجه پنجره کشویی یا انواع مشابه استفاده می‌کنند، تبدیل می‌کند. با این حال، مدل‌های منتشر شده فقط از بافت 8K پشتیبانی می‌کنند.
    نموداری که عملکرد مدل ترکیبی ترانسفورماتور-مامبا را نشان می‌دهد
  • GLM-Z1-Rumination-32B-0414 توسط THUDM: یک مدل آموزش داده شده برای تحقیقات (عمیق). این مدل توسط تیمی آموزش داده شده است که پشت GLM و CogView قرار دارند و نام خود را به Z AI تغییر داده‌اند. این مدل را می‌توان در وب‌سایت آن‌ها برای امتحان کردن آن دسترسی داشت. این مدل خاص برای جستجو و کلیک از طریق وب‌سایت‌ها با چندین فراخوانی عملکرد در طول قسمت استدلال خود آموزش داده شده است.
  • mrcr توسط openai: OpenAI هفته پرماجرایی را با انتشار سری GPT-4.1 و o3 / o4-mini داشت. با این حال، این همه چیزهایی نیست که آن‌ها رها کردند. آن‌ها همچنین یک رقیب منبع باز برای claude-code به نام codex (نباید با مدل کدنویسی به همین نام اشتباه شود) و دو معیار بافت طولانی: MRCR، یک تکرار باز از معیار Google، و GraphWalks را منتشر کردند.
نمودار نشان‌دهنده نقش پیشینه‌ها در محاسبات RL

پیوندها

  • دوستان ما در General Reasoning یک پست وبلاگی در مورد آنچه برای مقیاس‌بندی محاسبات RL لازم است منتشر کرده‌اند - و در مورد سوالات تحقیق بنیادی امروزی بحث می‌کنند، مانند:
    نقش پیشینه‌ها مانند مدل‌های پایه، ابرپارامترهای RL و داده‌های شروع سرد چیست؟
    نقش تولید موازی در مقابل متوالی چیست؟
    چگونه محاسبات RL را در حوزه‌هایی که تأیید راه‌حل‌ها دشوارتر است، مقیاس‌بندی کنیم؟
  • یک ابزار قیمت‌گذاری غول‌پیکر LLM که به شما امکان می‌دهد قیمت مدل را در تقریباً هر ارائه‌دهنده‌ای مشاهده کنید.
  • Dan Shipper یک بررسی با چند نمونه استفاده خلاقانه از o3 انجام داد (همچنین در پست o3 ما پیوند داده شده است).
  • این داستان در مورد موسسه آلن تورینگ - چگونه یک موسسه هوش مصنوعی نسازیم توسط Alex Chalmers - نقطه مقابل عالی برای تمام موفقیت‌هایی است که این روزها در مورد هوش مصنوعی می‌شنویم.
  • Helen Toner - یکی از متفکران مورد علاقه ما در فضای سیاست هوش مصنوعی - یک وبلاگ را شروع کرده است. او چند پست اولیه در مورد کوچک کردن جدول زمانی، تغییر معنای همسویی و عدم تکثیر دارد. تا زمانی که برنامه ارسال ثابت باشد، این در مسیر سریع به توصیه‌های Interconnects قرار دارد.
  • یک پادکست خوب از AI Summer در مورد پرونده‌هایی که قوانین حق نسخه‌برداری هوش مصنوعی را طی چند سال آینده تعریف می‌کنند. این یک موضوع مهم است، اما معمولاً در بین احکام دادگاه‌های بزرگ نادیده گرفته می‌شود.
  • یک پست جالب در The Alignment Forum در مورد مجموعه‌ای از نتایج منفی برای SAEهایی که در تفسیرپذیری مکانیکی استفاده می‌شوند، بحث کرد. TLDR:
    • برای اعتبارسنجی اینکه آیا SAEها یک تکنیک ارزشمند هستند، بررسی کردیم که آیا آن‌ها در وظیفه پایین‌دستی تعمیم OOD هنگام تشخیص قصد آسیب‌رسان در دستورالعمل‌های کاربر مفید هستند یا خیر.
    • نتیجه منفی: SAEها عملکردی ضعیف‌تر از پروب‌های خطی داشتند.
  • SpeechMap.ai نرخ امتناع LLMهای مختلف را از طیف گسترده‌ای از موضوعات مورد بحث داغ، مانند دولت‌ها، مذهب یا قومیت، اندازه‌گیری می‌کند.
    نموداری که نرخ امتناع مدل‌های OpenAI را نشان می‌دهد
    مدل‌های جدیدتر OpenAI درخواست‌های بیشتری را رد می‌کنند. منبع: https://speechmap.substack.com/p/speechmapai-is-live
  • Anthropic چند آموزش برای Claude Code دارد.

استدلال

مدل‌ها

  • openhands-lm-32b-v0.1 توسط all-hands: یک نسخه RL تنظیم شده از Qwen2.5 Coder در وظایف عاملیتی برای ویرایش پایگاه‌های کد. داده‌ها با استفاده از خود مدل تولید شده‌اند - ویرایش‌های موفقی که از یک مدل اعمال شده‌اند، برای آموزش تکرار بعدی استفاده می‌شوند.
  • Skywork-OR1-Math-7B توسط Skywork: یک مدل استدلال که در چندین مرحله با افزایش طول بافت آموزش داده شده است و عملکرد را در مقایسه با ثابت نگه داشتن طول بافت بهبود می‌بخشد. پست وبلاگ به جزئیات بیشتری می‌پردازد، از جمله آزمایش‌های آنتروپی آن‌ها از مدل بازیگر.
  • cogito-v1-preview-llama-70B توسط deepcogito: یک سری از مدل‌ها با قابلیت‌های استدلال اختیاری که با تولید داده‌های آموزشی با همان مدل آموزش داده شده‌اند، یعنی مدل 70B با داده‌های مدل 70B آموزش داده شده است.
  • DeepCoder-14B-Preview توسط agentica-org: یک نسخه RL آموزش دیده از نسخه R1 از Qwen2.5 14B. آن‌ها از بینش‌های DAPO برای یک نسخه بهبود یافته از GRPO استفاده می‌کنند که در اینجا پوشش دادیم.
  • Kimina-Prover-Preview-Distill-7B توسط AI-MO: یک مدل از Moonshot AI که در اثبات مسائل ریاضی با فرموله کردن آن‌ها در Lean تخصص دارد. آن‌ها همچنین Autoformalizer را منتشر می‌کنند که قادر به تبدیل زبان طبیعی به کد Lean 4 است. این برای سیستم‌هایی مانند AlphaProof مفید است.
    تصویر
    منبع: https://x.com/JiaLi52524397/status/1911766399971955059
  • ZR1-1.5B توسط Zyphra: یک مدل کدنویسی کوچک، که بر اساس نسخه R1 تقطیر شده از Qwen2.5 1.5B با آموزش آن با PRIME ساخته شده است.

مجموعه داده‌ها

  • reasoning-v1-20m توسط glaiveai: یک مجموعه داده استدلال که توسط R1-Distill Llama 70B تولید شده است.
  • Multi-subject-RLVR توسط virtuoussy: ترجمه ExamQA چینی به انگلیسی، هر نمونه به یک جفت پرسش و پاسخ آزاد تبدیل شده است.
  • OpenCodeReasoning توسط nvidia: 735K راه‌حل کدنویسی پایتون با ردیابی‌های تولید شده توسط R1.
  • Llama-Nemotron-Post-Training-Dataset توسط nvidia: داده‌های SFT و RL برای آموزش مدل‌های Llama-Nemotron.
  • DeepMath-103K توسط zwhe99: یک مجموعه داده ریاضی چالش بر انگی.

پیوندها

  • یک کتابخانه به سبک nanoGPT خوب، McGill-NLP/nano-aha-moment، برای آموزش LMها با RL از خطوط زمانی ما عبور کرد. ما هنوز آن را آزمایش نکرده‌ایم، اما این نوع تلاش‌ها برای دسترسی به آزمایش کنترل شده روی مدل‌های کوچک بسیار تاثیرگذار هستند.