همه چیز با معرفی مدل o1 OpenAI در سپتامبر ۲۰۲۴ شروع شد، اما با DeepSeek R1 که در ژانویه ۲۰۲۵ منتشر شد، واقعاً اوج گرفت.
به نظر میرسد که اکثر ارائهدهندگان و آموزشدهندگان مدلهای هوش مصنوعی بزرگ در یک رقابت جدید برای ارائه مدلهای زبانی هوش مصنوعی «استدلالی» بهتر، سریعتر، ارزانتر، مقرون به صرفهتر یا قدرتمندتر و با عملکرد بهتر هستند - مدلهایی که ممکن است کمی بیشتر طول بکشد تا به یک کاربر انسانی پاسخ دهند، اما در حالت ایدهآل با پاسخهای بهتر، جامعتر و «استدلالیتر» این کار را انجام دهند، که این دسته از مدلها با انجام «زنجیره تفکر»، تفکر در مورد نتایج خود و بررسی صحت آنها قبل از پاسخ دادن به دست میآورند.
ByteDance، شرکت رسانهای اینترنتی چینی و مادر TikTok، آخرین شرکتی است که با اعلام و انتشار مقاله فنی در مورد Seed-Thinking-v1.5، یک مدل زبانی بزرگ (LLM) که برای پیشرفت عملکرد استدلالی در زمینههای علوم، فناوری، مهندسی و ریاضیات (STEM) و حوزههای عمومی طراحی شده است، به این جمع پیوسته است.
این مدل هنوز برای دانلود یا استفاده در دسترس نیست و مشخص نیست که شرایط مجوز آن چگونه خواهد بود - آیا اختصاصی/متن بسته خواهد بود یا متن باز/رایگان برای استفاده و اصلاح توسط همه، یا چیزی بین این دو. اما مقاله فنی جزئیات قابل توجهی را ارائه میدهد که ارزش بررسی در حال حاضر را دارد تا زمانی که در دسترس قرار گیرد.
ساخته شده بر اساس معماری محبوب Mixture-of-Experts (MoE)
مانند Llama 4 جدید متا و Mixtral شرکت میسترال، Seed-Thinking-v1.5 با استفاده از معماری Mixture-of-Experts (MoE) ساخته شده است.
این معماری برای کارآمدتر کردن مدلها طراحی شده است و اساساً قابلیتهای چندین مدل را در یک مدل ترکیب میکند، به طوری که هر مدل در یک دامنه متفاوت تخصص دارد.
در این مورد، معماری MoE به این معنی است که Seed-Thinking-v1.5 فقط از ۲۰ میلیارد پارامتر در یک زمان از مجموع ۲۰۰ میلیارد استفاده میکند.
ByteDance در مقاله فنی منتشر شده در GitHub میگوید که Seed-Thinking-v1.5 اولویت را به استدلال ساختاریافته و تولید پاسخ متفکرانه میدهد.
نتایج تقریباً گویای خود هستند، به طوری که Seed-Thinking-v1.5 عملکرد بهتری از DeepSeek R1 دارد و به Gemini 2.5 Pro تازه منتشر شده گوگل و o3-mini-high reasoner OpenAI در بسیاری از ارزیابیهای معیار شخص ثالث نزدیک میشود، حتی در مورد معیار ARC-AGI، که پیشرفت به سوی هوش مصنوعی عمومی را اندازهگیری میکند، از آن دو فراتر میرود - مدلی که در اکثر وظایف ارزشمند اقتصادی از انسانها بهتر عمل میکند، طبق تعریف OpenAI.
Seed-Thinking-v1.5 به عنوان یک جایگزین فشرده و در عین حال توانمند برای مدلهای بزرگتر و پیشرفتهتر، به نتایج معیار رقابتی دست مییابد و نوآوریهایی را در یادگیری تقویتی (RL)، انتخاب دادههای آموزشی و زیرساخت هوش مصنوعی معرفی میکند.
معیارهای عملکرد و تمرکز مدل
Seed-Thinking-v1.5 عملکرد قویای را در مجموعهای از وظایف چالشبرانگیز نشان میدهد و امتیاز 86.7٪ در AIME 2024، پاس 55.0٪ در Codeforces و 77.3٪ در معیار علمی GPQA کسب میکند. این نتایج آن را نزدیک به مدلهایی مانند o3-mini-high OpenAI و Gemini 2.5 Pro گوگل در معیارهای استدلال خاص قرار میدهد یا با آنها مطابقت میدهد.
در وظایف غیر استدلالی، این مدل از طریق مقایسههای ترجیح انسانی ارزیابی شد و نرخ برد 8.0٪ بالاتری نسبت به DeepSeek R1 به دست آورد، که نشان میدهد نقاط قوت آن فراتر از چالشهای سنگین منطق یا ریاضیات تعمیم مییابد.
برای رسیدگی به اشباع در معیارهای رایج مانند AIME، ByteDance BeyondAIME را معرفی کرد، یک معیار ریاضی جدید و سختتر با مشکلات انتخاب شده که برای مقاومت در برابر حفظ کردن و تشخیص بهتر عملکرد مدل طراحی شده است. انتظار میرود این و مجموعه ارزیابی Codeforces به طور عمومی منتشر شوند تا از تحقیقات آینده پشتیبانی کنند.
استراتژی داده
دادههای آموزشی نقش اساسی در توسعه مدل ایفا کردند. برای تنظیم دقیق نظارت شده (SFT)، تیم 400000 نمونه را انتخاب کرد، از جمله 300000 نمونه قابل تأیید (وظایف STEM، منطق و کدنویسی) و 100000 مشکل غیرقابل تأیید مانند نوشتن خلاقانه و ایفای نقش.
برای آموزش RL، دادهها به بخشهای زیر تقسیم شدند:
- مسائل قابل تأیید: 100000 سؤال STEM و پازل منطقی با پاسخهای شناخته شده که به طور دقیق فیلتر شدهاند و از مسابقات نخبگان و بررسی متخصصان تهیه شدهاند.
- وظایف غیرقابل تأیید: مجموعههای داده ترجیح انسانی که بر روی اعلانهای باز متمرکز شدهاند و با استفاده از مدلهای پاداش جفتی ارزیابی میشوند.
دادههای STEM به شدت به ریاضیات پیشرفته تکیه داشتند و بیش از 80٪ از مجموعه مسائل را تشکیل میدادند. دادههای منطقی اضافی شامل وظایفی مانند سودوکو و پازلهای 24 نقطهای با سختی قابل تنظیم برای مطابقت با پیشرفت مدل بود.
رویکرد یادگیری تقویتی
یادگیری تقویتی در Seed-Thinking-v1.5 توسط چارچوبهای سفارشی بازیگر-منتقد (VAPO) و گرادیان سیاست (DAPO) پشتیبانی میشود که برای رفع ناپایداریهای شناخته شده در آموزش RL توسعه یافتهاند. این تکنیکها بر کاهش پراکندگی سیگنال پاداش و افزایش ثبات آموزش، به ویژه در تنظیمات طولانی زنجیره تفکر (CoT) تمرکز دارند.
مدلهای پاداش نقش مهمی در نظارت بر خروجیهای RL ایفا میکنند. ByteDance دو ابزار کلیدی را معرفی کرد:
- Seed-Verifier: یک LLM مبتنی بر قانون که بررسی میکند آیا پاسخهای تولید شده و مرجع از نظر ریاضی معادل هستند یا خیر.
- Seed-Thinking-Verifier: یک قاضی مبتنی بر استدلال گام به گام که سازگاری قضاوت را بهبود میبخشد و در برابر هک کردن پاداش مقاومت میکند.
این سیستم پاداش دو لایه، ارزیابی ظریف را برای وظایف ساده و پیچیده امکان پذیر میکند.
زیرساخت و مقیاس بندی
برای پشتیبانی از آموزش در مقیاس بزرگ کارآمد، ByteDance سیستمی را بر روی چارچوب HybridFlow خود ایجاد کرد که اجرای آن توسط خوشههای Ray و فرآیندهای آموزش و استنتاج هممکانی برای کاهش زمان بیکاری GPU انجام میشود.
یک نوآوری قابل توجه، سیستم استریمینگ Rollout (SRS) است که تکامل مدل را از اجرای زمان اجرا جدا میکند. این سیستم با مدیریت ناهمزمان نسلهای نیمهکاره در نسخههای مدل، سرعت تکرار را تسریع میکند. گزارش شده است که این معماری تا 3 برابر چرخههای RL سریعتری را ارائه میدهد.
تکنیکهای زیرساخت اضافی عبارتند از:
- دقت ترکیبی (FP8) برای صرفه جویی در حافظه
- موازی سازی متخصص و تنظیم خودکار هسته برای کارایی MoE
- ByteCheckpoint برای چک پوینت انعطاف پذیر و مقاوم
- AutoTuner برای بهینه سازی موازی سازی و پیکربندیهای حافظه
ارزیابی انسانی و تأثیر دنیای واقعی
برای ارزیابی همسویی با ترجیحات انسان محور، ByteDance آزمایش انسانی را در طیف وسیعی از حوزهها از جمله نوشتن خلاقانه، دانش علوم انسانی و مکالمه عمومی انجام داد.
Seed-Thinking-v1.5 به طور مداوم عملکرد بهتری نسبت به DeepSeek R1 در سراسر جلسات داشت و کاربرد آن را برای نیازهای کاربر در دنیای واقعی تقویت کرد.
تیم توسعه خاطرنشان میکند که مدلهای استدلالی که عمدتاً بر روی وظایف قابل تأیید آموزش داده شدهاند، تعمیم قویای را به حوزههای خلاقانه نشان دادهاند - نتیجهای که به ساختار و دقت تعبیه شده در گردشهای کاری آموزش ریاضی نسبت داده میشود.
این برای رهبران فنی، مهندسان داده و تصمیم گیرندگان سازمانی چه معنایی دارد
برای سرپرستان فنی که چرخه حیات مدلهای زبانی بزرگ را مدیریت میکنند - از انتخاب داده تا استقرار - Seed-Thinking-v1.5 فرصتی را برای بازنگری در نحوه ادغام قابلیتهای استدلال در پشتههای هوش مصنوعی سازمانی ارائه میدهد.
فرایند آموزش مدولار آن، که شامل مجموعههای داده استدلال قابل تأیید و یادگیری تقویتی چند فازی است، به ویژه برای تیمهایی که به دنبال مقیاس بندی توسعه LLM هستند در حالی که کنترل دقیق را حفظ میکنند، جذاب است.
اقدامات ByteDance برای معرفی Seed-Verifier و Seed-Thinking-Verifier مکانیسمهایی را برای مدلسازی پاداش قابل اعتمادتر ارائه میدهد که میتواند هنگام استقرار مدلها در محیطهای رو به مشتری یا تنظیمشده، بسیار مهم باشد.
برای تیمهایی که اغلب تحت ضربالاجلهای فشرده و پهنای باند محدود فعالیت میکنند، پایداری مدل تحت یادگیری تقویتی - که توسط نوآوریهایی مانند VAPO و نمونهبرداری پویا فعال میشود - میتواند چرخههای تکرار را کاهش دهد و تنظیم دقیق را برای وظایف خاص ساده کند.
از منظر هماهنگی و استقرار، رویکرد زیرساخت ترکیبی مدل - از جمله سیستم استریمینگ Rollout (SRS) و پشتیبانی از بهینه سازی FP8 - نشان دهنده دستاوردهای قابل توجهی در توان عملیاتی آموزش و استفاده از سخت افزار است.
این ویژگیها برای مهندسانی که مسئول مقیاس بندی عملیات LLM در سیستمهای ابری و داخلی هستند ارزشمند خواهد بود. این واقعیت که Seed-Thinking-v1.5 با مکانیسمهایی برای تطبیق بازخورد پاداش بر اساس پویاییهای زمان اجرا آموزش داده شده است، مستقیماً به چالشهای مدیریت خطوط لوله داده ناهمگن و حفظ سازگاری در حوزهها اشاره دارد.
برای تیمهایی که وظیفه اطمینان از قابلیت اطمینان، قابلیت تکثیر و ادغام مداوم ابزارهای جدید را دارند، طراحی سطح سیستم Seed-Thinking-v1.5 میتواند به عنوان یک طرح برای ساخت سیستمهای هماهنگی قوی و چندوجهی عمل کند.
برای متخصصان مهندسی داده، رویکرد ساختاریافته برای دادههای آموزشی - از جمله فیلتر کردن دقیق، افزایش و تأیید متخصص - اهمیت کیفیت دادهها را به عنوان یک ضربکننده عملکرد مدل تقویت میکند. این میتواند رویکردهای سنجیدهتری را برای توسعه مجموعه دادهها و خطوط لوله اعتبارسنجی الهام بخشد.
چشم انداز آینده
Seed-Thinking-v1.5 نتیجه همکاری در تیم سیستمهای Seed LLM ByteDance است که توسط Yonghui Wu رهبری میشود و Haibin Lin، یک مشارکت کننده قدیمی هوش مصنوعی، نماینده عمومی آن است.
این پروژه همچنین از تلاشهای قبلی مانند Doubao 1.5 Pro استفاده میکند و تکنیکهای مشترک در RLHF و انتخاب داده را در خود جای میدهد.
با نگاهی به آینده، این تیم قصد دارد به اصلاح تکنیکهای یادگیری تقویتی ادامه دهد و بر کارایی آموزش و مدلسازی پاداش برای وظایف غیرقابل تأیید تمرکز دارد. انتشار عمومی معیارهای داخلی مانند BeyondAIME در نظر گرفته شده است تا پیشرفت گستردهتری را در تحقیقات هوش مصنوعی متمرکز بر استدلال ایجاد کند.