تصویر: VentureBeat ساخته شده با ChatGPT
تصویر: VentureBeat ساخته شده با ChatGPT

اکنون نوبت ByteDance، شرکت مادر TikTok، برای هوش مصنوعی استدلالی است: Seed-Thinking-v1.5 وارد می‌شود!

همه چیز با معرفی مدل o1 OpenAI در سپتامبر ۲۰۲۴ شروع شد، اما با DeepSeek R1 که در ژانویه ۲۰۲۵ منتشر شد، واقعاً اوج گرفت.

به نظر می‌رسد که اکثر ارائه‌دهندگان و آموزش‌دهندگان مدل‌های هوش مصنوعی بزرگ در یک رقابت جدید برای ارائه مدل‌های زبانی هوش مصنوعی «استدلالی» بهتر، سریع‌تر، ارزان‌تر، مقرون به صرفه‌تر یا قدرتمندتر و با عملکرد بهتر هستند - مدل‌هایی که ممکن است کمی بیشتر طول بکشد تا به یک کاربر انسانی پاسخ دهند، اما در حالت ایده‌آل با پاسخ‌های بهتر، جامع‌تر و «استدلالی‌تر» این کار را انجام دهند، که این دسته از مدل‌ها با انجام «زنجیره تفکر»، تفکر در مورد نتایج خود و بررسی صحت آن‌ها قبل از پاسخ دادن به دست می‌آورند.

ByteDance، شرکت رسانه‌ای اینترنتی چینی و مادر TikTok، آخرین شرکتی است که با اعلام و انتشار مقاله فنی در مورد Seed-Thinking-v1.5، یک مدل زبانی بزرگ (LLM) که برای پیشرفت عملکرد استدلالی در زمینه‌های علوم، فناوری، مهندسی و ریاضیات (STEM) و حوزه‌های عمومی طراحی شده است، به این جمع پیوسته است.

این مدل هنوز برای دانلود یا استفاده در دسترس نیست و مشخص نیست که شرایط مجوز آن چگونه خواهد بود - آیا اختصاصی/متن بسته خواهد بود یا متن باز/رایگان برای استفاده و اصلاح توسط همه، یا چیزی بین این دو. اما مقاله فنی جزئیات قابل توجهی را ارائه می‌دهد که ارزش بررسی در حال حاضر را دارد تا زمانی که در دسترس قرار گیرد.

ساخته شده بر اساس معماری محبوب Mixture-of-Experts (MoE)

مانند Llama 4 جدید متا و Mixtral شرکت میسترال، Seed-Thinking-v1.5 با استفاده از معماری Mixture-of-Experts (MoE) ساخته شده است.

این معماری برای کارآمدتر کردن مدل‌ها طراحی شده است و اساساً قابلیت‌های چندین مدل را در یک مدل ترکیب می‌کند، به طوری که هر مدل در یک دامنه متفاوت تخصص دارد.

در این مورد، معماری MoE به این معنی است که Seed-Thinking-v1.5 فقط از ۲۰ میلیارد پارامتر در یک زمان از مجموع ۲۰۰ میلیارد استفاده می‌کند.

ByteDance در مقاله فنی منتشر شده در GitHub می‌گوید که Seed-Thinking-v1.5 اولویت را به استدلال ساختاریافته و تولید پاسخ متفکرانه می‌دهد.

تصویر از نتایج بنچمارک Seed-Thinking-v1.5
نتایج بنچمارک Seed-Thinking-v1.5

نتایج تقریباً گویای خود هستند، به طوری که Seed-Thinking-v1.5 عملکرد بهتری از DeepSeek R1 دارد و به Gemini 2.5 Pro تازه منتشر شده گوگل و o3-mini-high reasoner OpenAI در بسیاری از ارزیابی‌های معیار شخص ثالث نزدیک می‌شود، حتی در مورد معیار ARC-AGI، که پیشرفت به سوی هوش مصنوعی عمومی را اندازه‌گیری می‌کند، از آن دو فراتر می‌رود - مدلی که در اکثر وظایف ارزشمند اقتصادی از انسان‌ها بهتر عمل می‌کند، طبق تعریف OpenAI.

Seed-Thinking-v1.5 به عنوان یک جایگزین فشرده و در عین حال توانمند برای مدل‌های بزرگتر و پیشرفته‌تر، به نتایج معیار رقابتی دست می‌یابد و نوآوری‌هایی را در یادگیری تقویتی (RL)، انتخاب داده‌های آموزشی و زیرساخت هوش مصنوعی معرفی می‌کند.

معیارهای عملکرد و تمرکز مدل

Seed-Thinking-v1.5 عملکرد قوی‌ای را در مجموعه‌ای از وظایف چالش‌برانگیز نشان می‌دهد و امتیاز 86.7٪ در AIME 2024، پاس 55.0٪ در Codeforces و 77.3٪ در معیار علمی GPQA کسب می‌کند. این نتایج آن را نزدیک به مدل‌هایی مانند o3-mini-high OpenAI و Gemini 2.5 Pro گوگل در معیارهای استدلال خاص قرار می‌دهد یا با آن‌ها مطابقت می‌دهد.

در وظایف غیر استدلالی، این مدل از طریق مقایسه‌های ترجیح انسانی ارزیابی شد و نرخ برد 8.0٪ بالاتری نسبت به DeepSeek R1 به دست آورد، که نشان می‌دهد نقاط قوت آن فراتر از چالش‌های سنگین منطق یا ریاضیات تعمیم می‌یابد.

برای رسیدگی به اشباع در معیارهای رایج مانند AIME، ByteDance BeyondAIME را معرفی کرد، یک معیار ریاضی جدید و سخت‌تر با مشکلات انتخاب شده که برای مقاومت در برابر حفظ کردن و تشخیص بهتر عملکرد مدل طراحی شده است. انتظار می‌رود این و مجموعه ارزیابی Codeforces به طور عمومی منتشر شوند تا از تحقیقات آینده پشتیبانی کنند.

استراتژی داده

داده‌های آموزشی نقش اساسی در توسعه مدل ایفا کردند. برای تنظیم دقیق نظارت شده (SFT)، تیم 400000 نمونه را انتخاب کرد، از جمله 300000 نمونه قابل تأیید (وظایف STEM، منطق و کدنویسی) و 100000 مشکل غیرقابل تأیید مانند نوشتن خلاقانه و ایفای نقش.

برای آموزش RL، داده‌ها به بخش‌های زیر تقسیم شدند:

  • مسائل قابل تأیید: 100000 سؤال STEM و پازل منطقی با پاسخ‌های شناخته شده که به طور دقیق فیلتر شده‌اند و از مسابقات نخبگان و بررسی متخصصان تهیه شده‌اند.
  • وظایف غیرقابل تأیید: مجموعه‌های داده ترجیح انسانی که بر روی اعلان‌های باز متمرکز شده‌اند و با استفاده از مدل‌های پاداش جفتی ارزیابی می‌شوند.

داده‌های STEM به شدت به ریاضیات پیشرفته تکیه داشتند و بیش از 80٪ از مجموعه مسائل را تشکیل می‌دادند. داده‌های منطقی اضافی شامل وظایفی مانند سودوکو و پازل‌های 24 نقطه‌ای با سختی قابل تنظیم برای مطابقت با پیشرفت مدل بود.

رویکرد یادگیری تقویتی

یادگیری تقویتی در Seed-Thinking-v1.5 توسط چارچوب‌های سفارشی بازیگر-منتقد (VAPO) و گرادیان سیاست (DAPO) پشتیبانی می‌شود که برای رفع ناپایداری‌های شناخته شده در آموزش RL توسعه یافته‌اند. این تکنیک‌ها بر کاهش پراکندگی سیگنال پاداش و افزایش ثبات آموزش، به ویژه در تنظیمات طولانی زنجیره تفکر (CoT) تمرکز دارند.

مدل‌های پاداش نقش مهمی در نظارت بر خروجی‌های RL ایفا می‌کنند. ByteDance دو ابزار کلیدی را معرفی کرد:

  • Seed-Verifier: یک LLM مبتنی بر قانون که بررسی می‌کند آیا پاسخ‌های تولید شده و مرجع از نظر ریاضی معادل هستند یا خیر.
  • Seed-Thinking-Verifier: یک قاضی مبتنی بر استدلال گام به گام که سازگاری قضاوت را بهبود می‌بخشد و در برابر هک کردن پاداش مقاومت می‌کند.

این سیستم پاداش دو لایه، ارزیابی ظریف را برای وظایف ساده و پیچیده امکان پذیر می‌کند.

زیرساخت و مقیاس بندی

برای پشتیبانی از آموزش در مقیاس بزرگ کارآمد، ByteDance سیستمی را بر روی چارچوب HybridFlow خود ایجاد کرد که اجرای آن توسط خوشه‌های Ray و فرآیندهای آموزش و استنتاج هم‌مکانی برای کاهش زمان بیکاری GPU انجام می‌شود.

یک نوآوری قابل توجه، سیستم استریمینگ Rollout (SRS) است که تکامل مدل را از اجرای زمان اجرا جدا می‌کند. این سیستم با مدیریت ناهمزمان نسل‌های نیمه‌کاره در نسخه‌های مدل، سرعت تکرار را تسریع می‌کند. گزارش شده است که این معماری تا 3 برابر چرخه‌های RL سریع‌تری را ارائه می‌دهد.

تکنیک‌های زیرساخت اضافی عبارتند از:

  • دقت ترکیبی (FP8) برای صرفه جویی در حافظه
  • موازی سازی متخصص و تنظیم خودکار هسته برای کارایی MoE
  • ByteCheckpoint برای چک پوینت انعطاف پذیر و مقاوم
  • AutoTuner برای بهینه سازی موازی سازی و پیکربندی‌های حافظه

ارزیابی انسانی و تأثیر دنیای واقعی

برای ارزیابی همسویی با ترجیحات انسان محور، ByteDance آزمایش انسانی را در طیف وسیعی از حوزه‌ها از جمله نوشتن خلاقانه، دانش علوم انسانی و مکالمه عمومی انجام داد.

Seed-Thinking-v1.5 به طور مداوم عملکرد بهتری نسبت به DeepSeek R1 در سراسر جلسات داشت و کاربرد آن را برای نیازهای کاربر در دنیای واقعی تقویت کرد.

تیم توسعه خاطرنشان می‌کند که مدل‌های استدلالی که عمدتاً بر روی وظایف قابل تأیید آموزش داده شده‌اند، تعمیم قوی‌ای را به حوزه‌های خلاقانه نشان داده‌اند - نتیجه‌ای که به ساختار و دقت تعبیه شده در گردش‌های کاری آموزش ریاضی نسبت داده می‌شود.

این برای رهبران فنی، مهندسان داده و تصمیم گیرندگان سازمانی چه معنایی دارد

برای سرپرستان فنی که چرخه حیات مدل‌های زبانی بزرگ را مدیریت می‌کنند - از انتخاب داده تا استقرار - Seed-Thinking-v1.5 فرصتی را برای بازنگری در نحوه ادغام قابلیت‌های استدلال در پشته‌های هوش مصنوعی سازمانی ارائه می‌دهد.

فرایند آموزش مدولار آن، که شامل مجموعه‌های داده استدلال قابل تأیید و یادگیری تقویتی چند فازی است، به ویژه برای تیم‌هایی که به دنبال مقیاس بندی توسعه LLM هستند در حالی که کنترل دقیق را حفظ می‌کنند، جذاب است.

اقدامات ByteDance برای معرفی Seed-Verifier و Seed-Thinking-Verifier مکانیسم‌هایی را برای مدل‌سازی پاداش قابل اعتمادتر ارائه می‌دهد که می‌تواند هنگام استقرار مدل‌ها در محیط‌های رو به مشتری یا تنظیم‌شده، بسیار مهم باشد.

برای تیم‌هایی که اغلب تحت ضرب‌الاجل‌های فشرده و پهنای باند محدود فعالیت می‌کنند، پایداری مدل تحت یادگیری تقویتی - که توسط نوآوری‌هایی مانند VAPO و نمونه‌برداری پویا فعال می‌شود - می‌تواند چرخه‌های تکرار را کاهش دهد و تنظیم دقیق را برای وظایف خاص ساده کند.

از منظر هماهنگی و استقرار، رویکرد زیرساخت ترکیبی مدل - از جمله سیستم استریمینگ Rollout (SRS) و پشتیبانی از بهینه سازی FP8 - نشان دهنده دستاوردهای قابل توجهی در توان عملیاتی آموزش و استفاده از سخت افزار است.

این ویژگی‌ها برای مهندسانی که مسئول مقیاس بندی عملیات LLM در سیستم‌های ابری و داخلی هستند ارزشمند خواهد بود. این واقعیت که Seed-Thinking-v1.5 با مکانیسم‌هایی برای تطبیق بازخورد پاداش بر اساس پویایی‌های زمان اجرا آموزش داده شده است، مستقیماً به چالش‌های مدیریت خطوط لوله داده ناهمگن و حفظ سازگاری در حوزه‌ها اشاره دارد.

برای تیم‌هایی که وظیفه اطمینان از قابلیت اطمینان، قابلیت تکثیر و ادغام مداوم ابزارهای جدید را دارند، طراحی سطح سیستم Seed-Thinking-v1.5 می‌تواند به عنوان یک طرح برای ساخت سیستم‌های هماهنگی قوی و چندوجهی عمل کند.

برای متخصصان مهندسی داده، رویکرد ساختاریافته برای داده‌های آموزشی - از جمله فیلتر کردن دقیق، افزایش و تأیید متخصص - اهمیت کیفیت داده‌ها را به عنوان یک ضرب‌کننده عملکرد مدل تقویت می‌کند. این می‌تواند رویکردهای سنجیده‌تری را برای توسعه مجموعه داده‌ها و خطوط لوله اعتبارسنجی الهام بخشد.

چشم انداز آینده

Seed-Thinking-v1.5 نتیجه همکاری در تیم سیستم‌های Seed LLM ByteDance است که توسط Yonghui Wu رهبری می‌شود و Haibin Lin، یک مشارکت کننده قدیمی هوش مصنوعی، نماینده عمومی آن است.

این پروژه همچنین از تلاش‌های قبلی مانند Doubao 1.5 Pro استفاده می‌کند و تکنیک‌های مشترک در RLHF و انتخاب داده را در خود جای می‌دهد.

با نگاهی به آینده، این تیم قصد دارد به اصلاح تکنیک‌های یادگیری تقویتی ادامه دهد و بر کارایی آموزش و مدل‌سازی پاداش برای وظایف غیرقابل تأیید تمرکز دارد. انتشار عمومی معیارهای داخلی مانند BeyondAIME در نظر گرفته شده است تا پیشرفت گسترده‌تری را در تحقیقات هوش مصنوعی متمرکز بر استدلال ایجاد کند.