اعتبار: VentureBeat ساخته شده با Midjourney
اعتبار: VentureBeat ساخته شده با Midjourney

مدل متن‌باز جدید Alibaba با نام QwQ-32B با نیازهای محاسباتی بسیار کمتر، با DeepSeek-R1 رقابت می‌کند

بازدید از وب‌سایت‌های هوش مصنوعی
<em>اعتبار</em>: <em>SimilarWeb, روندهای جهانی بخش هوش مصنوعی جهانی در هوش مصنوعی مولد</em>
معیارهای QwQ-32B

برای دریافت آخرین به‌روزرسانی‌ها و محتوای اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت، در خبرنامه‌های روزانه و هفتگی ما عضو شوید. بیشتر بدانید


تیم Qwen، بخشی از غول تجارت الکترونیک چینی Alibaba که خانواده رو به رشد مدل‌های زبانی بزرگ Qwen (LLM) متن‌باز خود را توسعه می‌دهد، QwQ-32B را معرفی کرده است، یک مدل استدلال ۳۲ میلیارد پارامتری جدید که برای بهبود عملکرد در وظایف پیچیده حل مسئله از طریق یادگیری تقویتی (RL) طراحی شده است.

این مدل به عنوان وزن باز در Hugging Face و در ModelScope تحت مجوز Apache 2.0 در دسترس است. این بدان معناست که برای استفاده‌های تجاری و تحقیقاتی در دسترس است، بنابراین شرکت‌ها می‌توانند بلافاصله از آن برای تقویت محصولات و برنامه‌های خود (حتی مواردی که برای استفاده از آنها از مشتریان هزینه دریافت می‌کنند) استفاده کنند.

همچنین از طریق Qwen Chat برای کاربران فردی قابل دسترسی است.

Quan-with-Questions پاسخ Alibaba به مدل استدلال اصلی o1 شرکت OpenAI بود

QwQ، مخفف Qwen-with-Questions، اولین بار توسط Alibaba در نوامبر ۲۰۲۴ به عنوان یک مدل استدلال متن‌باز با هدف رقابت با o1-preview شرکت OpenAI معرفی شد.

در زمان عرضه، این مدل برای افزایش استدلال منطقی و برنامه‌ریزی با بررسی و اصلاح پاسخ‌های خود در طول استنتاج طراحی شده بود، تکنیکی که آن را به ویژه در وظایف ریاضی و کدنویسی مؤثر می‌ساخت.

نسخه اولیه QwQ دارای ۳۲ میلیارد پارامتر و طول متن ۳۲۰۰۰ توکنی بود و Alibaba بر توانایی آن در عملکرد بهتر از o1-preview در معیارهای ریاضی مانند AIME و MATH و همچنین وظایف استدلال علمی مانند GPQA تأکید کرد.

با وجود نقاط قوتش، تکرارهای اولیه QwQ با معیارهای برنامه‌نویسی مانند LiveCodeBench دست و پنجه نرم می‌کرد، جایی که مدل‌های OpenAI برتری خود را حفظ می‌کردند. علاوه بر این، مانند بسیاری از مدل‌های استدلال نوظهور، QwQ با چالش‌هایی مانند ترکیب زبان و حلقه‌های استدلال دایره‌ای گاه به گاه مواجه بود.

با این حال، تصمیم Alibaba برای انتشار این مدل تحت مجوز Apache 2.0 تضمین کرد که توسعه‌دهندگان و شرکت‌ها می‌توانند آزادانه آن را تطبیق داده و تجاری‌سازی کنند، و آن را از جایگزین‌های اختصاصی مانند o1 شرکت OpenAI متمایز می‌کند.

از زمان انتشار اولیه QwQ، چشم‌انداز هوش مصنوعی به سرعت تکامل یافته است. محدودیت‌های LLMهای سنتی آشکارتر شده است و قوانین مقیاس‌بندی بازدهی کاهشی در بهبود عملکرد دارند.

این تغییر علاقه به مدل‌های استدلال بزرگ (LRM) را افزایش داده است - یک دسته جدید از سیستم‌های هوش مصنوعی که از استدلال زمان استنتاج و خوداندیشی برای افزایش دقت استفاده می‌کنند. این موارد شامل سری o3 شرکت OpenAI و DeepSeek-R1 بسیار موفق از آزمایشگاه رقیب چینی DeepSeek، شاخه‌ای از شرکت تحلیل کمی هنگ کنگی High-Flyer Capital Management است.

QwQ-32B، جدیدترین تکرار Alibaba، با ادغام RL و خودپرسشگری ساختاریافته، بر این پیشرفت‌ها تکیه می‌کند و آن را به عنوان یک رقیب جدی در زمینه رو به رشد هوش مصنوعی متمرکز بر استدلال قرار می‌دهد.

مقیاس‌بندی عملکرد با یادگیری تقویتی چند مرحله‌ای

مدل‌های تنظیم‌شده با دستورالعمل سنتی اغلب با وظایف استدلال دشوار دست و پنجه نرم می‌کنند، اما تحقیقات تیم Qwen نشان می‌دهد که RL می‌تواند به طور قابل توجهی توانایی یک مدل در حل مسائل پیچیده را بهبود بخشد.

QwQ-32B با پیاده‌سازی یک رویکرد آموزش RL چند مرحله‌ای برای افزایش استدلال ریاضی، مهارت کدنویسی و حل مسئله عمومی، بر این ایده تکیه می‌کند.

این مدل در برابر جایگزین‌های پیشرو مانند DeepSeek-R1، o1-mini و DeepSeek-R1-Distilled-Qwen-32B محک زده شده است و نتایج رقابتی را با وجود پارامترهای کمتر نسبت به برخی از این مدل‌ها نشان می‌دهد.

به عنوان مثال، در حالی که DeepSeek-R1 با 671 میلیارد پارامتر (با 37 میلیارد فعال) کار می‌کند، QwQ-32B با ردپای بسیار کوچکتر به عملکرد قابل مقایسه دست می‌یابد - به طور معمول به 24 گیگابایت vRAM روی یک GPU نیاز دارد (H100های Nvidia دارای 80 گیگابایت هستند) در مقایسه با بیش از 1500 گیگابایت vRAM برای اجرای DeepSeek R1 کامل (16 پردازنده گرافیکی Nvidia A100) - کارایی رویکرد RL Qwen را برجسته می‌کند.

QwQ-32B از یک معماری مدل زبانی سببی پیروی می‌کند و شامل چندین بهینه‌سازی است:

  • 64 لایه ترانسفورماتور با RoPE، SwiGLU، RMSNorm و سوگیری توجه QKV.
  • توجه پرس و جوی تعمیم یافته (GQA) با 40 سر توجه برای پرس و جوها و 8 برای جفت‌های کلید-مقدار.
  • طول متن گسترده 131072 توکن، که امکان رسیدگی بهتر به ورودی‌های دنباله‌ای طولانی را فراهم می‌کند.
  • آموزش چند مرحله‌ای شامل پیش‌آموزش، تنظیم دقیق نظارت شده و RL.

فرآیند RL برای QwQ-32B در دو مرحله اجرا شد:

  1. تمرکز بر ریاضی و کدنویسی: این مدل با استفاده از یک تأیید کننده دقت برای استدلال ریاضی و یک سرور اجرای کد برای وظایف کدنویسی آموزش داده شد. این رویکرد تضمین کرد که پاسخ‌های تولید شده قبل از تقویت برای صحت اعتبارسنجی شوند.
  2. بهبود قابلیت‌های عمومی: در مرحله دوم، مدل با استفاده از مدل‌های پاداش عمومی و تأییدکننده‌های مبتنی بر قانون، آموزش مبتنی بر پاداش دریافت کرد. این مرحله پیروی از دستورالعمل، همسویی انسانی و استدلال عامل را بدون به خطر انداختن قابلیت‌های ریاضی و کدنویسی آن بهبود بخشید.

این برای تصمیم‌گیرندگان سازمانی چه معنایی دارد

برای رهبران سازمانی - از جمله مدیران عامل، مدیران ارشد فناوری اطلاعات، رهبران فناوری اطلاعات، مدیران تیم و توسعه‌دهندگان برنامه کاربردی هوش مصنوعی - QwQ-32B نشان‌دهنده یک تغییر بالقوه در نحوه پشتیبانی هوش مصنوعی از تصمیم‌گیری تجاری و نوآوری فنی است.

این مدل با قابلیت‌های استدلال مبتنی بر RL خود، می‌تواند بینش‌های دقیق‌تر، ساختاریافته‌تر و آگاهانه‌تر از زمینه را ارائه دهد و آن را برای موارد استفاده مانند تجزیه و تحلیل داده‌های خودکار، برنامه‌ریزی استراتژیک، توسعه نرم‌افزار و اتوماسیون هوشمند ارزشمند می‌سازد.

شرکت‌هایی که به دنبال استقرار راه حل‌های هوش مصنوعی برای حل مسئله پیچیده، کمک کدنویسی، مدل‌سازی مالی یا اتوماسیون خدمات مشتری هستند، ممکن است کارایی QwQ-32B را یک گزینه جذاب بدانند. علاوه بر این، در دسترس بودن وزن باز آن به سازمان‌ها اجازه می‌دهد تا مدل را برای برنامه‌های خاص دامنه بدون محدودیت‌های اختصاصی تنظیم و سفارشی کنند و آن را به انتخابی انعطاف‌پذیر برای استراتژی‌های هوش مصنوعی سازمانی تبدیل می‌کند.

این واقعیت که از یک غول تجارت الکترونیک چینی می‌آید، ممکن است نگرانی‌های امنیتی و سوگیری را برای برخی از کاربران غیر چینی، به ویژه هنگام استفاده از رابط Qwen Chat ایجاد کند. اما مانند DeepSeek-R1، این واقعیت که این مدل برای دانلود و استفاده آفلاین و تنظیم دقیق یا آموزش مجدد در Hugging Face در دسترس است، نشان می‌دهد که این موارد را می‌توان نسبتاً آسان غلبه کرد. و این یک جایگزین مناسب برای DeepSeek-R1 است.

واکنش‌های اولیه از کاربران قدرتمند هوش مصنوعی و اینفلوئنسرها

انتشار QwQ-32B از قبل مورد توجه جامعه تحقیق و توسعه هوش مصنوعی قرار گرفته است و چندین توسعه‌دهنده و متخصص صنعت برداشت‌های اولیه خود را در X (توئیتر سابق) به اشتراک گذاشته‌اند:

  • Vaibhav Srivastav (@reach_vb) از Hugging Face به لطف ارائه دهنده Hyperbolic Labs، سرعت QwQ-32B را در استنتاج برجسته کرد و آن را "به طرز سوزانی سریع" و قابل مقایسه با مدل‌های رده بالا خواند. او همچنین خاطرنشان کرد که این مدل "DeepSeek-R1 و OpenAI o1-mini را با مجوز Apache 2.0 شکست می‌دهد."
  • Chubby (@kimmonismus)، ناشر اخبار و شایعات هوش مصنوعی، تحت تأثیر عملکرد این مدل قرار گرفت و تأکید کرد که QwQ-32B گاهی اوقات عملکرد بهتری از DeepSeek-R1 دارد، علیرغم اینکه 20 برابر کوچکتر است. آنها نوشتند: «وای خدای من! Qwen پخت!»
  • Yuchen Jin (@Yuchenj_UW)، یکی از بنیانگذاران و مدیر ارشد فناوری Hyperbolic Labs، با اشاره به دستاوردهای کارایی، انتشار را جشن گرفت. «مدل‌های کوچک بسیار قدرتمند هستند! Alibaba Qwen QwQ-32B، یک مدل استدلال منتشر کرد که DeepSeek-R1 (671B) و OpenAI o1-mini را شکست می‌دهد!»
  • یکی دیگر از اعضای تیم Hugging Face، Erik Kaunismäki (@ErikKaum) بر سهولت استقرار تأکید کرد و به اشتراک گذاشت که این مدل برای استقرار با یک کلیک در نقاط پایانی Hugging Face در دسترس است و آن را برای توسعه‌دهندگان بدون تنظیمات گسترده در دسترس قرار می‌دهد.

قابلیت‌های عاملی

QwQ-32B قابلیت‌های عاملی را در خود جای داده است که به آن اجازه می‌دهد تا فرآیندهای استدلال را به صورت پویا بر اساس بازخورد محیطی تنظیم کند.

برای عملکرد بهینه، تیم Qwen استفاده از تنظیمات استنتاج زیر را توصیه می‌کند:

  • دما: 0.6
  • TopP: 0.95
  • TopK: بین 20-40
  • مقیاس‌بندی YaRN: برای رسیدگی به دنباله‌های طولانی‌تر از 32768 توکن توصیه می‌شود

این مدل از استقرار با استفاده از vLLM، یک چارچوب استنتاج با توان عملیاتی بالا پشتیبانی می‌کند. با این حال، پیاده‌سازی‌های فعلی vLLM فقط از مقیاس‌بندی YaRN استاتیک پشتیبانی می‌کنند، که یک عامل مقیاس‌بندی ثابت را صرف نظر از طول ورودی حفظ می‌کند.

تحولات آینده

تیم Qwen، QwQ-32B را اولین گام در مقیاس‌بندی RL برای افزایش قابلیت‌های استدلال می‌داند. در آینده، تیم قصد دارد:

  • به بررسی بیشتر مقیاس‌بندی RL برای بهبود هوش مدل بپردازد.
  • عامل‌ها را با RL برای استدلال با افق طولانی ادغام کند.
  • به توسعه مدل‌های پایه بهینه‌سازی شده برای RL ادامه دهد.
  • از طریق تکنیک‌های آموزش پیشرفته‌تر به سمت هوش مصنوعی عمومی (AGI) حرکت کند.

تیم Qwen با QwQ-32B، RL را به عنوان محرک اصلی نسل بعدی مدل‌های هوش مصنوعی قرار می‌دهد و نشان می‌دهد که مقیاس‌بندی می‌تواند سیستم‌های استدلال بسیار کارآمد و مؤثر تولید کند.