برای دریافت آخرین بهروزرسانیها و محتوای اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت، در خبرنامههای روزانه و هفتگی ما عضو شوید. بیشتر بدانید
تیم Qwen، بخشی از غول تجارت الکترونیک چینی Alibaba که خانواده رو به رشد مدلهای زبانی بزرگ Qwen (LLM) متنباز خود را توسعه میدهد، QwQ-32B را معرفی کرده است، یک مدل استدلال ۳۲ میلیارد پارامتری جدید که برای بهبود عملکرد در وظایف پیچیده حل مسئله از طریق یادگیری تقویتی (RL) طراحی شده است.
این مدل به عنوان وزن باز در Hugging Face و در ModelScope تحت مجوز Apache 2.0 در دسترس است. این بدان معناست که برای استفادههای تجاری و تحقیقاتی در دسترس است، بنابراین شرکتها میتوانند بلافاصله از آن برای تقویت محصولات و برنامههای خود (حتی مواردی که برای استفاده از آنها از مشتریان هزینه دریافت میکنند) استفاده کنند.
همچنین از طریق Qwen Chat برای کاربران فردی قابل دسترسی است.
Quan-with-Questions پاسخ Alibaba به مدل استدلال اصلی o1 شرکت OpenAI بود
QwQ، مخفف Qwen-with-Questions، اولین بار توسط Alibaba در نوامبر ۲۰۲۴ به عنوان یک مدل استدلال متنباز با هدف رقابت با o1-preview شرکت OpenAI معرفی شد.
در زمان عرضه، این مدل برای افزایش استدلال منطقی و برنامهریزی با بررسی و اصلاح پاسخهای خود در طول استنتاج طراحی شده بود، تکنیکی که آن را به ویژه در وظایف ریاضی و کدنویسی مؤثر میساخت.
نسخه اولیه QwQ دارای ۳۲ میلیارد پارامتر و طول متن ۳۲۰۰۰ توکنی بود و Alibaba بر توانایی آن در عملکرد بهتر از o1-preview در معیارهای ریاضی مانند AIME و MATH و همچنین وظایف استدلال علمی مانند GPQA تأکید کرد.
با وجود نقاط قوتش، تکرارهای اولیه QwQ با معیارهای برنامهنویسی مانند LiveCodeBench دست و پنجه نرم میکرد، جایی که مدلهای OpenAI برتری خود را حفظ میکردند. علاوه بر این، مانند بسیاری از مدلهای استدلال نوظهور، QwQ با چالشهایی مانند ترکیب زبان و حلقههای استدلال دایرهای گاه به گاه مواجه بود.
با این حال، تصمیم Alibaba برای انتشار این مدل تحت مجوز Apache 2.0 تضمین کرد که توسعهدهندگان و شرکتها میتوانند آزادانه آن را تطبیق داده و تجاریسازی کنند، و آن را از جایگزینهای اختصاصی مانند o1 شرکت OpenAI متمایز میکند.
از زمان انتشار اولیه QwQ، چشمانداز هوش مصنوعی به سرعت تکامل یافته است. محدودیتهای LLMهای سنتی آشکارتر شده است و قوانین مقیاسبندی بازدهی کاهشی در بهبود عملکرد دارند.
این تغییر علاقه به مدلهای استدلال بزرگ (LRM) را افزایش داده است - یک دسته جدید از سیستمهای هوش مصنوعی که از استدلال زمان استنتاج و خوداندیشی برای افزایش دقت استفاده میکنند. این موارد شامل سری o3 شرکت OpenAI و DeepSeek-R1 بسیار موفق از آزمایشگاه رقیب چینی DeepSeek، شاخهای از شرکت تحلیل کمی هنگ کنگی High-Flyer Capital Management است.
QwQ-32B، جدیدترین تکرار Alibaba، با ادغام RL و خودپرسشگری ساختاریافته، بر این پیشرفتها تکیه میکند و آن را به عنوان یک رقیب جدی در زمینه رو به رشد هوش مصنوعی متمرکز بر استدلال قرار میدهد.
مقیاسبندی عملکرد با یادگیری تقویتی چند مرحلهای
مدلهای تنظیمشده با دستورالعمل سنتی اغلب با وظایف استدلال دشوار دست و پنجه نرم میکنند، اما تحقیقات تیم Qwen نشان میدهد که RL میتواند به طور قابل توجهی توانایی یک مدل در حل مسائل پیچیده را بهبود بخشد.
QwQ-32B با پیادهسازی یک رویکرد آموزش RL چند مرحلهای برای افزایش استدلال ریاضی، مهارت کدنویسی و حل مسئله عمومی، بر این ایده تکیه میکند.
این مدل در برابر جایگزینهای پیشرو مانند DeepSeek-R1، o1-mini و DeepSeek-R1-Distilled-Qwen-32B محک زده شده است و نتایج رقابتی را با وجود پارامترهای کمتر نسبت به برخی از این مدلها نشان میدهد.
به عنوان مثال، در حالی که DeepSeek-R1 با 671 میلیارد پارامتر (با 37 میلیارد فعال) کار میکند، QwQ-32B با ردپای بسیار کوچکتر به عملکرد قابل مقایسه دست مییابد - به طور معمول به 24 گیگابایت vRAM روی یک GPU نیاز دارد (H100های Nvidia دارای 80 گیگابایت هستند) در مقایسه با بیش از 1500 گیگابایت vRAM برای اجرای DeepSeek R1 کامل (16 پردازنده گرافیکی Nvidia A100) - کارایی رویکرد RL Qwen را برجسته میکند.
QwQ-32B از یک معماری مدل زبانی سببی پیروی میکند و شامل چندین بهینهسازی است:
- 64 لایه ترانسفورماتور با RoPE، SwiGLU، RMSNorm و سوگیری توجه QKV.
- توجه پرس و جوی تعمیم یافته (GQA) با 40 سر توجه برای پرس و جوها و 8 برای جفتهای کلید-مقدار.
- طول متن گسترده 131072 توکن، که امکان رسیدگی بهتر به ورودیهای دنبالهای طولانی را فراهم میکند.
- آموزش چند مرحلهای شامل پیشآموزش، تنظیم دقیق نظارت شده و RL.
فرآیند RL برای QwQ-32B در دو مرحله اجرا شد:
- تمرکز بر ریاضی و کدنویسی: این مدل با استفاده از یک تأیید کننده دقت برای استدلال ریاضی و یک سرور اجرای کد برای وظایف کدنویسی آموزش داده شد. این رویکرد تضمین کرد که پاسخهای تولید شده قبل از تقویت برای صحت اعتبارسنجی شوند.
- بهبود قابلیتهای عمومی: در مرحله دوم، مدل با استفاده از مدلهای پاداش عمومی و تأییدکنندههای مبتنی بر قانون، آموزش مبتنی بر پاداش دریافت کرد. این مرحله پیروی از دستورالعمل، همسویی انسانی و استدلال عامل را بدون به خطر انداختن قابلیتهای ریاضی و کدنویسی آن بهبود بخشید.
این برای تصمیمگیرندگان سازمانی چه معنایی دارد
برای رهبران سازمانی - از جمله مدیران عامل، مدیران ارشد فناوری اطلاعات، رهبران فناوری اطلاعات، مدیران تیم و توسعهدهندگان برنامه کاربردی هوش مصنوعی - QwQ-32B نشاندهنده یک تغییر بالقوه در نحوه پشتیبانی هوش مصنوعی از تصمیمگیری تجاری و نوآوری فنی است.
این مدل با قابلیتهای استدلال مبتنی بر RL خود، میتواند بینشهای دقیقتر، ساختاریافتهتر و آگاهانهتر از زمینه را ارائه دهد و آن را برای موارد استفاده مانند تجزیه و تحلیل دادههای خودکار، برنامهریزی استراتژیک، توسعه نرمافزار و اتوماسیون هوشمند ارزشمند میسازد.
شرکتهایی که به دنبال استقرار راه حلهای هوش مصنوعی برای حل مسئله پیچیده، کمک کدنویسی، مدلسازی مالی یا اتوماسیون خدمات مشتری هستند، ممکن است کارایی QwQ-32B را یک گزینه جذاب بدانند. علاوه بر این، در دسترس بودن وزن باز آن به سازمانها اجازه میدهد تا مدل را برای برنامههای خاص دامنه بدون محدودیتهای اختصاصی تنظیم و سفارشی کنند و آن را به انتخابی انعطافپذیر برای استراتژیهای هوش مصنوعی سازمانی تبدیل میکند.
این واقعیت که از یک غول تجارت الکترونیک چینی میآید، ممکن است نگرانیهای امنیتی و سوگیری را برای برخی از کاربران غیر چینی، به ویژه هنگام استفاده از رابط Qwen Chat ایجاد کند. اما مانند DeepSeek-R1، این واقعیت که این مدل برای دانلود و استفاده آفلاین و تنظیم دقیق یا آموزش مجدد در Hugging Face در دسترس است، نشان میدهد که این موارد را میتوان نسبتاً آسان غلبه کرد. و این یک جایگزین مناسب برای DeepSeek-R1 است.
واکنشهای اولیه از کاربران قدرتمند هوش مصنوعی و اینفلوئنسرها
انتشار QwQ-32B از قبل مورد توجه جامعه تحقیق و توسعه هوش مصنوعی قرار گرفته است و چندین توسعهدهنده و متخصص صنعت برداشتهای اولیه خود را در X (توئیتر سابق) به اشتراک گذاشتهاند:
- Vaibhav Srivastav (@reach_vb) از Hugging Face به لطف ارائه دهنده Hyperbolic Labs، سرعت QwQ-32B را در استنتاج برجسته کرد و آن را "به طرز سوزانی سریع" و قابل مقایسه با مدلهای رده بالا خواند. او همچنین خاطرنشان کرد که این مدل "DeepSeek-R1 و OpenAI o1-mini را با مجوز Apache 2.0 شکست میدهد."
- Chubby (@kimmonismus)، ناشر اخبار و شایعات هوش مصنوعی، تحت تأثیر عملکرد این مدل قرار گرفت و تأکید کرد که QwQ-32B گاهی اوقات عملکرد بهتری از DeepSeek-R1 دارد، علیرغم اینکه 20 برابر کوچکتر است. آنها نوشتند: «وای خدای من! Qwen پخت!»
- Yuchen Jin (@Yuchenj_UW)، یکی از بنیانگذاران و مدیر ارشد فناوری Hyperbolic Labs، با اشاره به دستاوردهای کارایی، انتشار را جشن گرفت. «مدلهای کوچک بسیار قدرتمند هستند! Alibaba Qwen QwQ-32B، یک مدل استدلال منتشر کرد که DeepSeek-R1 (671B) و OpenAI o1-mini را شکست میدهد!»
- یکی دیگر از اعضای تیم Hugging Face، Erik Kaunismäki (@ErikKaum) بر سهولت استقرار تأکید کرد و به اشتراک گذاشت که این مدل برای استقرار با یک کلیک در نقاط پایانی Hugging Face در دسترس است و آن را برای توسعهدهندگان بدون تنظیمات گسترده در دسترس قرار میدهد.
قابلیتهای عاملی
QwQ-32B قابلیتهای عاملی را در خود جای داده است که به آن اجازه میدهد تا فرآیندهای استدلال را به صورت پویا بر اساس بازخورد محیطی تنظیم کند.
برای عملکرد بهینه، تیم Qwen استفاده از تنظیمات استنتاج زیر را توصیه میکند:
- دما: 0.6
- TopP: 0.95
- TopK: بین 20-40
- مقیاسبندی YaRN: برای رسیدگی به دنبالههای طولانیتر از 32768 توکن توصیه میشود
این مدل از استقرار با استفاده از vLLM، یک چارچوب استنتاج با توان عملیاتی بالا پشتیبانی میکند. با این حال، پیادهسازیهای فعلی vLLM فقط از مقیاسبندی YaRN استاتیک پشتیبانی میکنند، که یک عامل مقیاسبندی ثابت را صرف نظر از طول ورودی حفظ میکند.
تحولات آینده
تیم Qwen، QwQ-32B را اولین گام در مقیاسبندی RL برای افزایش قابلیتهای استدلال میداند. در آینده، تیم قصد دارد:
- به بررسی بیشتر مقیاسبندی RL برای بهبود هوش مدل بپردازد.
- عاملها را با RL برای استدلال با افق طولانی ادغام کند.
- به توسعه مدلهای پایه بهینهسازی شده برای RL ادامه دهد.
- از طریق تکنیکهای آموزش پیشرفتهتر به سمت هوش مصنوعی عمومی (AGI) حرکت کند.
تیم Qwen با QwQ-32B، RL را به عنوان محرک اصلی نسل بعدی مدلهای هوش مصنوعی قرار میدهد و نشان میدهد که مقیاسبندی میتواند سیستمهای استدلال بسیار کارآمد و مؤثر تولید کند.