انتشار GLM 4 توسط THUDM: مدل 32 میلیارد پارامتری که با GPT-4o و DeepSeek-V3 رقابت می‌کند

در چشم‌انداز به سرعت در حال تحول مدل‌های زبانی بزرگ (LLM)، محققان و سازمان‌ها با چالش‌های مهمی روبرو هستند. این چالش‌ها شامل افزایش توانایی‌های استدلال، ارائه پشتیبانی قوی چند زبانه و مدیریت کارآمد وظایف پیچیده و باز است. اگرچه مدل‌های کوچک‌تر اغلب در دسترس‌تر و مقرون به صرفه‌تر هستند، اما معمولاً در مقایسه با همتایان بزرگ‌تر خود، عملکرد کمتری دارند. از این رو، تأکید فزاینده‌ای بر توسعه مدل‌های متوسط ​​وجود دارد که به طور موثری تعادل بین کارایی محاسباتی و توانایی‌های قوی استدلال و پیروی از دستورالعمل را برقرار می‌کنند.

معماری GLM 4
معماری مدل GLM 4

انتشار اخیر GLM 4 از دانشگاه تسینگ‌هوا، به ویژه نوع GLM-Z1-32B-0414، به طور موثری به این چالش‌ها می‌پردازد. GLM 4 که بر روی مجموعه داده‌های قابل توجه 15 تریلیون توکن آموزش داده شده است، برای ارائه قابلیت‌های چند زبانه قابل اعتماد طراحی شده و استراتژی‌های استدلال نوآورانه‌ای را با عنوان "حالت تفکر" در خود جای داده است. این انتشار، GLM 4 را در کنار سایر مدل‌های قابل توجه مانند DeepSeek Distill، QwQ و O1-mini قرار می‌دهد و تحت مجوز MIT که به طور گسترده مورد احترام است، توزیع می‌شود. قابل توجه است که GLM 4، علی‌رغم اندازه پارامتر نسبتاً متوسط ​​32 میلیارد، عملکردی مشابه با مدل‌های بسیار بزرگ‌تر مانند GPT-4o و DeepSeek-V3 نشان می‌دهد که حاوی حداکثر 671 میلیارد پارامتر هستند، به ویژه در معیارهای متمرکز بر استدلال.

در سطح فنی، GLM-Z1-32B-0414 از داده‌های آموزشی با کیفیت بالا، از جمله وظایف استدلال تولید شده مصنوعی، برای تقویت قابلیت‌های تحلیلی استفاده می‌کند. این مدل تکنیک‌های پیچیده‌ای مانند نمونه‌گیری طرد (rejection sampling) و یادگیری تقویتی (RL) را برای بهبود عملکرد در وظایف مبتنی بر عامل، کدنویسی، فراخوانی تابع و وظایف پاسخ‌گویی به سوالات مبتنی بر جستجو، ادغام می‌کند. علاوه بر این، تغییر "مدل استدلال عمیق" با استفاده از روش‌های شروع سرد (cold-start methods) همراه با آموزش RL گسترده، به طور خاص وظایف پیچیده ریاضی، منطقی و کدنویسی را هدف قرار می‌دهد. مکانیزم‌های بازخورد رتبه‌بندی زوجی در طول آموزش برای افزایش اثربخشی استدلال عمومی مدل استفاده می‌شوند.

یک نوع پیشرفته، GLM-Z1-Rumination-32B-0414، رویکردی نوین به نام "rumination" را معرفی می‌کند که استدلال بازتابی طولانی‌مدت را برای مقابله با پرسش‌های پیچیده و باز مانند تحلیل شهری مبتنی بر هوش مصنوعی مقایسه‌ای، امکان‌پذیر می‌سازد. این نوع ابزارهای جستجوی پیشرفته را با یادگیری تقویتی چند هدفه ادغام می‌کند و به طور قابل توجهی سودمندی آن را در وظایف فشرده تحقیقاتی و سناریوهای پیچیده مبتنی بر بازیابی افزایش می‌دهد. نسخه GLM-Z1-9B-0414 با 9 میلیارد پارامتر، قابلیت‌های قوی ریاضی و استدلال عمومی را ارائه می‌دهد و کاربردی بودن مدل‌های مقیاس کوچک‌تر را نشان می‌دهد.

داده‌های عملکرد حاصل از ارزیابی‌های معیار، بر نقاط قوت سری GLM 4 تأکید دارند. به طور خاص، GLM-4-32B-0414 نتایج قوی در مقایسه با GPT-4o، DeepSeek-V3 و Qwen2.5-Max در چندین معیار نشان می‌دهد. در معیار پیروی از دستورالعمل IFEval، GLM 4 امتیاز چشمگیر 87.6 را کسب می‌کند. در معیارهای اتوماسیون وظایف مانند TAU-Bench، GLM 4 در سناریوهایی مانند خرده‌فروشی (68.7) و خطوط هوایی (51.2) امتیازات قوی کسب می‌کند. برای وظایف پاسخ‌گویی به سوالات تقویت‌شده با جستجو، همانطور که توسط SimpleQA ارزیابی شده است، مدل امتیاز بالایی 88.1 را ثبت می‌کند. علاوه بر این، GLM 4 عملکرد GPT-4o را در وظایف فراخوانی تابع که توسط معیار BFCL-v3 ارزیابی شده است، از نزدیک مطابقت می‌دهد و امتیاز کلی 69.6 را کسب می‌کند. در سناریوهای عملی تعمیر کد که از طریق SWE-bench با چارچوب Moatless آزمایش شده‌اند، GLM 4 به نرخ موفقیت 33.8٪ دست می‌یابد که بر ارزش عملی آن تأکید می‌کند.

به طور خلاصه، GLM 4 خود را به عنوان یک خانواده موثر از مدل‌های زبانی معرفی می‌کند که با موفقیت شکاف عملکرد بین مدل‌های کوچک‌تر و در دسترس‌تر و همتایان بزرگ‌تر و سنتی برتر را پر می‌کند. سری GLM-Z1، به ویژه نوع 32B، این رویکرد متوازن را با ارائه قابلیت‌های استدلال قدرتمند ضمن حفظ مقرون به صرفه بودن محاسباتی، نشان می‌دهد. GLM 4 با مزیت اضافی مجوز MIT خود، به عنوان ابزاری قوی برای برنامه‌های تحقیقاتی و سازمانی که به راهکارهای هوش مصنوعی با کارایی بالا بدون سربار محاسباتی گسترده مرتبط با مدل‌های بزرگ‌تر نیاز دارند، قرار گرفته است.