چارچوب SYMBOLIC-MOE
چارچوب SYMBOLIC-MOE

SYMBOLIC-MOE: چارچوب ترکیب خبرگان (MoE) برای ترکیب تطبیقی در سطح نمونه از خبرگان از پیش آموزش دیده LLM

مدل‌های زبانی بزرگ (LLM) نیز مانند انسان‌ها، اغلب مهارت‌ها و نقاط قوت متفاوتی دارند که از تفاوت در معماری و رژیم‌های آموزشی آن‌ها ناشی می‌شود. با این حال، آن‌ها برای ترکیب تخصص‌های تخصصی در حوزه‌های مختلف تلاش می‌کنند، که در مقایسه با انسان‌ها، قابلیت‌های حل مسئله آن‌ها را محدود می‌کند. مدل‌های تخصصی مانند MetaMath، WizardMath و QwenMath در استدلال ریاضی عالی هستند، اما اغلب در وظایفی که نیاز به عقل سلیم یا دانش پزشکی دارند، عملکرد ضعیفی دارند. حتی در حوزه‌های خاص مانند ریاضیات، مدل‌ها تغییرات ظریفی را در قابلیت نشان می‌دهند، به عنوان مثال، یکی ممکن است در جبر عالی باشد در حالی که دیگری بر هندسه تسلط دارد. این امر نیاز به چارچوب‌هایی را ایجاد می‌کند که بتوانند مناسب‌ترین مدل‌های خبره را برای مسائل خاص شناسایی و انتخاب کنند.

رویکردهای موجود مانند مدل‌های Mixture-of-Experts (MoE) محاسبات را در بین چندین جزء تخصصی توزیع می‌کنند و اخیراً بر رویکردهای پراکنده تأکید شده است که تنها مرتبط‌ترین متخصصان را در هر ورودی فعال می‌کنند. روش Sparse MoE (SMoE) کارایی را در بین بینایی، زبان و وظایف چندوجهی بهبود بخشیده است، اما نیاز به ترکیب مدل‌ها در فضای پارامتر از طریق آموزش مشترک دارد. چارچوب‌های جدیدتر مانند MoA (Mixture-of-Agents) تلاش می‌کنند تا با ترکیب نمادین خروجی‌های LLM، این مشکل را برطرف کنند. علاوه بر این، رویکردهای استدلال چندعاملی به عنوان جایگزینی ظهور کرده‌اند، مانند تکنیک دانش‌آموز-معلم که قابلیت‌های استدلال را از عوامل قوی‌تر به ضعیف‌تر تقطیر می‌کند، در حالی که چارچوب‌های مناظره به چندین عامل اجازه می‌دهند تا استدلال‌ها را به طور جمعی اصلاح کنند.

محققان UNC Chapel Hill، SYMBOLIC-MOE را پیشنهاد کرده‌اند، یک چارچوب نمادین، مبتنی بر متن و بدون گرادیان Mixture-of-Experts برای فعال کردن ترکیب تطبیقی در سطح نمونه از خبرگان از پیش آموزش دیده LLM. این چارچوب با تأکید بر مهارت‌های تخصصی در حوزه‌های گسترده‌تر مانند جبر در ریاضیات یا زیست‌شناسی مولکولی در استدلال زیست‌پزشکی، دیدگاه دقیقی را اتخاذ می‌کند. آن‌ها همچنین یک استراتژی استخدام مبتنی بر مهارت را معرفی کردند که به طور پویا مرتبط‌ترین LLMهای خبره را برای هر وظیفه استدلال خاص بر اساس نقاط قوت نشان داده شده آن‌ها انتخاب می‌کند. علاوه بر این، SYMBOLIC-MOE از LLMهای قوی مانند GPT4o-mini و همچنین رویکردهای چندعاملی بهتر عمل می‌کند و به طور متوسط ​​8.15٪ بهبود مطلق نسبت به بهترین خط پایه چندعاملی دارد.

SYMBOLIC-MOE از سه مرحله تشکیل شده است: ایجاد پروفایل مدل و انتخاب جمع‌کننده و پس از آن استخدام متخصص و تولید پاسخ نهایی، که هر دو در طول استنتاج انجام می‌شوند. برای به حداکثر رساندن توان عملیاتی و کارایی، SYMBOLIC-MOE یک استراتژی دسته‌ای نوآورانه را معرفی می‌کند که در آن همه نمونه‌ها ابتدا برای تعیین اینکه کدام LLMها مورد نیاز خواهند بود، تجزیه و تحلیل می‌شوند. سپس سیستم به طور هوشمندانه نمونه‌های مسئله را بر اساس متخصصان مورد نیازشان گروه‌بندی می‌کند، و به هر مدل متخصص فعال اجازه می‌دهد تا همه نمونه‌های مرتبط را در یک دسته واحد دریافت کند و اطمینان حاصل شود که هر متخصص فقط یک بار بارگیری می‌شود. این راه حل امکان استنتاج دسته‌ای کارآمد را بر روی یک GPU واحد فراهم می‌کند و در عین حال از مجموعه متنوعی از 16 LLM پشتیبانی می‌کند و انعطاف‌پذیری برای افزودن GPUهای بیشتر برای موازی‌سازی بیشتر را دارد.

SYMBOLIC-MOE عملکرد استثنایی را در معیارهای مختلف نشان می‌دهد. این چارچوب به طور مداوم از همه رویکردهای خط پایه بهتر عمل می‌کند و از استراتژی‌های تک‌مدلی، مناظره‌های چندعاملی با یک مدل واحد و چارچوب‌های چندمدلی چندعاملی مانند MoA و ReConcile فراتر می‌رود. این چارچوب از قوی‌ترین خط پایه چندعاملی (Self-MoA) با 8.15٪ بهبود متوسط ​​مطلق، 8.28٪ در MMLU-Pro، 13.45٪ در AIME، 4.92٪ در GPQA و 6.08٪ در MedMCQA فراتر می‌رود. SYMBOLIC-MOE با استفاده از چهار مدل پارامتر 7-8B، عملکردی قابل مقایسه یا برتر از مدل‌های بزرگ‌تر با پارامترهای 70B به دست می‌آورد. این چارچوب در AIME و GPQA از Llama3.3 70B بهتر عمل می‌کند و در MedMCQA عملکردی مشابه دارد. آزمایش‌های کارایی نشان می‌دهد که این چارچوب 44 درصد سریع‌تر روی یک GPU واحد نسبت به MoA عمل می‌کند در حالی که دقت بهتری نیز به دست می‌آورد.

در نتیجه، محققان SYMBOLIC-MOE را معرفی کردند، یک چارچوب MoE مقیاس‌پذیر که مدل‌ها را از طریق خروجی نمادین آن‌ها ترکیب می‌کند. این روش مهارت‌های مورد نیاز برای یک مسئله معین را شناسایی می‌کند و عوامل را بر اساس آن مهارت‌ها استخدام می‌کند تا در مورد یک ورودی معین به بحث بپردازند. SYMBOLIC-MOE از روش‌های مقیاس‌بندی زمان استنتاج استاندارد و همچنین سایر چارچوب‌های مناظره و سایر روش‌های mixture-of-agents بهتر عمل می‌کند و منجر به عملکرد قوی در حوزه‌های مختلف بدون مداخله انسانی می‌شود. عملکرد متوسط ​​آن در بین وظایف ناهمگن در واقع قوی‌تر از مدل‌های اختصاصی پیشرفته مانند GPT4o-mini است. با این حال، این روش محدودیت‌هایی دارد: (الف) این روش شامل اجرای چندین مدل است که هزینه استنتاج را افزایش می‌دهد، و (ب) به مهارت‌های استنباط شده از یک مجموعه اعتبارسنجی کوچک برای تنظیم پروفایل‌های عامل متکی است.


مقاله و صفحه GitHub را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد.