مدلهای زبانی بزرگ (LLM) نیز مانند انسانها، اغلب مهارتها و نقاط قوت متفاوتی دارند که از تفاوت در معماری و رژیمهای آموزشی آنها ناشی میشود. با این حال، آنها برای ترکیب تخصصهای تخصصی در حوزههای مختلف تلاش میکنند، که در مقایسه با انسانها، قابلیتهای حل مسئله آنها را محدود میکند. مدلهای تخصصی مانند MetaMath، WizardMath و QwenMath در استدلال ریاضی عالی هستند، اما اغلب در وظایفی که نیاز به عقل سلیم یا دانش پزشکی دارند، عملکرد ضعیفی دارند. حتی در حوزههای خاص مانند ریاضیات، مدلها تغییرات ظریفی را در قابلیت نشان میدهند، به عنوان مثال، یکی ممکن است در جبر عالی باشد در حالی که دیگری بر هندسه تسلط دارد. این امر نیاز به چارچوبهایی را ایجاد میکند که بتوانند مناسبترین مدلهای خبره را برای مسائل خاص شناسایی و انتخاب کنند.
رویکردهای موجود مانند مدلهای Mixture-of-Experts (MoE) محاسبات را در بین چندین جزء تخصصی توزیع میکنند و اخیراً بر رویکردهای پراکنده تأکید شده است که تنها مرتبطترین متخصصان را در هر ورودی فعال میکنند. روش Sparse MoE (SMoE) کارایی را در بین بینایی، زبان و وظایف چندوجهی بهبود بخشیده است، اما نیاز به ترکیب مدلها در فضای پارامتر از طریق آموزش مشترک دارد. چارچوبهای جدیدتر مانند MoA (Mixture-of-Agents) تلاش میکنند تا با ترکیب نمادین خروجیهای LLM، این مشکل را برطرف کنند. علاوه بر این، رویکردهای استدلال چندعاملی به عنوان جایگزینی ظهور کردهاند، مانند تکنیک دانشآموز-معلم که قابلیتهای استدلال را از عوامل قویتر به ضعیفتر تقطیر میکند، در حالی که چارچوبهای مناظره به چندین عامل اجازه میدهند تا استدلالها را به طور جمعی اصلاح کنند.
محققان UNC Chapel Hill، SYMBOLIC-MOE را پیشنهاد کردهاند، یک چارچوب نمادین، مبتنی بر متن و بدون گرادیان Mixture-of-Experts برای فعال کردن ترکیب تطبیقی در سطح نمونه از خبرگان از پیش آموزش دیده LLM. این چارچوب با تأکید بر مهارتهای تخصصی در حوزههای گستردهتر مانند جبر در ریاضیات یا زیستشناسی مولکولی در استدلال زیستپزشکی، دیدگاه دقیقی را اتخاذ میکند. آنها همچنین یک استراتژی استخدام مبتنی بر مهارت را معرفی کردند که به طور پویا مرتبطترین LLMهای خبره را برای هر وظیفه استدلال خاص بر اساس نقاط قوت نشان داده شده آنها انتخاب میکند. علاوه بر این، SYMBOLIC-MOE از LLMهای قوی مانند GPT4o-mini و همچنین رویکردهای چندعاملی بهتر عمل میکند و به طور متوسط 8.15٪ بهبود مطلق نسبت به بهترین خط پایه چندعاملی دارد.
SYMBOLIC-MOE از سه مرحله تشکیل شده است: ایجاد پروفایل مدل و انتخاب جمعکننده و پس از آن استخدام متخصص و تولید پاسخ نهایی، که هر دو در طول استنتاج انجام میشوند. برای به حداکثر رساندن توان عملیاتی و کارایی، SYMBOLIC-MOE یک استراتژی دستهای نوآورانه را معرفی میکند که در آن همه نمونهها ابتدا برای تعیین اینکه کدام LLMها مورد نیاز خواهند بود، تجزیه و تحلیل میشوند. سپس سیستم به طور هوشمندانه نمونههای مسئله را بر اساس متخصصان مورد نیازشان گروهبندی میکند، و به هر مدل متخصص فعال اجازه میدهد تا همه نمونههای مرتبط را در یک دسته واحد دریافت کند و اطمینان حاصل شود که هر متخصص فقط یک بار بارگیری میشود. این راه حل امکان استنتاج دستهای کارآمد را بر روی یک GPU واحد فراهم میکند و در عین حال از مجموعه متنوعی از 16 LLM پشتیبانی میکند و انعطافپذیری برای افزودن GPUهای بیشتر برای موازیسازی بیشتر را دارد.
SYMBOLIC-MOE عملکرد استثنایی را در معیارهای مختلف نشان میدهد. این چارچوب به طور مداوم از همه رویکردهای خط پایه بهتر عمل میکند و از استراتژیهای تکمدلی، مناظرههای چندعاملی با یک مدل واحد و چارچوبهای چندمدلی چندعاملی مانند MoA و ReConcile فراتر میرود. این چارچوب از قویترین خط پایه چندعاملی (Self-MoA) با 8.15٪ بهبود متوسط مطلق، 8.28٪ در MMLU-Pro، 13.45٪ در AIME، 4.92٪ در GPQA و 6.08٪ در MedMCQA فراتر میرود. SYMBOLIC-MOE با استفاده از چهار مدل پارامتر 7-8B، عملکردی قابل مقایسه یا برتر از مدلهای بزرگتر با پارامترهای 70B به دست میآورد. این چارچوب در AIME و GPQA از Llama3.3 70B بهتر عمل میکند و در MedMCQA عملکردی مشابه دارد. آزمایشهای کارایی نشان میدهد که این چارچوب 44 درصد سریعتر روی یک GPU واحد نسبت به MoA عمل میکند در حالی که دقت بهتری نیز به دست میآورد.
در نتیجه، محققان SYMBOLIC-MOE را معرفی کردند، یک چارچوب MoE مقیاسپذیر که مدلها را از طریق خروجی نمادین آنها ترکیب میکند. این روش مهارتهای مورد نیاز برای یک مسئله معین را شناسایی میکند و عوامل را بر اساس آن مهارتها استخدام میکند تا در مورد یک ورودی معین به بحث بپردازند. SYMBOLIC-MOE از روشهای مقیاسبندی زمان استنتاج استاندارد و همچنین سایر چارچوبهای مناظره و سایر روشهای mixture-of-agents بهتر عمل میکند و منجر به عملکرد قوی در حوزههای مختلف بدون مداخله انسانی میشود. عملکرد متوسط آن در بین وظایف ناهمگن در واقع قویتر از مدلهای اختصاصی پیشرفته مانند GPT4o-mini است. با این حال، این روش محدودیتهایی دارد: (الف) این روش شامل اجرای چندین مدل است که هزینه استنتاج را افزایش میدهد، و (ب) به مهارتهای استنباط شده از یک مجموعه اعتبارسنجی کوچک برای تنظیم پروفایلهای عامل متکی است.
مقاله و صفحه GitHub را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه میرسد.