بازاندیشی در معماری‌های MoE: نگاهی سنجیده به رویکرد زنجیره خبرگان

مدل‌های زبانی بزرگ به طور قابل توجهی درک ما از هوش مصنوعی را پیشرفت داده‌اند، اما مقیاس‌بندی کارآمد این مدل‌ها همچنان چالش‌برانگیز است. معماری‌های سنتی ترکیب خبرگان (MoE) تنها زیرمجموعه‌ای از خبرگان را به ازای هر نشانه فعال می‌کنند تا در محاسبات صرفه‌جویی شود. با این حال، این طراحی منجر به دو مسئله قابل توجه می‌شود. اول اینکه، خبرگان نشانه‌ها را به صورت مجزا پردازش می‌کنند—هر متخصص به طور مستقل و بدون هیچ ارتباط متقابل کار می‌کند. این جداسازی می‌تواند توانایی مدل در بهره‌برداری از دیدگاه‌های متنوع در طول پردازش را محدود کند. دوم اینکه، اگرچه معماری‌های MoE از یک الگوی فعال‌سازی پراکنده استفاده می‌کنند، اما همچنان به حافظه قابل توجهی نیاز دارند، زیرا تعداد پارامترهای کلی زیاد است، حتی اگر تنها تعدادی از آنها در یک زمان فعال باشند. این چالش‌ها نشان می‌دهد که در حالی که مدل‌های MoE یک گام رو به جلو در مقیاس‌پذیری هستند، طراحی ذاتی آنها ممکن است هم عملکرد و هم کارایی منابع را محدود کند.

رویکرد زنجیره خبرگان (CoE)

زنجیره خبرگان (CoE) با معرفی مکانیزمی برای ارتباط متوالی بین خبرگان، یک بررسی مجدد متفکرانه از معماری‌های MoE ارائه می‌دهد. برخلاف پردازش مستقل که در مدل‌های سنتی MoE دیده می‌شود، CoE به نشانه‌ها اجازه می‌دهد تا در یک سری تکرار در هر لایه پردازش شوند. در این چیدمان، خروجی یک متخصص به عنوان ورودی متخصص بعدی عمل می‌کند، بنابراین یک زنجیره ارتباطی ایجاد می‌کند که به متخصصان اجازه می‌دهد تا بر روی کار یکدیگر بنا کنند. این تعامل متوالی به سادگی لایه‌ها را روی هم قرار نمی‌دهد؛ بلکه رویکردی یکپارچه‌تر برای پردازش نشانه را تسهیل می‌کند، جایی که هر متخصص تفسیر نشانه را بر اساس خروجی‌های قبلی اصلاح می‌کند. نتیجه یک مدل است که از پتانسیل همکاری متخصصان خود استفاده می‌کند و در عین حال هدف آن استفاده کارآمدتر از حافظه است.

تصویرسازی از فرآیند تکراری CoE — عملکرد داخلی CoE

نمودار مکانیزم دروازه‌بانی مستقل در CoE — مکانیزم دروازه‌بانی مستقل

جزئیات فنی و مزایا

در قلب روش CoE یک فرآیند تکراری قرار دارد که نحوه تعامل متخصصان را دوباره تعریف می‌کند. به عنوان مثال، یک پیکربندی را در نظر بگیرید که به عنوان CoE-2(4/64) توصیف می‌شود: مدل با دو تکرار به ازای هر نشانه کار می‌کند، با چهار متخصص که از مجموعه 64 متخصص موجود در هر چرخه انتخاب می‌شوند. این طراحی در تضاد با تنظیمات سنتی MoE است، که به یک بار عبور از طریق یک گروه از پیش انتخاب شده از متخصصان متکی است.

یک عنصر فنی کلیدی در CoE مکانیزم دروازه‌بانی مستقل است. در مدل‌های MoE مرسوم، تابع دروازه‌بانی انتخاب می‌کند که کدام متخصصان باید یک نشانه را پردازش کنند، اما این تصمیمات یک بار به ازای هر نشانه در هر لایه گرفته می‌شوند. CoE این ایده را با اجازه دادن به تصمیم دروازه‌بانی هر متخصص به طور مستقل در طول هر تکرار گسترش می‌دهد. این انعطاف‌پذیری شکلی از تخصص را تشویق می‌کند، جایی که یک متخصص می‌تواند پردازش خود را بر اساس اطلاعات دریافتی از تکرارهای قبلی تنظیم کند.

علاوه بر این، استفاده از اتصالات باقیمانده داخلی در CoE بیشتر مدل را بهبود می‌بخشد. به جای اینکه به سادگی نشانه اصلی را پس از کل توالی پردازش (یک اتصال باقیمانده بیرونی) اضافه کنیم، CoE اتصالات باقیمانده را در هر تکرار ادغام می‌کند. این طراحی به حفظ یکپارچگی اطلاعات نشانه کمک می‌کند و در عین حال امکان بهبودهای تدریجی را در هر مرحله فراهم می‌کند.

این نوآوری‌های فنی به طور جمعی به مدلی کمک می‌کنند که نه تنها عملکرد را با منابع کمتر حفظ می‌کند، بلکه یک مسیر پردازش ظریف‌تر نیز ارائه می‌دهد که می‌تواند به ویژه برای وظایفی که نیاز به استدلال لایه‌ای دارند، ارزشمند باشد.

نمودار مقایسه معیارهای عملکرد CoE و MoE سنتی — عملکرد CoE در مقابل MoE

نتایج تجربی و عملکرد

برای اعتبارسنجی رویکرد CoE، ارزیابی تجربی گسترده‌ای انجام شد که معیارهای عملکرد را با مدل‌های MoE سنتی مقایسه می‌کرد. نتایج نشان داد که CoE نه تنها عملکرد را حفظ می‌کند، بلکه به طور قابل توجهی از آن پیشی می‌گیرد، به ویژه در وظایف مربوط به استدلال و درک زبان. به طور قابل توجهی، CoE-2(4/64) به میزان 1.3% در Precision@1 در سراسر تنظیمات مختلف با استفاده از یک بودجه محاسباتی برابر، بر MoE پایه برتری داشت. این بهبود نشان می‌دهد که معماری CoE می‌تواند به طور موثرتری منابع را به وظایف پیچیده اختصاص دهد.

این مطالعه همچنین مزایای کارایی حافظه CoE را برجسته کرد. با تنها 11B پارامتر، CoE-2(4/64) با عملکردی قابل مقایسه با مدل‌های MoE بزرگتر که 15B پارامتر دارند، دست یافت. این نشان می‌دهد که با ایجاد ارتباطات متوالی متخصصان، CoE می‌تواند عملکرد رقابتی را با ردپای حافظه بسیار کوچکتر به دست آورد، و آن را به یک راه‌حل جذاب برای استقرار در محیط‌های محدود منابع تبدیل کند. همچنین، CoE از نظر نرخ انتقال بهتر است، که آن را برای استفاده گسترده‌تر از نظر تجاری مناسب‌تر می‌کند.

نتیجه‌گیری

معماری زنجیره خبرگان نشان‌دهنده یک پیشرفت قانع‌کننده در زمینه مدل‌های زبانی بزرگ است، که یک رویکرد متفکرانه برای ترکیب تخصص در داخل شبکه‌های عصبی ارائه می‌دهد. با اجازه دادن به متخصصان برای تعامل متوالی و ایجاد تخصص در فرآیند پردازش، CoE نه تنها کارایی منابع را بهبود می‌بخشد، بلکه عملکرد را در وظایف پیچیده افزایش می‌دهد. از نظر تجربی، CoE در مقایسه با مدل‌های MoE سنتی، عملکرد بهتری را نشان داد و پایه‌های بالقوه را برای نسل بعدی مدل‌های زبانی مقیاس‌پذیر ایجاد کرد.

همانطور که جامعه هوش مصنوعی به دنبال بهینه‌سازی عملکرد و کارایی مدل‌ها به طور یکسان است، رویکرد CoE یک مسیر امیدوارکننده است. توانایی دستیابی به عملکرد رقابتی با ردپای حافظه کوچکتر، CoE را به ویژه در یک زمینه آگاه از منابع جذاب می‌کند. در حالی که تحقیقات آینده ممکن است راه‌های بیشتری را برای بهبود و تنظیم دقیق معماری CoE کشف کند، در حال حاضر نمایانگر یک گام قابل توجه در جهت کارآمدتر و موثرتر ساختن مدل‌های زبانی بزرگ است.

https://www.marktechpost.com/2025/03/03/rethinking-moe-architectures-a-measured-look-at-the-chain-of-experts-approach/