بازاندیشی در مسئله همکاری در مدلهای زبانی
مدلهای زبانی بزرگ (LLM) تواناییهای چشمگیری در وظایف تکعاملی مانند پاسخ به سؤالات و استدلال ساختاریافته از خود نشان دادهاند. با این حال، توانایی استدلال مشارکتی—جایی که چندین عامل با هم تعامل دارند، اختلاف نظر دارند و بر سر راهحلها به توافق میرسند—هنوز به اندازه کافی توسعه نیافته است. این شکل از تعامل در بسیاری از وظایف انسانی، از همکاری آکادمیک گرفته تا تصمیمگیری در زمینههای حرفهای، محوری است. با این وجود، بیشتر خطوط لوله آموزشی و معیارهای LLM بر خروجیهای مجزا و تکنوبتی متمرکز هستند و ابعاد اجتماعی حل مسئله مانند قاطعیت، دیدگاهگیری و ترغیب را نادیده میگیرند. یکی از چالشهای اصلی در پیشبرد قابلیتهای مشارکتی، فقدان مجموعهدادههای گفتگوی چندنوبتی با کیفیت بالا و مقیاسپذیر است که برای وظایف استدلال طراحی شدهاند.
معرفی Collaborative Reasoner توسط Meta AI: یک چارچوب ارزیابی و آموزش چندعاملی
برای رفع این محدودیت، Meta AI Collaborative Reasoner (Coral) را معرفی میکند—یک چارچوب که به طور خاص برای ارزیابی و بهبود مهارتهای استدلال مشارکتی در LLMها طراحی شده است. Coral مسائل استدلال سنتی را به وظایف چندعاملی و چندنوبتی تبدیل میکند، جایی که دو عامل نه تنها باید مسئلهای را حل کنند، بلکه از طریق گفتگوی طبیعی به اجماع برسند. این تعاملات، پویاییهای اجتماعی دنیای واقعی را شبیهسازی میکنند و مستلزم آن هستند که عوامل، نتایج نادرست را به چالش بکشند، در مورد دیدگاههای متضاد مذاکره کنند و به تصمیمات مشترک برسند.
این چارچوب شامل پنج حوزه است، از جمله ریاضیات (MATH)، سؤالات چندگزینهای STEM (MMLU-Pro, GPQA) و شناخت اجتماعی (ExploreToM, HiToM). این وظایف به عنوان بستری برای آزمایش این موضوع عمل میکنند که آیا مدلها میتوانند تواناییهای استدلال خود را در یک زمینه مشارکتی و مبتنی بر گفتگو به کار گیرند یا خیر.
روششناسی: همکاری مصنوعی و پشتیبانی زیرساختی
Coral معیارهای ارزیابی جدیدی را تعریف میکند که متناسب با تنظیمات چندعاملی هستند. در سطح مکالمه، صحت توافق اندازه میگیرد که آیا عوامل بر سر راهحل صحیح همگرا میشوند یا خیر. در سطح نوبت، رفتارهای اجتماعی مانند ترغیبکنندگی (توانایی تأثیرگذاری بر عامل دیگر) و قاطعیت (توانایی حفظ موقعیت خود) به طور صریح اندازهگیری میشوند.
برای رفع تنگنای داده، Meta AI یک رویکرد خودهمکاری را پیشنهاد میکند، جایی که یک LLM واحد هر دو نقش را در یک مکالمه ایفا میکند. این مکالمات مصنوعی برای تولید دادههای آموزشی از طریق یک خط لوله شامل نمونهبرداری درختی ، فیلتر کردن باور و تنظیم دقیق ترجیحات با استفاده از بهینهسازی ترجیح مستقیم (DPO) استفاده میشوند.
برای پشتیبانی از تولید داده در مقیاس بزرگ، Meta Matrix را معرفی میکند، یک چارچوب ارائه خدمات با کارایی بالا. Matrix از انواع بکاندها پشتیبانی میکند، از gRPC برای شبکهسازی کارآمد استفاده میکند و با Slurm و Ray برای هماهنگی در مقیاس بزرگ ادغام میشود. مقایسههای تجربی نشان میدهد که Matrix تا 1.87 برابر توان عملیاتی بالاتری نسبت به سیستمهای قابل مقایسه مانند llm-swarm Hugging Face دارد و آن را برای آموزش مکالمهای با حجم بالا مناسب میسازد.
نتایج تجربی: دستاوردهای عملکرد و تعمیم
ارزیابی در پنج معیار نشان میدهد که همکاری، در صورت مدلسازی و آموزش مناسب، دستاوردهای قابل اندازهگیری به همراه دارد. مدلهای Coral که به طور دقیق تنظیم شدهاند، به طور قابل توجهی از رویکردهای زنجیره فکری (CoT) تکعاملی پایه عملکرد بهتری دارند. به عنوان مثال، Llama-3.1-8B-Instruct پس از آموزش Coral+DPO، 47.8% بهبود در ExploreToM نشان میدهد. مدل Llama-3.1-70B که بر روی Coral تنظیم شده است، از GPT-4o و O1 در وظایف کلیدی استدلال مشارکتی مانند MMLU-Pro و ExploreToM پیشی میگیرد.
شایان ذکر است، مدلهای آموزشدیده از طریق Coral تعمیم بهبودیافتهای را نشان میدهند. هنگامی که بر روی وظایف دیدهنشده (به عنوان مثال، GPQA و HiToM) آزمایش میشوند، مدلهای آموزشدیده Coral دستاوردهای ثابتی را نشان میدهند—که نشان میدهد رفتارهای مشارکتی آموختهشده میتوانند در بین حوزهها منتقل شوند.
علیرغم این پیشرفتها، مدلهای آموزشدیده Coral همچنان در مسائل پیچیده ریاضی (به عنوان مثال، MATH) عملکرد پایینتری نسبت به مبناهای آموزشدیده CoT دارند، که نشان میدهد همکاری به تنهایی ممکن است در حوزههایی که نیاز به استدلال نمادین عمیق دارند کافی نباشد.
نتیجهگیری: به سوی عوامل استدلال اجتماعی همهفنحریف
Collaborative Reasoner یک مسیر ساختاریافته و مقیاسپذیر برای ارزیابی و بهبود استدلال چندعاملی در مدلهای زبانی ارائه میدهد. از طریق خودگفتگوی مصنوعی و معیارهای اجتماعی هدفمند، Meta AI یک رویکرد جدید برای پرورش LLMهایی ارائه میکند که قادر به همکاری مؤثر هستند. ادغام Coral با زیرساخت Matrix بیشتر امکان آزمایشهای قابل تکرار و در مقیاس بزرگ را فراهم میکند.
از آنجایی که LLMها به طور فزایندهای در جریانهای کاری انسانی تعبیه میشوند، توانایی همکاری—به جای صرفاً انجام دادن—احتمالاً یک قابلیت تعیینکننده خواهد بود. Coral گامی در آن جهت است و پایهای برای تحقیقات آینده در مورد عوامل اجتماعی ارائه میدهد که قادر به پیمایش در محیطهای پیچیده و چندعاملی هستند.