معرفی Collaborative Reasoner (Coral) توسط Meta AI: یک چارچوب هوش مصنوعی که به طور خاص برای ارزیابی و بهبود مهارت‌های استدلال مشارکتی در مدل‌های زبانی بزرگ طراحی شده است

بازاندیشی در مسئله همکاری در مدل‌های زبانی

مدل‌های زبانی بزرگ (LLM) توانایی‌های چشمگیری در وظایف تک‌عاملی مانند پاسخ به سؤالات و استدلال ساختاریافته از خود نشان داده‌اند. با این حال، توانایی استدلال مشارکتی—جایی که چندین عامل با هم تعامل دارند، اختلاف نظر دارند و بر سر راه‌حل‌ها به توافق می‌رسند—هنوز به اندازه کافی توسعه نیافته است. این شکل از تعامل در بسیاری از وظایف انسانی، از همکاری آکادمیک گرفته تا تصمیم‌گیری در زمینه‌های حرفه‌ای، محوری است. با این وجود، بیشتر خطوط لوله آموزشی و معیارهای LLM بر خروجی‌های مجزا و تک‌نوبتی متمرکز هستند و ابعاد اجتماعی حل مسئله مانند قاطعیت، دیدگاه‌گیری و ترغیب را نادیده می‌گیرند. یکی از چالش‌های اصلی در پیشبرد قابلیت‌های مشارکتی، فقدان مجموعه‌داده‌های گفتگوی چندنوبتی با کیفیت بالا و مقیاس‌پذیر است که برای وظایف استدلال طراحی شده‌اند.

معرفی Collaborative Reasoner توسط Meta AI: یک چارچوب ارزیابی و آموزش چندعاملی

برای رفع این محدودیت، Meta AI Collaborative Reasoner (Coral) را معرفی می‌کند—یک چارچوب که به طور خاص برای ارزیابی و بهبود مهارت‌های استدلال مشارکتی در LLMها طراحی شده است. Coral مسائل استدلال سنتی را به وظایف چندعاملی و چندنوبتی تبدیل می‌کند، جایی که دو عامل نه تنها باید مسئله‌ای را حل کنند، بلکه از طریق گفتگوی طبیعی به اجماع برسند. این تعاملات، پویایی‌های اجتماعی دنیای واقعی را شبیه‌سازی می‌کنند و مستلزم آن هستند که عوامل، نتایج نادرست را به چالش بکشند، در مورد دیدگاه‌های متضاد مذاکره کنند و به تصمیمات مشترک برسند.

این چارچوب شامل پنج حوزه است، از جمله ریاضیات (MATH)، سؤالات چندگزینه‌ای STEM (MMLU-Pro, GPQA) و شناخت اجتماعی (ExploreToM, HiToM). این وظایف به عنوان بستری برای آزمایش این موضوع عمل می‌کنند که آیا مدل‌ها می‌توانند توانایی‌های استدلال خود را در یک زمینه مشارکتی و مبتنی بر گفتگو به کار گیرند یا خیر.

روش‌شناسی: همکاری مصنوعی و پشتیبانی زیرساختی

Coral معیارهای ارزیابی جدیدی را تعریف می‌کند که متناسب با تنظیمات چندعاملی هستند. در سطح مکالمه، صحت توافق اندازه می‌گیرد که آیا عوامل بر سر راه‌حل صحیح همگرا می‌شوند یا خیر. در سطح نوبت، رفتارهای اجتماعی مانند ترغیب‌کنندگی (توانایی تأثیرگذاری بر عامل دیگر) و قاطعیت (توانایی حفظ موقعیت خود) به طور صریح اندازه‌گیری می‌شوند.

برای رفع تنگنای داده، Meta AI یک رویکرد خودهمکاری را پیشنهاد می‌کند، جایی که یک LLM واحد هر دو نقش را در یک مکالمه ایفا می‌کند. این مکالمات مصنوعی برای تولید داده‌های آموزشی از طریق یک خط لوله شامل نمونه‌برداری درختی ، فیلتر کردن باور و تنظیم دقیق ترجیحات با استفاده از بهینه‌سازی ترجیح مستقیم (DPO) استفاده می‌شوند.

برای پشتیبانی از تولید داده در مقیاس بزرگ، Meta Matrix را معرفی می‌کند، یک چارچوب ارائه خدمات با کارایی بالا. Matrix از انواع بک‌اندها پشتیبانی می‌کند، از gRPC برای شبکه‌سازی کارآمد استفاده می‌کند و با Slurm و Ray برای هماهنگی در مقیاس بزرگ ادغام می‌شود. مقایسه‌های تجربی نشان می‌دهد که Matrix تا 1.87 برابر توان عملیاتی بالاتری نسبت به سیستم‌های قابل مقایسه مانند llm-swarm Hugging Face دارد و آن را برای آموزش مکالمه‌ای با حجم بالا مناسب می‌سازد.

نتایج تجربی: دستاوردهای عملکرد و تعمیم

ارزیابی در پنج معیار نشان می‌دهد که همکاری، در صورت مدل‌سازی و آموزش مناسب، دستاوردهای قابل اندازه‌گیری به همراه دارد. مدل‌های Coral که به طور دقیق تنظیم شده‌اند، به طور قابل توجهی از رویکردهای زنجیره فکری (CoT) تک‌عاملی پایه عملکرد بهتری دارند. به عنوان مثال، Llama-3.1-8B-Instruct پس از آموزش Coral+DPO، 47.8% بهبود در ExploreToM نشان می‌دهد. مدل Llama-3.1-70B که بر روی Coral تنظیم شده است، از GPT-4o و O1 در وظایف کلیدی استدلال مشارکتی مانند MMLU-Pro و ExploreToM پیشی می‌گیرد.

شایان ذکر است، مدل‌های آموزش‌دیده از طریق Coral تعمیم بهبودیافته‌ای را نشان می‌دهند. هنگامی که بر روی وظایف دیده‌نشده (به عنوان مثال، GPQA و HiToM) آزمایش می‌شوند، مدل‌های آموزش‌دیده Coral دستاوردهای ثابتی را نشان می‌دهند—که نشان می‌دهد رفتارهای مشارکتی آموخته‌شده می‌توانند در بین حوزه‌ها منتقل شوند.

علیرغم این پیشرفت‌ها، مدل‌های آموزش‌دیده Coral همچنان در مسائل پیچیده ریاضی (به عنوان مثال، MATH) عملکرد پایین‌تری نسبت به مبناهای آموزش‌دیده CoT دارند، که نشان می‌دهد همکاری به تنهایی ممکن است در حوزه‌هایی که نیاز به استدلال نمادین عمیق دارند کافی نباشد.

نتایج تجربی Collaborative Reasoner (Coral)

نتیجه‌گیری: به سوی عوامل استدلال اجتماعی همه‌فن‌حریف

Collaborative Reasoner یک مسیر ساختاریافته و مقیاس‌پذیر برای ارزیابی و بهبود استدلال چندعاملی در مدل‌های زبانی ارائه می‌دهد. از طریق خودگفتگوی مصنوعی و معیارهای اجتماعی هدفمند، Meta AI یک رویکرد جدید برای پرورش LLMهایی ارائه می‌کند که قادر به همکاری مؤثر هستند. ادغام Coral با زیرساخت Matrix بیشتر امکان آزمایش‌های قابل تکرار و در مقیاس بزرگ را فراهم می‌کند.

از آنجایی که LLMها به طور فزاینده‌ای در جریان‌های کاری انسانی تعبیه می‌شوند، توانایی همکاری—به جای صرفاً انجام دادن—احتمالاً یک قابلیت تعیین‌کننده خواهد بود. Coral گامی در آن جهت است و پایه‌ای برای تحقیقات آینده در مورد عوامل اجتماعی ارائه می‌دهد که قادر به پیمایش در محیط‌های پیچیده و چندعاملی هستند.