معرفی CODI: چارچوبی خود-تقطیری برای استدلال زنجیره‌ای-تفکر کارآمد و مقیاس‌پذیر در LLMها

پرامپتینگ زنجیره تفکر (CoT) به مدل‌های زبانی بزرگ (LLM) این امکان را می‌دهد که استنتاج‌های منطقی گام‌به‌گام را به زبان طبیعی انجام دهند. اگرچه این روش مؤثر بوده است، اما زبان طبیعی ممکن است کارآمدترین واسط برای استدلال نباشد. مطالعات نشان می‌دهند که استدلال ریاضی انسان عمدتاً به پردازش زبان متکی نیست و این نشان می‌دهد که رویکردهای جایگزین می‌توانند عملکرد را بهبود بخشند. پژوهشگران قصد دارند نحوه پردازش استدلال توسط LLMها را اصلاح کنند و تعادلی بین دقت و کارایی محاسباتی ایجاد کنند.

چالش استدلال در LLMها ناشی از اتکای آن‌ها به CoT صریح است که نیازمند تولید توضیحات مفصل قبل از رسیدن به پاسخ نهایی است. این رویکرد سربار محاسباتی را افزایش می‌دهد و استنتاج را کند می‌کند. روش‌های CoT ضمنی تلاش می‌کنند تا استدلال را بدون تولید توکن‌های استدلال صریح، درونی‌سازی کنند، اما این روش‌ها در مقایسه با CoT صریح، عملکرد ضعیف‌تری داشته‌اند. یک مانع بزرگ در طراحی مدل‌هایی نهفته است که بتوانند استدلال را به طور کارآمد در داخل پردازش کنند و در عین حال دقت را حفظ کنند. راه حلی که بار محاسباتی بیش از حد را بدون کاهش عملکرد حذف کند، برای افزایش قابلیت‌های استدلال در LLMها حیاتی است.

پژوهشگران کالج کینگ لندن و موسسه آلن تورینگ، CODI (زنجیره پیوسته تفکر از طریق خود-تقطیری) را به عنوان یک چارچوب جدید برای رفع این محدودیت‌ها معرفی کردند. CODI استدلال صریح CoT را به یک فضای پیوسته تقطیر می‌کند و به LLMها اجازه می‌دهد تا استنتاج‌های منطقی را به صورت داخلی و بدون تولید توکن‌های صریح CoT انجام دهند. این روش از خود-تقطیری استفاده می‌کند، جایی که یک مدل واحد هم به عنوان معلم و هم به عنوان دانش‌آموز عمل می‌کند و فعال‌سازی‌های پنهان خود را برای رمزگذاری استدلال در یک فضای پنهان فشرده هم‌تراز می‌کند. CODI با بهره‌گیری از این تکنیک، به طور موثر استدلال را بدون کاهش عملکرد فشرده می‌کند.

CODI از دو وظیفه یادگیری کلیدی تشکیل شده است: تولید CoT صریح و استدلال CoT پیوسته. مدل معلم با پردازش گام به گام استدلال زبان طبیعی و تولید دنباله های CoT صریح، از یادگیری استاندارد CoT پیروی می کند. در مقابل، مدل دانش آموز یاد می گیرد که استدلال را در یک بازنمایی نهفته فشرده درونی کند. برای اطمینان از انتقال دانش مناسب، CODI با استفاده از یک تابع زیان فاصله L1، هم ترازی بین این دو فرآیند را اعمال می کند. برخلاف رویکردهای قبلی، CODI مستقیماً نظارت استدلال را به حالت‌های پنهان مدل تزریق می‌کند و امکان آموزش کارآمدتر را فراهم می‌کند. به جای تکیه بر چندین مرحله آموزشی، CODI از یک رویکرد تقطیر تک مرحله‌ای استفاده می‌کند و تضمین می‌کند که مسائل مربوط به از دست دادن اطلاعات و فراموشی ذاتی در یادگیری برنامه‌ریزی درسی به حداقل می‌رسد. این فرآیند شامل انتخاب یک توکن پنهان خاص است که اطلاعات استدلالی حیاتی را رمزگذاری می‌کند و این امکان را فراهم می آورد تا مدل بتواند به طور موثر مراحل استدلال پیوسته را بدون توکن های صریح تولید کند.

نتایج تجربی نشان می‌دهد که CODI به طور قابل توجهی از روش‌های قبلی CoT ضمنی بهتر عمل می‌کند و اولین روشی است که با دقت CoT صریح در وظایف استدلال ریاضی مطابقت دارد. در مجموعه داده GSM8k، CODI به نسبت فشرده‌سازی 3.1 برابری دست می‌یابد و در عین حال عملکردی قابل مقایسه با CoT صریح را حفظ می‌کند. این روش از نظر دقت، 28.2 درصد از Coconut بهتر عمل می‌کند. علاوه بر این، CODI مقیاس‌پذیر است و با مجموعه داده‌های مختلف CoT سازگار است و آن را برای مسائل استدلالی پیچیده‌تر مناسب می‌سازد. معیارهای عملکرد نشان می‌دهند که CODI با یک مدل GPT-2 به دقت استدلال 43.7% در GSM8k دست می‌یابد، در حالی که این رقم برای Coconut 34.1% است. هنگامی که CODI بر روی مدل‌های بزرگ‌تر مانند LLaMA3.2-1b آزمایش شد، به دقت 55.6% دست یافت که توانایی آن را برای مقیاس‌پذیری موثر نشان می‌دهد. از نظر کارایی، CODI مراحل استدلال را 2.7 برابر سریع‌تر از CoT سنتی و 5.9 برابر سریع‌تر در هنگام اعمال بر روی مجموعه داده‌های استدلالی پرمحتواتر پردازش می‌کند. طراحی قوی آن به آن اجازه می‌دهد تا به معیارهای خارج از دامنه تعمیم یابد و از CoT-SFT در مجموعه داده‌هایی مانند SVAMP و MultiArith بهتر عمل کند.

CODI یک پیشرفت چشمگیر در استدلال LLM محسوب می‌شود و به طور موثر شکاف بین CoT صریح و کارایی محاسباتی را پر می‌کند. بهره‌گیری از خود-تقطیری و بازنمایی‌های پیوسته، رویکردی مقیاس‌پذیر برای استدلال هوش مصنوعی معرفی می‌کند. این مدل قابلیت تفسیر را حفظ می‌کند، زیرا تفکرات پیوسته آن را می‌توان به الگوهای استدلالی ساختاریافته رمزگشایی کرد و شفافیت را در فرآیند تصمیم‌گیری فراهم کرد. تحقیقات آتی می‌تواند کاربرد CODI را در وظایف استدلالی چندوجهی پیچیده‌تر بررسی کند و مزایای آن را فراتر از حل مسئله ریاضی گسترش دهد. این چارچوب، CoT ضمنی را به عنوان یک جایگزین کارآمد از نظر محاسباتی و یک راه حل مناسب برای چالش‌های استدلال در سیستم‌های پیشرفته هوش مصنوعی معرفی می‌کند.

مقاله را بررسی کنید. تمام اعتبار این تحقیق متعلق به محققان این پروژه است.

https://www.marktechpost.com/2025/03/09/this-ai-paper-introduces-codi-a-self-distillation-framework-for-efficient-and-scalable-chain-of-thought-reasoning-in-llms/