مدل‌های زبانی بزرگ اکنون می‌توانند مسائل ریاضی چالش‌برانگیز را با حداقل داده حل کنند: پژوهشگران دانشگاه برکلی و Ai2 از یک دستورالعمل تنظیم دقیق رونمایی می‌کنند که استدلال ریاضی را در سطوح دشواری مختلف باز می‌کند

مدل‌های زبانی در مقابله با وظایف استدلالی گام‌های مهمی برداشته‌اند، به‌طوری‌که حتی رویکردهای تنظیم دقیق نظارت‌شده (SFT) در مقیاس کوچک مانند LIMO و s1 بهبودهای چشمگیری در قابلیت‌های حل مسئله ریاضی نشان داده‌اند. با این حال، سوالات اساسی در مورد این پیشرفت‌ها باقی مانده است: آیا این مدل‌ها واقعاً فراتر از داده‌های آموزشی خود تعمیم می‌دهند یا صرفاً به مجموعه‌های آزمایشی بیش از حد متناسب هستند؟ جامعه تحقیقاتی با چالش‌هایی در درک این‌که کدام قابلیت‌ها از طریق SFT در مقیاس کوچک افزایش می‌یابند و کدام محدودیت‌ها علی‌رغم این بهبودها باقی می‌مانند، مواجه است. علی‌رغم عملکرد چشمگیر در معیارهای محبوب، درک ناقصی از نقاط قوت و ضعف خاص این مدل‌های تنظیم‌شده وجود دارد که یک شکاف حیاتی در دانش در مورد توانایی‌های استدلال واقعی و محدودیت‌های عملی آن‌ها ایجاد می‌کند.

تلاش‌های مختلفی برای درک اثرات تنظیم دقیق نظارت‌شده مبتنی بر استدلال فراتر از نمرات معیار ساده انجام شده است. محققان این سوال را مطرح کرده‌اند که آیا SFT صرفاً عملکرد را در انواع مسائل قبلاً دیده‌شده بهبود می‌بخشد یا واقعاً مدل‌ها را قادر می‌سازد تا استراتژی‌های حل مسئله را به زمینه‌های جدید منتقل کنند، مانند استفاده از تکنیک‌های مبتنی بر مختصات در هندسه. روش‌های موجود بر عواملی مانند صحت، طول راه‌حل و تنوع پاسخ تمرکز دارند، که مطالعات اولیه نشان می‌دهد نقش مهمی در بهبود مدل از طریق SFT ایفا می‌کنند. با این حال، این رویکردها فاقد جزئیات لازم برای تعیین دقیقاً این‌که کدام نوع از سوالات غیرقابل حل قبلی پس از تنظیم دقیق، قابل حل می‌شوند و کدام دسته‌های مسئله علی‌رغم آموزش گسترده، در برابر بهبود مقاومت می‌کنند، هستند. جامعه تحقیقاتی هنوز در تلاش است تا مشخص کند که آیا بهبودهای مشاهده‌شده منعکس‌کننده یادگیری عمیق‌تر است یا صرفاً حفظ مسیرهای آموزشی، که بر نیاز به روش‌های تجزیه و تحلیل پیچیده‌تر تأکید می‌کند.

پژوهشگران دانشگاه کالیفرنیا، برکلی و مؤسسه هوش مصنوعی آلن، یک چارچوب تجزیه و تحلیل چندلایه را برای بررسی این‌که چگونه تنظیم دقیق نظارت‌شده بر قابلیت‌های استدلال در مدل‌های زبانی تأثیر می‌گذارد، پیشنهاد می‌کنند. این رویکرد از مجموعه داده AIME24 استفاده می‌کند که به دلیل پیچیدگی و استفاده گسترده در تحقیقات استدلال انتخاب شده است و ساختاری شبیه نردبان دارد که در آن مدل‌هایی که سوالات سطح بالاتر را حل می‌کنند، معمولاً در سوالات سطح پایین‌تر نیز موفق می‌شوند. با دسته‌بندی سوالات به چهار سطح دشواری، آسان، متوسط، سخت و بسیار سخت ، این مطالعه به‌طور سیستماتیک الزامات خاص برای پیشرفت بین سطوح را بررسی می‌کند. این تحلیل نشان می‌دهد که پیشرفت از آسان به متوسط ​​در درجه اول نیاز به اتخاذ سبک استدلال R1 با زمینه استنتاج طولانی دارد، در حالی که سوالات سطح سخت نیاز به ثبات محاسباتی بیشتری در طول اکتشاف عمیق دارند. سوالات سطح بسیار سخت یک چالش اساساً متفاوت ارائه می‌دهند و نیاز به استراتژی‌های حل مسئله غیرمتعارف دارند که مدل‌های فعلی به‌طور یکنواخت با آن دست و پنجه نرم می‌کنند. این تحقیق همچنین چهار بینش کلیدی را شناسایی می‌کند: شکاف عملکرد بین پتانسیل و ثبات در مدل‌های SFT در مقیاس کوچک، مزایای حداقلی حاصل از تنظیم دقیق مجموعه داده‌ها، کاهش بازده حاصل از مقیاس‌بندی مجموعه‌های داده SFT و موانع بالقوه هوشی که ممکن است از طریق SFT به‌تنهایی برطرف نشوند.

متغیرهای آموزشی

این روش‌شناسی از یک تحلیل طبقه‌بندی جامع با استفاده از مجموعه داده AIME24 به عنوان معیار اصلی آزمون استفاده می‌کند. این انتخاب ناشی از سه ویژگی کلیدی است: دشواری سلسله مراتبی مجموعه داده که حتی مدل‌های پیشرفته را به چالش می‌کشد، پوشش متنوع آن از حوزه‌های ریاضی، و تمرکز آن بر ریاضیات دبیرستانی که توانایی استدلال محض را از دانش خاص دامنه جدا می‌کند. Qwen2.5-32 B-Instruct به دلیل پذیرش گسترده و رفتارهای شناختی ذاتی آن، از جمله تأیید، عقب‌گرد و تعیین هدف فرعی، به عنوان مدل پایه عمل می‌کند. داده‌های تنظیم دقیق از جفت‌های پرسش و پاسخ از مجموعه داده Openr1-Math-220k تشکیل شده است، به‌طور خاص با استفاده از مسیرهای CoT تولید شده توسط DeepSeek R1 برای مسائل NuminaMath1.5، با راه‌حل‌های نادرست فیلتر شده. پیکربندی آموزش آینه‌ای از مطالعات قبلی با نرخ یادگیری 1 × 10-5، پوسیدگی وزن 1 × 10-4، اندازه دسته 32 و 5 دوره است. ارزیابی عملکرد از معیارهای avg@n (میانگین نرخ عبور از تلاش‌های متعدد) و cov@n استفاده می‌کند و سوالات بر اساس الگوهای عملکرد مدل به چهار سطح دشواری (آسان، متوسط، سخت و بسیار سخت) دسته‌بندی می‌شوند.

مقایسه عملکرد

نتایج تحقیق نشان می‌دهد که پیشرفت موثر از سطح آسان به سطح متوسط ​​حل مسئله ریاضی نیاز به حداقل اما شرایط خاص دارد. این مطالعه به‌طور سیستماتیک متغیرهای آموزشی متعددی را بررسی کرد، از جمله دانش بنیادی در سراسر دسته‌های مختلف ریاضی، تغییرات اندازه مجموعه داده (100-1000 مثال در هر دسته)، طول مسیر (کوتاه، نرمال یا طولانی) و سبک مسیر (مقایسه DeepSeek-R1 با Gemini-flash). از طریق مطالعات حذف جامع، محققان تأثیر هر بُعد را بر عملکرد مدل جدا کردند، که به صورت P = f(C, N, L, S) نشان داده می‌شود، که در آن C نشان‌دهنده دسته، N نشان‌دهنده تعداد مسیرها، L نشان‌دهنده طول و S نشان‌دهنده سبک است. یافته‌ها نشان می‌دهد که دستیابی به عملکرد =90٪ در سوالات سطح متوسط ​​حداقل به 500 مسیر نرمال یا طولانی به سبک R1 نیاز دارد، صرف نظر از دسته ریاضی خاص. مدل‌ها به‌طور مداوم در برآوردن آستانه‌های عملکرد هنگام آموزش با مسیرهای کمتر، مسیرهای کوتاه‌تر یا مسیرهای به سبک Gemini، ناکام می‌مانند. این نشان می‌دهد که طول و مقدار مسیر استدلال عوامل مهمی در توسعه قابلیت‌های استدلال ریاضی هستند، در حالی که موضوع خاص مسیرها کم‌اهمیت‌تر از ویژگی‌های ساختاری آن‌ها است.

این تحقیق نشان می‌دهد که مدل‌ها با تنظیم دقیق نظارت‌شده در مقیاس کوچک می‌توانند به‌طور بالقوه به همان تعداد سؤالاتی که مدل‌های پیچیده‌تر مانند Deepseek-R1 حل می‌کنند، پاسخ دهند، اگرچه چالش‌های مهمی باقی مانده است. محدودیت اصلی شناسایی‌شده، ناپایداری در استدلال ریاضی است، نه قابلیت. نتایج تجربی نشان می‌دهد که مدل‌های آموزش‌دیده هندسه می‌توانند با ارائه تلاش‌های متعدد، به امتیاز پوشش 90 برسند، که با عملکرد R1 مطابقت دارد، اما دقت کلی آن‌ها بیش از 20٪ عقب است. این شکاف عملکرد در درجه اول ناشی از ناپایداری در اکتشاف عمیق و محدودیت‌های محاسباتی در طول حل مسئله پیچیده است. در حالی که افزایش اندازه مجموعه داده SFT یک مسیر حل ارائه می‌دهد، افزایش عملکرد از یک روند مقیاس‌بندی لگاریتمی با بازده کاهشی پیروی می‌کند. قابل توجه است، این مطالعه ادعاهای اخیر در مورد اهمیت تنظیم دقیق مجموعه داده‌ها را به چالش می‌کشد و نشان می‌دهد که عملکرد در سراسر دسته‌های مختلف ریاضی در یک محدوده باریک 55±4٪ ثابت باقی می‌ماند، با تنها تفاوت‌های حاشیه‌ای بین مجموعه‌های داده مشابه ساخته‌شده به‌طور خاص و مجموعه‌های داده ساخته‌شده به‌طور تصادفی. این نتیجه‌گیری نشان می‌دهد که کمیت و کیفیت مسیرهای استدلال مهم‌تر از محتوای خاص موضوع برای توسعه قابلیت‌های استدلال ریاضی قوی هستند.


در اینجا مقاله و صفحه GitHub آمده است. همچنین، فراموش نکنید که ما را در توییتر دنبال کنید و به کانال تلگرام و گروه LinkedIn ما بپیوندید. فراموش نکنید که به SubReddit 90k+ ML ما بپیوندید.