مدلهای زبانی در مقابله با وظایف استدلالی گامهای مهمی برداشتهاند، بهطوریکه حتی رویکردهای تنظیم دقیق نظارتشده (SFT) در مقیاس کوچک مانند LIMO و s1 بهبودهای چشمگیری در قابلیتهای حل مسئله ریاضی نشان دادهاند. با این حال، سوالات اساسی در مورد این پیشرفتها باقی مانده است: آیا این مدلها واقعاً فراتر از دادههای آموزشی خود تعمیم میدهند یا صرفاً به مجموعههای آزمایشی بیش از حد متناسب هستند؟ جامعه تحقیقاتی با چالشهایی در درک اینکه کدام قابلیتها از طریق SFT در مقیاس کوچک افزایش مییابند و کدام محدودیتها علیرغم این بهبودها باقی میمانند، مواجه است. علیرغم عملکرد چشمگیر در معیارهای محبوب، درک ناقصی از نقاط قوت و ضعف خاص این مدلهای تنظیمشده وجود دارد که یک شکاف حیاتی در دانش در مورد تواناییهای استدلال واقعی و محدودیتهای عملی آنها ایجاد میکند.
تلاشهای مختلفی برای درک اثرات تنظیم دقیق نظارتشده مبتنی بر استدلال فراتر از نمرات معیار ساده انجام شده است. محققان این سوال را مطرح کردهاند که آیا SFT صرفاً عملکرد را در انواع مسائل قبلاً دیدهشده بهبود میبخشد یا واقعاً مدلها را قادر میسازد تا استراتژیهای حل مسئله را به زمینههای جدید منتقل کنند، مانند استفاده از تکنیکهای مبتنی بر مختصات در هندسه. روشهای موجود بر عواملی مانند صحت، طول راهحل و تنوع پاسخ تمرکز دارند، که مطالعات اولیه نشان میدهد نقش مهمی در بهبود مدل از طریق SFT ایفا میکنند. با این حال، این رویکردها فاقد جزئیات لازم برای تعیین دقیقاً اینکه کدام نوع از سوالات غیرقابل حل قبلی پس از تنظیم دقیق، قابل حل میشوند و کدام دستههای مسئله علیرغم آموزش گسترده، در برابر بهبود مقاومت میکنند، هستند. جامعه تحقیقاتی هنوز در تلاش است تا مشخص کند که آیا بهبودهای مشاهدهشده منعکسکننده یادگیری عمیقتر است یا صرفاً حفظ مسیرهای آموزشی، که بر نیاز به روشهای تجزیه و تحلیل پیچیدهتر تأکید میکند.
پژوهشگران دانشگاه کالیفرنیا، برکلی و مؤسسه هوش مصنوعی آلن، یک چارچوب تجزیه و تحلیل چندلایه را برای بررسی اینکه چگونه تنظیم دقیق نظارتشده بر قابلیتهای استدلال در مدلهای زبانی تأثیر میگذارد، پیشنهاد میکنند. این رویکرد از مجموعه داده AIME24 استفاده میکند که به دلیل پیچیدگی و استفاده گسترده در تحقیقات استدلال انتخاب شده است و ساختاری شبیه نردبان دارد که در آن مدلهایی که سوالات سطح بالاتر را حل میکنند، معمولاً در سوالات سطح پایینتر نیز موفق میشوند. با دستهبندی سوالات به چهار سطح دشواری، آسان، متوسط، سخت و بسیار سخت ، این مطالعه بهطور سیستماتیک الزامات خاص برای پیشرفت بین سطوح را بررسی میکند. این تحلیل نشان میدهد که پیشرفت از آسان به متوسط در درجه اول نیاز به اتخاذ سبک استدلال R1 با زمینه استنتاج طولانی دارد، در حالی که سوالات سطح سخت نیاز به ثبات محاسباتی بیشتری در طول اکتشاف عمیق دارند. سوالات سطح بسیار سخت یک چالش اساساً متفاوت ارائه میدهند و نیاز به استراتژیهای حل مسئله غیرمتعارف دارند که مدلهای فعلی بهطور یکنواخت با آن دست و پنجه نرم میکنند. این تحقیق همچنین چهار بینش کلیدی را شناسایی میکند: شکاف عملکرد بین پتانسیل و ثبات در مدلهای SFT در مقیاس کوچک، مزایای حداقلی حاصل از تنظیم دقیق مجموعه دادهها، کاهش بازده حاصل از مقیاسبندی مجموعههای داده SFT و موانع بالقوه هوشی که ممکن است از طریق SFT بهتنهایی برطرف نشوند.
این روششناسی از یک تحلیل طبقهبندی جامع با استفاده از مجموعه داده AIME24 به عنوان معیار اصلی آزمون استفاده میکند. این انتخاب ناشی از سه ویژگی کلیدی است: دشواری سلسله مراتبی مجموعه داده که حتی مدلهای پیشرفته را به چالش میکشد، پوشش متنوع آن از حوزههای ریاضی، و تمرکز آن بر ریاضیات دبیرستانی که توانایی استدلال محض را از دانش خاص دامنه جدا میکند. Qwen2.5-32 B-Instruct به دلیل پذیرش گسترده و رفتارهای شناختی ذاتی آن، از جمله تأیید، عقبگرد و تعیین هدف فرعی، به عنوان مدل پایه عمل میکند. دادههای تنظیم دقیق از جفتهای پرسش و پاسخ از مجموعه داده Openr1-Math-220k تشکیل شده است، بهطور خاص با استفاده از مسیرهای CoT تولید شده توسط DeepSeek R1 برای مسائل NuminaMath1.5، با راهحلهای نادرست فیلتر شده. پیکربندی آموزش آینهای از مطالعات قبلی با نرخ یادگیری 1 × 10-5، پوسیدگی وزن 1 × 10-4، اندازه دسته 32 و 5 دوره است. ارزیابی عملکرد از معیارهای avg@n (میانگین نرخ عبور از تلاشهای متعدد) و cov@n استفاده میکند و سوالات بر اساس الگوهای عملکرد مدل به چهار سطح دشواری (آسان، متوسط، سخت و بسیار سخت) دستهبندی میشوند.
نتایج تحقیق نشان میدهد که پیشرفت موثر از سطح آسان به سطح متوسط حل مسئله ریاضی نیاز به حداقل اما شرایط خاص دارد. این مطالعه بهطور سیستماتیک متغیرهای آموزشی متعددی را بررسی کرد، از جمله دانش بنیادی در سراسر دستههای مختلف ریاضی، تغییرات اندازه مجموعه داده (100-1000 مثال در هر دسته)، طول مسیر (کوتاه، نرمال یا طولانی) و سبک مسیر (مقایسه DeepSeek-R1 با Gemini-flash). از طریق مطالعات حذف جامع، محققان تأثیر هر بُعد را بر عملکرد مدل جدا کردند، که به صورت P = f(C, N, L, S) نشان داده میشود، که در آن C نشاندهنده دسته، N نشاندهنده تعداد مسیرها، L نشاندهنده طول و S نشاندهنده سبک است. یافتهها نشان میدهد که دستیابی به عملکرد =90٪ در سوالات سطح متوسط حداقل به 500 مسیر نرمال یا طولانی به سبک R1 نیاز دارد، صرف نظر از دسته ریاضی خاص. مدلها بهطور مداوم در برآوردن آستانههای عملکرد هنگام آموزش با مسیرهای کمتر، مسیرهای کوتاهتر یا مسیرهای به سبک Gemini، ناکام میمانند. این نشان میدهد که طول و مقدار مسیر استدلال عوامل مهمی در توسعه قابلیتهای استدلال ریاضی هستند، در حالی که موضوع خاص مسیرها کماهمیتتر از ویژگیهای ساختاری آنها است.
این تحقیق نشان میدهد که مدلها با تنظیم دقیق نظارتشده در مقیاس کوچک میتوانند بهطور بالقوه به همان تعداد سؤالاتی که مدلهای پیچیدهتر مانند Deepseek-R1 حل میکنند، پاسخ دهند، اگرچه چالشهای مهمی باقی مانده است. محدودیت اصلی شناساییشده، ناپایداری در استدلال ریاضی است، نه قابلیت. نتایج تجربی نشان میدهد که مدلهای آموزشدیده هندسه میتوانند با ارائه تلاشهای متعدد، به امتیاز پوشش 90 برسند، که با عملکرد R1 مطابقت دارد، اما دقت کلی آنها بیش از 20٪ عقب است. این شکاف عملکرد در درجه اول ناشی از ناپایداری در اکتشاف عمیق و محدودیتهای محاسباتی در طول حل مسئله پیچیده است. در حالی که افزایش اندازه مجموعه داده SFT یک مسیر حل ارائه میدهد، افزایش عملکرد از یک روند مقیاسبندی لگاریتمی با بازده کاهشی پیروی میکند. قابل توجه است، این مطالعه ادعاهای اخیر در مورد اهمیت تنظیم دقیق مجموعه دادهها را به چالش میکشد و نشان میدهد که عملکرد در سراسر دستههای مختلف ریاضی در یک محدوده باریک 55±4٪ ثابت باقی میماند، با تنها تفاوتهای حاشیهای بین مجموعههای داده مشابه ساختهشده بهطور خاص و مجموعههای داده ساختهشده بهطور تصادفی. این نتیجهگیری نشان میدهد که کمیت و کیفیت مسیرهای استدلال مهمتر از محتوای خاص موضوع برای توسعه قابلیتهای استدلال ریاضی قوی هستند.
در اینجا مقاله و صفحه GitHub آمده است. همچنین، فراموش نکنید که ما را در توییتر دنبال کنید و به کانال تلگرام و گروه LinkedIn ما بپیوندید. فراموش نکنید که به SubReddit 90k+ ML ما بپیوندید.