آنچه مدلهای زبانی بزرگ (LLM) را از روشهای سنتی متمایز میکند، ظرفیت نوظهور آنها برای بازتاب است—تشخیص زمانی که چیزی در پاسخ آنها با منطق یا واقعیتها همخوانی ندارد و سپس تلاش برای اصلاح آن. این توانایی، که به آن بازتاب گفته میشود، نوعی فراشناخت مبتنی بر ماشین را منعکس میکند. حضور آن نشاندهنده جهشی از پردازش سطحی به استدلال ارزیابی عمیقتر است، که به طور فزایندهای در وظایف پیچیده و چند مرحلهای مانند سنتز کد و استدلال ریاضی ضروری است.
یک چالش اصلی در مورد مدلهای زبانی، شناسایی نقطهای در آموزش آنها است که توانایی بازتاب در استدلال خود را نشان میدهند. بسیاری بر این باورند که بازتاب تنها پس از اعمال یادگیری تقویتی پس از پیشآموزش ظاهر میشود. با این حال، بازتاب میتواند زودتر، در طول خود پیشآموزش، ظاهر شود. این مسئله این سوال را مطرح میکند که چگونه میتوان چنین تمایلات بازتابی را به روشی سازگار و قابل تکرار شناسایی و اندازهگیری کرد. معیارهای سنتی اغلب در این امر ناکام میمانند زیرا شامل زنجیرههای استدلالی نیستند که حاوی اشتباهات ظریفی هستند که نیاز به تصحیح دارند. در نتیجه، مدلها به ندرت در مورد چگونگی تطبیق خروجیهای خود در هنگام ارائه الگوهای استدلالی نادرست یا گمراهکننده ارزیابی میشوند.
برای نزدیک شدن به این چالش، چندین ابزار برای ارزیابی استدلال توسعه یافتهاند، از جمله چارچوبهای درخواست مانند زنجیره تفکر (Chain of Thought) و درخت تفکر (Tree of Thought). اینها بر مشاهده خروجیهای نهایی یا بررسی مسیرهای فعالسازی در معماری مدل متکی هستند. در حالی که مفید هستند، این روشها عموماً مدلها را پس از تنظیم دقیق یا قرار گرفتن در معرض بهینهسازی اضافی بررسی میکنند. آنها از بررسی چگونگی شکلگیری رفتار بازتابی به طور ارگانیک در طول آموزش اولیه مدل غافل میشوند. در بیشتر ارزیابیها، بازتاب به عنوان یک پدیده پس از آموزش در نظر گرفته میشود و تأکید کمی بر ظهور آن در طول مرحله گسترده و شکلدهنده پیشآموزش وجود دارد.
محققان Essential AI در سان فرانسیسکو یک راه حل منحصر به فرد برای بررسی این شکاف ارائه کردند. آنها چارچوبی را توسعه دادند که بازتاب موقعیتی و خودبازتابی را با استفاده از زنجیرههای تفکر عمداً خراب اندازهگیری میکند. این مجموعهدادههای خصمانه شش حوزه را پوشش میدهند: کدنویسی، استدلال ریاضی، تحلیل منطقی و بازیابی دانش. این مجموعهدادهها به گونهای ساخته شدهاند که شامل خطاهایی باشند که اشتباهات واقعی را تقلید میکنند، مانند منطق معیوب یا محاسبات نادرست، که مدلها باید آنها را تشخیص داده و اصلاح کنند. این پروژه از مدلهای خانواده OLMo-2 و Qwen2.5 با اندازههای پارامتر از 0.5B تا 72B استفاده کرد. عبارات محرک مانند "صبر کن" در درخواستها وارد میشدند تا مدل را تشویق کنند استدلال ارائه شده را بررسی کند و بر این اساس به طور انتقادی پاسخ دهد.
محققان با بررسی نحوه کار مکانیسم بازتاب، آن را به عنوان بازتاب صریح یا ضمنی طبقهبندی کردند. بازتاب صریح زمانی رخ میدهد که مدل درک خود از یک اشتباه را بیان میکند. بازتاب ضمنی زمانی استنباط میشود که مدل بدون اینکه آشکارا به اشتباهی اعتراف کند، به پاسخ صحیح برسد. الگوریتمهای تولید مجموعهداده زنجیرههای استدلال صحیح را از معیارهای تثبیتشده گرفتند و اشتباهات کوچک اما حیاتی را وارد کردند. برای بازتاب موقعیتی، خطاها از مدلهای مختلفی ناشی میشدند. برای خودبازتابی، آنها از خروجیهای نادرست مدل پدیدار شدند. یک طبقهبندیکننده که با DeepSeek-V3 آموزش داده شده بود، برای تشخیص نشانههای بازتاب صریح در سراسر خروجیها استفاده شد و امکان تمایز دقیق بین دو نوع بازتاب را فراهم کرد.
عملکرد مدلها بینشهای روشنی ارائه داد. از 240 ترکیب ایست بازرسی مجموعهداده ارزیابیشده، 231 شواهدی از بازتاب موقعیتی و 154 حداقل یک نمونه از خودبازتابی را نشان دادند. همبستگی پیرسون بین دقت و محاسبات پیشآموزش به 0.76 رسید، که نشاندهنده رابطه قوی بین شدت محاسبات و استدلال بازتابی است. در وظایفی مانند GSM8K-Platinum، استفاده از محرک "صبر کن" عملکرد را به طور قابل توجهی بهبود بخشید، که نشان میدهد حتی یک درخواست ساده میتواند با تشویق خودآزمایی، دقت مدل را افزایش دهد. در سراسر ایستهای بازرسی، میزان بازتاب صریح با آموزش بیشتر افزایش یافت، که این ادعا را تقویت میکند که بازتاب را میتوان در طول پیشآموزش بدون نیاز به تنظیم دقیق یا یادگیری تقویتی بیشتر توسعه داد.
از این کار مشخص میشود که استدلال بازتابی صرفاً نتیجه بهینهسازی پیشرفته نیست. در عوض، این ظرفیتی است که در طول آموزش اساسی مدلهای زبانی شکل میگیرد. محققان با مهندسی سیستمی برای اندازهگیری و تشویق این توانایی، به طور موثری بعد جدیدی از آموزش مدل را برجسته کردند که میتواند به طور قابل توجهی بر پیشرفتهای آینده در استدلال و تصمیمگیری هوش مصنوعی تأثیر بگذارد.
مقاله را بررسی کنید: مقاله. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به انجمن 90k+ ML SubReddit ما بپیوندید.