آغاز بازتاب در پیش‌آموزش: محققان هوش مصنوعی نشان می‌دهند ظهور زودهنگام استدلال بازتابی در مدل‌های زبانی بزرگ با استفاده از مجموعه‌داده‌های خصمانه

چارچوب هوش مصنوعی Essential
نموداری از چارچوب هوش مصنوعی Essential
بینش‌های عملکرد مدل
نموداری از بینش‌های عملکرد مدل

آنچه مدل‌های زبانی بزرگ (LLM) را از روش‌های سنتی متمایز می‌کند، ظرفیت نوظهور آنها برای بازتاب است—تشخیص زمانی که چیزی در پاسخ آنها با منطق یا واقعیت‌ها همخوانی ندارد و سپس تلاش برای اصلاح آن. این توانایی، که به آن بازتاب گفته می‌شود، نوعی فراشناخت مبتنی بر ماشین را منعکس می‌کند. حضور آن نشان‌دهنده جهشی از پردازش سطحی به استدلال ارزیابی عمیق‌تر است، که به طور فزاینده‌ای در وظایف پیچیده و چند مرحله‌ای مانند سنتز کد و استدلال ریاضی ضروری است.

یک چالش اصلی در مورد مدل‌های زبانی، شناسایی نقطه‌ای در آموزش آنها است که توانایی بازتاب در استدلال خود را نشان می‌دهند. بسیاری بر این باورند که بازتاب تنها پس از اعمال یادگیری تقویتی پس از پیش‌آموزش ظاهر می‌شود. با این حال، بازتاب می‌تواند زودتر، در طول خود پیش‌آموزش، ظاهر شود. این مسئله این سوال را مطرح می‌کند که چگونه می‌توان چنین تمایلات بازتابی را به روشی سازگار و قابل تکرار شناسایی و اندازه‌گیری کرد. معیارهای سنتی اغلب در این امر ناکام می‌مانند زیرا شامل زنجیره‌های استدلالی نیستند که حاوی اشتباهات ظریفی هستند که نیاز به تصحیح دارند. در نتیجه، مدل‌ها به ندرت در مورد چگونگی تطبیق خروجی‌های خود در هنگام ارائه الگوهای استدلالی نادرست یا گمراه‌کننده ارزیابی می‌شوند.

برای نزدیک شدن به این چالش، چندین ابزار برای ارزیابی استدلال توسعه یافته‌اند، از جمله چارچوب‌های درخواست مانند زنجیره تفکر (Chain of Thought) و درخت تفکر (Tree of Thought). اینها بر مشاهده خروجی‌های نهایی یا بررسی مسیرهای فعال‌سازی در معماری مدل متکی هستند. در حالی که مفید هستند، این روش‌ها عموماً مدل‌ها را پس از تنظیم دقیق یا قرار گرفتن در معرض بهینه‌سازی اضافی بررسی می‌کنند. آنها از بررسی چگونگی شکل‌گیری رفتار بازتابی به طور ارگانیک در طول آموزش اولیه مدل غافل می‌شوند. در بیشتر ارزیابی‌ها، بازتاب به عنوان یک پدیده پس از آموزش در نظر گرفته می‌شود و تأکید کمی بر ظهور آن در طول مرحله گسترده و شکل‌دهنده پیش‌آموزش وجود دارد.

محققان Essential AI در سان فرانسیسکو یک راه حل منحصر به فرد برای بررسی این شکاف ارائه کردند. آنها چارچوبی را توسعه دادند که بازتاب موقعیتی و خودبازتابی را با استفاده از زنجیره‌های تفکر عمداً خراب اندازه‌گیری می‌کند. این مجموعه‌داده‌های خصمانه شش حوزه را پوشش می‌دهند: کدنویسی، استدلال ریاضی، تحلیل منطقی و بازیابی دانش. این مجموعه‌داده‌ها به گونه‌ای ساخته شده‌اند که شامل خطاهایی باشند که اشتباهات واقعی را تقلید می‌کنند، مانند منطق معیوب یا محاسبات نادرست، که مدل‌ها باید آنها را تشخیص داده و اصلاح کنند. این پروژه از مدل‌های خانواده OLMo-2 و Qwen2.5 با اندازه‌های پارامتر از 0.5B تا 72B استفاده کرد. عبارات محرک مانند "صبر کن" در درخواست‌ها وارد می‌شدند تا مدل را تشویق کنند استدلال ارائه شده را بررسی کند و بر این اساس به طور انتقادی پاسخ دهد.

محققان با بررسی نحوه کار مکانیسم بازتاب، آن را به عنوان بازتاب صریح یا ضمنی طبقه‌بندی کردند. بازتاب صریح زمانی رخ می‌دهد که مدل درک خود از یک اشتباه را بیان می‌کند. بازتاب ضمنی زمانی استنباط می‌شود که مدل بدون اینکه آشکارا به اشتباهی اعتراف کند، به پاسخ صحیح برسد. الگوریتم‌های تولید مجموعه‌داده زنجیره‌های استدلال صحیح را از معیارهای تثبیت‌شده گرفتند و اشتباهات کوچک اما حیاتی را وارد کردند. برای بازتاب موقعیتی، خطاها از مدل‌های مختلفی ناشی می‌شدند. برای خودبازتابی، آنها از خروجی‌های نادرست مدل پدیدار شدند. یک طبقه‌بندی‌کننده که با DeepSeek-V3 آموزش داده شده بود، برای تشخیص نشانه‌های بازتاب صریح در سراسر خروجی‌ها استفاده شد و امکان تمایز دقیق بین دو نوع بازتاب را فراهم کرد.

عملکرد مدل‌ها بینش‌های روشنی ارائه داد. از 240 ترکیب ایست بازرسی مجموعه‌داده ارزیابی‌شده، 231 شواهدی از بازتاب موقعیتی و 154 حداقل یک نمونه از خودبازتابی را نشان دادند. همبستگی پیرسون بین دقت و محاسبات پیش‌آموزش به 0.76 رسید، که نشان‌دهنده رابطه قوی بین شدت محاسبات و استدلال بازتابی است. در وظایفی مانند GSM8K-Platinum، استفاده از محرک "صبر کن" عملکرد را به طور قابل توجهی بهبود بخشید، که نشان می‌دهد حتی یک درخواست ساده می‌تواند با تشویق خودآزمایی، دقت مدل را افزایش دهد. در سراسر ایست‌های بازرسی، میزان بازتاب صریح با آموزش بیشتر افزایش یافت، که این ادعا را تقویت می‌کند که بازتاب را می‌توان در طول پیش‌آموزش بدون نیاز به تنظیم دقیق یا یادگیری تقویتی بیشتر توسعه داد.

از این کار مشخص می‌شود که استدلال بازتابی صرفاً نتیجه بهینه‌سازی پیشرفته نیست. در عوض، این ظرفیتی است که در طول آموزش اساسی مدل‌های زبانی شکل می‌گیرد. محققان با مهندسی سیستمی برای اندازه‌گیری و تشویق این توانایی، به طور موثری بعد جدیدی از آموزش مدل را برجسته کردند که می‌تواند به طور قابل توجهی بر پیشرفت‌های آینده در استدلال و تصمیم‌گیری هوش مصنوعی تأثیر بگذارد.


مقاله را بررسی کنید: مقاله. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به انجمن 90k+ ML SubReddit ما بپیوندید.