OpenAI گزارش تحقیقاتی را منتشر کرده است که نشان میدهد مدلهای استدلال پیشرفته اغلب درگیر هک پاداش میشوند، به این صورت که عوامل هوش مصنوعی از نقاط ضعف در اهداف خود برای به دست آوردن پاداش به روشهای ناخواسته استفاده میکنند.
این گزارش همچنین به بررسی استراتژیهایی برای نظارت و کاهش این رفتارها میپردازد.
OpenAI نشان میدهد که چگونه میتوان یک مدل استدلال مانند o3-mini را برای هک پاداش در محیطهای برنامهنویسی مبتنی بر عامل، با استفاده از یک LLM دیگر برای مشاهده زنجیره افکار (CoT) آن نظارت کرد. OpenAI گفت که GPT-4o، مدلی ضعیفتر از o3-mini، میتواند به طور موثر مدل قویتر را نظارت کند.
OpenAI در این گزارش گفت: «همانطور که به مقیاسبندی آموزش RL ادامه دادهایم، عوامل، هکهای پیچیدهتر و سختتر را کشف کردهاند.» این شرکت چندین هک پاداش موثر را در فرآیندهای کدنویسی پیدا کرد. به عنوان مثال، یک عامل هوش مصنوعی از یک باگ سوء استفاده میکند که به آن اجازه میدهد محیط را زودتر ترک کند تا پاداشها را به دست آورد.
OpenAI گفت که نظارت بر CoTهای یک مدل به طور قابل توجهی موثرتر از نظارت بر اقدامات آن به تنهایی است، و گفت که این روش شواهد امیدوارکنندهای از ارائه یک مسیر جدید برای نظارت مقیاسپذیر ارائه میدهد. در مقایسه با مانیتور فقط-عمل، که 60٪ از هکها را (به یاد آورد) گرفت، مانیتورهای CoT 95٪ از هکها را به یاد آوردند.
در حالی که مانیتورهای CoT به طور موثر در سطوح پایین بهینهسازی یادگیری تقویتی (RL) کار میکنند، OpenAI گفت که وقتی مدل بیشتر برای به حداکثر رساندن پاداشها آموزش داده میشود، یاد میگیرد که سیستم نظارت را فریب دهد.
بخشی از این گزارش میخواند: «اعمال فشار بهینهسازی مستقیم بر CoT میتواند به سرعت منجر به هک پاداش مبهم شود، جایی که عوامل در حالی که به رفتار نادرست خود ادامه میدهند، قصد خود را پنهان میکنند.»
به دلیل چنین محدودیتهایی در نظارت CoT، OpenAI گفت که توسعهدهندگان ممکن است مجبور شوند با استقرار مدلهای کمبازدهتر یا تحمل استنتاج گرانتر، یک بدهبستان را بپذیرند.
با این حال، در بدترین حالت، اگر عامل یاد بگیرد که به طور کامل مقاصد خود را در CoT پنهان کند، OpenAI پیشنهاد میکند به روشهای قدیمیتر ایمنسازی هوش مصنوعی، مانند تجزیه و تحلیل فعالسازیها، عملکردهای داخلی و بهبود روشهای همسویی آن، بازگردد.
یک گزارش PDF مفصل که نشاندهنده یافتههای این تحقیق است را میتوانید در لینک زیر بیابید: link.
Nat McAleese، عضو کادر فنی OpenAI، در پستی در X گفت که "مدلهای استدلال بزرگ در هک پاداش بسیار خوب هستند"، و نمونههایی را از این گزارش برای نشان دادن گفته خود انتخاب کرد.
به طور مشابه، تلاشهای جهانی برای مطالعه ماهیت مدلهای استدلال صورت گرفته است. اخیراً، یک تحقیق به رهبری دانشگاه هاروارد و Vrije Universiteit Brussel نشان داد که مدلهای قویتر با زنجیرههای استدلال کمتر از مدلهای ضعیفتر، با زنجیرههای استدلال طولانیتر، بهتر عمل میکنند. این مطالعه به این نتیجه رسید که o3-Mini OpenAI از o1-mini با زنجیرههای استدلال کمتر، بهتر عمل کرده است.