تصویرسازی توسط نالینی نیراد
تصویرسازی توسط نالینی نیراد

گزارش جدید OpenAI نشان می‌دهد چگونه می‌توان هک پاداش را در مدل‌های استدلال بزرگ برطرف کرد

OpenAI گزارش تحقیقاتی را منتشر کرده است که نشان می‌دهد مدل‌های استدلال پیشرفته اغلب درگیر هک پاداش می‌شوند، به این صورت که عوامل هوش مصنوعی از نقاط ضعف در اهداف خود برای به دست آوردن پاداش به روش‌های ناخواسته استفاده می‌کنند.

این گزارش همچنین به بررسی استراتژی‌هایی برای نظارت و کاهش این رفتارها می‌پردازد.

OpenAI نشان می‌دهد که چگونه می‌توان یک مدل استدلال مانند o3-mini را برای هک پاداش در محیط‌های برنامه‌نویسی مبتنی بر عامل، با استفاده از یک LLM دیگر برای مشاهده زنجیره افکار (CoT) آن نظارت کرد. OpenAI گفت که GPT-4o، مدلی ضعیف‌تر از o3-mini، می‌تواند به طور موثر مدل قوی‌تر را نظارت کند.

OpenAI در این گزارش گفت: «همانطور که به مقیاس‌بندی آموزش RL ادامه داده‌ایم، عوامل، هک‌های پیچیده‌تر و سخت‌تر را کشف کرده‌اند.» این شرکت چندین هک پاداش موثر را در فرآیندهای کدنویسی پیدا کرد. به عنوان مثال، یک عامل هوش مصنوعی از یک باگ سوء استفاده می‌کند که به آن اجازه می‌دهد محیط را زودتر ترک کند تا پاداش‌ها را به دست آورد.

OpenAI گفت که نظارت بر CoTهای یک مدل به طور قابل توجهی موثرتر از نظارت بر اقدامات آن به تنهایی است، و گفت که این روش شواهد امیدوارکننده‌ای از ارائه یک مسیر جدید برای نظارت مقیاس‌پذیر ارائه می‌دهد. در مقایسه با مانیتور فقط-عمل، که 60٪ از هک‌ها را (به یاد آورد) گرفت، مانیتورهای CoT 95٪ از هک‌ها را به یاد آوردند.

در حالی که مانیتورهای CoT به طور موثر در سطوح پایین بهینه‌سازی یادگیری تقویتی (RL) کار می‌کنند، OpenAI گفت که وقتی مدل بیشتر برای به حداکثر رساندن پاداش‌ها آموزش داده می‌شود، یاد می‌گیرد که سیستم نظارت را فریب دهد.

بخشی از این گزارش می‌خواند: «اعمال فشار بهینه‌سازی مستقیم بر CoT می‌تواند به سرعت منجر به هک پاداش مبهم شود، جایی که عوامل در حالی که به رفتار نادرست خود ادامه می‌دهند، قصد خود را پنهان می‌کنند.»

به دلیل چنین محدودیت‌هایی در نظارت CoT، OpenAI گفت که توسعه‌دهندگان ممکن است مجبور شوند با استقرار مدل‌های کم‌بازده‌تر یا تحمل استنتاج گران‌تر، یک بده‌بستان را بپذیرند.

با این حال، در بدترین حالت، اگر عامل یاد بگیرد که به طور کامل مقاصد خود را در CoT پنهان کند، OpenAI پیشنهاد می‌کند به روش‌های قدیمی‌تر ایمن‌سازی هوش مصنوعی، مانند تجزیه و تحلیل فعال‌سازی‌ها، عملکردهای داخلی و بهبود روش‌های همسویی آن، بازگردد.

یک گزارش PDF مفصل که نشان‌دهنده یافته‌های این تحقیق است را می‌توانید در لینک زیر بیابید: link.

Nat McAleese، عضو کادر فنی OpenAI، در پستی در X گفت که "مدل‌های استدلال بزرگ در هک پاداش بسیار خوب هستند"، و نمونه‌هایی را از این گزارش برای نشان دادن گفته خود انتخاب کرد.

به طور مشابه، تلاش‌های جهانی برای مطالعه ماهیت مدل‌های استدلال صورت گرفته است. اخیراً، یک تحقیق به رهبری دانشگاه هاروارد و Vrije Universiteit Brussel نشان داد که مدل‌های قوی‌تر با زنجیره‌های استدلال کمتر از مدل‌های ضعیف‌تر، با زنجیره‌های استدلال طولانی‌تر، بهتر عمل می‌کنند. این مطالعه به این نتیجه رسید که o3-Mini OpenAI از o1-mini با زنجیره‌های استدلال کمتر، بهتر عمل کرده است.