پژوهشگران گوگل دیپ‌مایند CaMeL را پیشنهاد می‌کنند: دفاعی مستحکم برای مدل‌های زبانی بزرگ (LLM)

مدل‌های زبانی بزرگ (LLMs) در حال تبدیل شدن به بخش جدایی‌ناپذیر فناوری مدرن هستند و سیستم‌های عامل‌محور (agentic systems) را هدایت می‌کنند که به صورت پویا با محیط‌های خارجی تعامل دارند. علی‌رغم قابلیت‌های چشمگیرشان، LLMها به شدت در برابر حملات تزریق پرامپت (prompt injection attacks) آسیب‌پذیر هستند. این حملات زمانی رخ می‌دهند که مهاجمان دستورالعمل‌های مخربی را از طریق منابع داده غیرقابل اعتماد تزریق می‌کنند تا با استخراج داده‌های حساس یا اجرای عملیات مضر، سیستم را به خطر بیندازند. روش‌های امنیتی سنتی، مانند آموزش مدل و مهندسی پرامپت، کارایی محدودی از خود نشان داده‌اند و نیاز فوری به دفاع‌های مستحکم را برجسته می‌سازند.

پژوهشگران گوگل دیپ‌مایند CaMeL را پیشنهاد می‌کنند؛ یک دفاع مستحکم که لایه‌ای محافظتی سیستمی را در اطراف LLM ایجاد می‌کند و آن را ایمن می‌سازد، حتی زمانی که مدل‌های زیربنایی ممکن است در برابر حملات آسیب‌پذیر باشند. برخلاف رویکردهای سنتی که نیازمند آموزش مجدد یا اصلاح مدل هستند، CaMeL پارادایم جدیدی را با الهام از رویه‌های امنیتی اثبات‌شده نرم‌افزار معرفی می‌کند. این روش به صراحت جریان‌های کنترل و داده را از پرس‌وجوهای کاربر استخراج می‌کند و تضمین می‌کند که ورودی‌های غیرقابل اعتماد هرگز به طور مستقیم منطق برنامه را تغییر نمی‌دهند. این طراحی، داده‌های بالقوه مضر را جدا کرده و از تأثیرگذاری آن‌ها بر فرآیندهای تصمیم‌گیری ذاتی عوامل LLM جلوگیری می‌کند.

از نظر فنی، CaMeL با استفاده از یک معماری دو مدلی عمل می‌کند: یک LLM ممتاز (Privileged LLM) و یک LLM قرنطینه‌شده (Quarantined LLM). LLM ممتاز وظیفه کلی را هماهنگ می‌کند و عملیات حساس را از داده‌های بالقوه مضر جدا می‌سازد. LLM قرنطینه‌شده داده‌ها را به طور جداگانه پردازش می‌کند و به صراحت از قابلیت‌های فراخوانی ابزار محروم شده است تا آسیب احتمالی را محدود کند. CaMeL با تخصیص فراداده یا «قابلیت‌ها» به هر مقدار داده، امنیت را بیشتر تقویت می‌کند و خط‌مشی‌های سختگیرانه‌ای را در مورد نحوه استفاده از هر قطعه اطلاعات تعریف می‌نماید. یک مفسر پایتون سفارشی این خط‌مشی‌های امنیتی دقیق را اجرا می‌کند، منشأ داده را نظارت کرده و از طریق محدودیت‌های صریح جریان کنترل، انطباق را تضمین می‌کند.

نتایج حاصل از ارزیابی تجربی با استفاده از معیار AgentDojo، کارایی CaMeL را برجسته می‌سازد. در آزمایش‌های کنترل‌شده، CaMeL با اجرای خط‌مشی‌های امنیتی در سطوح دقیق، حملات تزریق پرامپت را با موفقیت خنثی کرد. این سیستم توانایی حفظ عملکرد را نشان داد و ۶۷٪ از وظایف را به طور ایمن در چارچوب AgentDojo حل کرد. در مقایسه با سایر دفاع‌ها مانند «ساندویچ پرامپت» (Prompt Sandwiching) و «نورافکنی» (Spotlighting)، CaMeL از نظر امنیتی به طور قابل توجهی بهتر عمل کرد و تقریباً محافظت کاملی در برابر حملات ارائه داد، در حالی که سربارهای متوسطی را متحمل شد. این سربار عمدتاً در استفاده از توکن‌ها ظاهر می‌شود، با افزایش تقریبی ۲.۸۲ برابری در توکن‌های ورودی و ۲.۷۳ برابری در توکن‌های خروجی، که با توجه به تضمین‌های امنیتی ارائه شده، قابل قبول است.

علاوه بر این، CaMeL با مدیریت دقیق وابستگی‌ها از طریق خط‌مشی‌های مبتنی بر فراداده، آسیب‌پذیری‌های ظریف مانند دستکاری‌های جریان داده به کنترل را برطرف می‌کند. به عنوان مثال، سناریویی که در آن مهاجم تلاش می‌کند از دستورالعمل‌هایی با ظاهر بی‌ضرر از داده‌های ایمیل برای کنترل جریان اجرای سیستم استفاده کند، توسط مکانیسم‌های دقیق برچسب‌گذاری داده و اجرای خط‌مشی CaMeL به طور مؤثر کاهش می‌یابد. این محافظت جامع ضروری است، زیرا روش‌های متعارف ممکن است نتوانند چنین تهدیدات دستکاری غیرمستقیمی را تشخیص دهند.

در نتیجه، CaMeL پیشرفت قابل توجهی در ایمن‌سازی سیستم‌های عامل‌محور مبتنی بر LLM نشان می‌دهد. توانایی آن در اجرای قوی خط‌مشی‌های امنیتی بدون تغییر LLM زیربنایی، رویکردی قدرتمند و انعطاف‌پذیر برای دفاع در برابر حملات تزریق پرامپت ارائه می‌دهد. با اتخاذ اصولی از امنیت نرم‌افزار سنتی، CaMeL نه تنها خطرات صریح تزریق پرامپت را کاهش می‌دهد، بلکه در برابر حملات پیچیده‌ای که از دستکاری غیرمستقیم داده استفاده می‌کنند نیز محافظت می‌کند. با گسترش ادغام LLM در برنامه‌های کاربردی حساس، اتخاذ CaMeL می‌تواند در حفظ اعتماد کاربر و تضمین تعاملات ایمن در اکوسیستم‌های دیجیتال پیچیده حیاتی باشد.


مقاله را بررسی کنید. تمام اعتبار این پژوهش متعلق به پژوهشگران این پروژه است. همچنین، می‌توانید ما را در توییتر دنبال کنید و فراموش نکنید به ساب‌ردیت ۸۵ هزار نفری یادگیری ماشین ما بپیوندید.