مدلهای زبانی بزرگ (LLMs) در حال تبدیل شدن به بخش جداییناپذیر فناوری مدرن هستند و سیستمهای عاملمحور (agentic systems) را هدایت میکنند که به صورت پویا با محیطهای خارجی تعامل دارند. علیرغم قابلیتهای چشمگیرشان، LLMها به شدت در برابر حملات تزریق پرامپت (prompt injection attacks) آسیبپذیر هستند. این حملات زمانی رخ میدهند که مهاجمان دستورالعملهای مخربی را از طریق منابع داده غیرقابل اعتماد تزریق میکنند تا با استخراج دادههای حساس یا اجرای عملیات مضر، سیستم را به خطر بیندازند. روشهای امنیتی سنتی، مانند آموزش مدل و مهندسی پرامپت، کارایی محدودی از خود نشان دادهاند و نیاز فوری به دفاعهای مستحکم را برجسته میسازند.
پژوهشگران گوگل دیپمایند CaMeL را پیشنهاد میکنند؛ یک دفاع مستحکم که لایهای محافظتی سیستمی را در اطراف LLM ایجاد میکند و آن را ایمن میسازد، حتی زمانی که مدلهای زیربنایی ممکن است در برابر حملات آسیبپذیر باشند. برخلاف رویکردهای سنتی که نیازمند آموزش مجدد یا اصلاح مدل هستند، CaMeL پارادایم جدیدی را با الهام از رویههای امنیتی اثباتشده نرمافزار معرفی میکند. این روش به صراحت جریانهای کنترل و داده را از پرسوجوهای کاربر استخراج میکند و تضمین میکند که ورودیهای غیرقابل اعتماد هرگز به طور مستقیم منطق برنامه را تغییر نمیدهند. این طراحی، دادههای بالقوه مضر را جدا کرده و از تأثیرگذاری آنها بر فرآیندهای تصمیمگیری ذاتی عوامل LLM جلوگیری میکند.
از نظر فنی، CaMeL با استفاده از یک معماری دو مدلی عمل میکند: یک LLM ممتاز (Privileged LLM) و یک LLM قرنطینهشده (Quarantined LLM). LLM ممتاز وظیفه کلی را هماهنگ میکند و عملیات حساس را از دادههای بالقوه مضر جدا میسازد. LLM قرنطینهشده دادهها را به طور جداگانه پردازش میکند و به صراحت از قابلیتهای فراخوانی ابزار محروم شده است تا آسیب احتمالی را محدود کند. CaMeL با تخصیص فراداده یا «قابلیتها» به هر مقدار داده، امنیت را بیشتر تقویت میکند و خطمشیهای سختگیرانهای را در مورد نحوه استفاده از هر قطعه اطلاعات تعریف مینماید. یک مفسر پایتون سفارشی این خطمشیهای امنیتی دقیق را اجرا میکند، منشأ داده را نظارت کرده و از طریق محدودیتهای صریح جریان کنترل، انطباق را تضمین میکند.
نتایج حاصل از ارزیابی تجربی با استفاده از معیار AgentDojo، کارایی CaMeL را برجسته میسازد. در آزمایشهای کنترلشده، CaMeL با اجرای خطمشیهای امنیتی در سطوح دقیق، حملات تزریق پرامپت را با موفقیت خنثی کرد. این سیستم توانایی حفظ عملکرد را نشان داد و ۶۷٪ از وظایف را به طور ایمن در چارچوب AgentDojo حل کرد. در مقایسه با سایر دفاعها مانند «ساندویچ پرامپت» (Prompt Sandwiching) و «نورافکنی» (Spotlighting)، CaMeL از نظر امنیتی به طور قابل توجهی بهتر عمل کرد و تقریباً محافظت کاملی در برابر حملات ارائه داد، در حالی که سربارهای متوسطی را متحمل شد. این سربار عمدتاً در استفاده از توکنها ظاهر میشود، با افزایش تقریبی ۲.۸۲ برابری در توکنهای ورودی و ۲.۷۳ برابری در توکنهای خروجی، که با توجه به تضمینهای امنیتی ارائه شده، قابل قبول است.
علاوه بر این، CaMeL با مدیریت دقیق وابستگیها از طریق خطمشیهای مبتنی بر فراداده، آسیبپذیریهای ظریف مانند دستکاریهای جریان داده به کنترل را برطرف میکند. به عنوان مثال، سناریویی که در آن مهاجم تلاش میکند از دستورالعملهایی با ظاهر بیضرر از دادههای ایمیل برای کنترل جریان اجرای سیستم استفاده کند، توسط مکانیسمهای دقیق برچسبگذاری داده و اجرای خطمشی CaMeL به طور مؤثر کاهش مییابد. این محافظت جامع ضروری است، زیرا روشهای متعارف ممکن است نتوانند چنین تهدیدات دستکاری غیرمستقیمی را تشخیص دهند.
در نتیجه، CaMeL پیشرفت قابل توجهی در ایمنسازی سیستمهای عاملمحور مبتنی بر LLM نشان میدهد. توانایی آن در اجرای قوی خطمشیهای امنیتی بدون تغییر LLM زیربنایی، رویکردی قدرتمند و انعطافپذیر برای دفاع در برابر حملات تزریق پرامپت ارائه میدهد. با اتخاذ اصولی از امنیت نرمافزار سنتی، CaMeL نه تنها خطرات صریح تزریق پرامپت را کاهش میدهد، بلکه در برابر حملات پیچیدهای که از دستکاری غیرمستقیم داده استفاده میکنند نیز محافظت میکند. با گسترش ادغام LLM در برنامههای کاربردی حساس، اتخاذ CaMeL میتواند در حفظ اعتماد کاربر و تضمین تعاملات ایمن در اکوسیستمهای دیجیتال پیچیده حیاتی باشد.
مقاله را بررسی کنید. تمام اعتبار این پژوهش متعلق به پژوهشگران این پروژه است. همچنین، میتوانید ما را در توییتر دنبال کنید و فراموش نکنید به سابردیت ۸۵ هزار نفری یادگیری ماشین ما بپیوندید.