اعتبار: تصویر تولید شده توسط VentureBeat با FLUX-pro-1.1-ultra
اعتبار: تصویر تولید شده توسط VentureBeat با FLUX-pro-1.1-ultra

آیا RAG مدل‌های زبانی بزرگ را ناامن‌تر می‌کند؟ تحقیقات بلومبرگ خطرات پنهان را آشکار می‌کند

تولید افزوده بازیابی (RAG) قرار است با ارائه محتوای مبتنی بر واقعیت، به بهبود دقت هوش مصنوعی سازمانی کمک کند. در حالی که این اغلب درست است، یک عارضه جانبی ناخواسته نیز وجود دارد.

بر اساس تحقیقات جدید و شگفت‌انگیزی که امروز توسط بلومبرگ منتشر شده است، RAG به طور بالقوه می‌تواند مدل‌های زبانی بزرگ (LLM) را ناامن کند.

مقاله بلومبرگ با عنوان "مدل‌های زبانی بزرگ RAG ایمن‌تر نیستند: تجزیه و تحلیل ایمنی تولید افزوده بازیابی برای مدل‌های زبانی بزرگ" (RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models)، یازده مدل زبانی بزرگ محبوب از جمله Claude-3.5-Sonnet، Llama-3-8B و GPT-4o را ارزیابی کرد. یافته‌ها با خرد متعارف مبنی بر اینکه RAG ذاتاً سیستم‌های هوش مصنوعی را ایمن‌تر می‌کند، مغایرت دارد. تیم تحقیقاتی بلومبرگ دریافت که هنگام استفاده از RAG، مدل‌هایی که معمولاً از پاسخ دادن به پرسش‌های مضر در تنظیمات استاندارد امتناع می‌کنند، اغلب پاسخ‌های ناایمن تولید می‌کنند.

در کنار تحقیقات RAG، بلومبرگ مقاله دومی را با عنوان "درک و کاهش خطرات هوش مصنوعی مولد در خدمات مالی" (Understanding and Mitigating Risks of Generative AI in Financial Services) منتشر کرد که یک طبقه‌بندی تخصصی از خطرات محتوای هوش مصنوعی برای خدمات مالی ارائه می‌دهد که نگرانی‌های خاص این حوزه را که توسط رویکردهای ایمنی عمومی پوشش داده نمی‌شوند، برطرف می‌کند.

این تحقیق فرضیات گسترده مبنی بر اینکه تولید افزوده بازیابی (RAG) ایمنی هوش مصنوعی را افزایش می‌دهد را به چالش می‌کشد، در حالی که نشان می‌دهد چگونه سیستم‌های محافظ موجود در برطرف کردن خطرات خاص حوزه در برنامه‌های خدمات مالی ناکام هستند.

سباستین گهرمان، رئیس بخش هوش مصنوعی مسئولانه بلومبرگ، به VentureBeat گفت: «سیستم‌ها باید در زمینه‌ای که در آن مستقر شده‌اند ارزیابی شوند، و شما نمی‌توانید فقط حرف دیگران را بپذیرید که می‌گویند، هی، مدل من ایمن است، از آن استفاده کنید، خیالت راحت باشد.»

سیستم‌های RAG می‌توانند مدل‌های زبانی بزرگ را ناامن‌تر کنند، نه ایمن‌تر

RAG به طور گسترده توسط تیم‌های هوش مصنوعی سازمانی برای ارائه محتوای مبتنی بر واقعیت استفاده می‌شود. هدف ارائه اطلاعات دقیق و به روز است.

تحقیقات و پیشرفت‌های زیادی در زمینه RAG در ماه‌های اخیر برای بهبود بیشتر دقت صورت گرفته است. در اوایل این ماه، یک چارچوب منبع باز جدید به نام Open RAG Eval برای کمک به اعتبارسنجی کارایی RAG معرفی شد.

توجه به این نکته مهم است که تحقیق بلومبرگ کارایی RAG یا توانایی آن در کاهش توهم را زیر سوال نمی‌برد. موضوع تحقیق این نیست. بلکه در مورد این است که چگونه استفاده از RAG به طور غیرمنتظره‌ای بر محافظ‌های مدل زبانی بزرگ تأثیر می‌گذارد.

تیم تحقیقاتی دریافت که هنگام استفاده از RAG، مدل‌هایی که معمولاً از پاسخ دادن به پرسش‌های مضر در تنظیمات استاندارد امتناع می‌کنند، اغلب پاسخ‌های ناایمن تولید می‌کنند. به عنوان مثال، پاسخ‌های ناایمن Llama-3-8B هنگام پیاده‌سازی RAG از 0.3٪ به 9.2٪ افزایش یافت.

گهرمان توضیح داد که اگر کاربر یک پرسش مخرب را تایپ کند، بدون اینکه RAG در جای خود باشد، سیستم ایمنی داخلی یا محافظ‌ها معمولاً پرسش را مسدود می‌کنند. با این حال، به دلایلی، وقتی همان پرسش در یک مدل زبانی بزرگ که از RAG استفاده می‌کند صادر می‌شود، سیستم به پرسش مخرب پاسخ می‌دهد، حتی اگر اسناد بازیابی شده خود ایمن باشند.

گهرمان توضیح داد: «آنچه ما دریافتیم این است که اگر از یک مدل زبانی بزرگ به صورت آماده استفاده کنید، اغلب محافظ‌هایی در آن تعبیه شده است که اگر بپرسید، "چگونه این کار غیرقانونی را انجام دهم"، می‌گوید، "متاسفم، نمی‌توانم به شما در انجام این کار کمک کنم." ما دریافتیم که اگر واقعاً این را در یک تنظیمات RAG اعمال کنید، یک اتفاقی که می‌تواند بیفتد این است که زمینه بازیابی شده اضافی، حتی اگر حاوی هیچ اطلاعاتی نباشد که به پرسش مخرب اصلی بپردازد، ممکن است همچنان به آن پرسش اصلی پاسخ دهد.»

RAG چگونه محافظ‌های هوش مصنوعی سازمانی را دور می‌زند؟

بنابراین چرا و چگونه RAG به دور زدن محافظ‌ها کمک می‌کند؟ محققان بلومبرگ کاملاً مطمئن نبودند، اگرچه ایده‌هایی داشتند.

گهرمان این فرضیه را مطرح کرد که نحوه توسعه و آموزش مدل‌های زبانی بزرگ، همسویی‌های ایمنی را برای ورودی‌های بسیار طولانی به طور کامل در نظر نگرفته است. این تحقیق نشان داد که طول زمینه به طور مستقیم بر تخریب ایمنی تأثیر می‌گذارد. در این مقاله آمده است: «مدل‌های زبانی بزرگ با ارائه اسناد بیشتر، آسیب‌پذیرتر می‌شوند و نشان می‌دهد که حتی معرفی یک سند ایمن می‌تواند به طور قابل توجهی رفتار ایمنی را تغییر دهد.»

آماندا استنت، رئیس استراتژی و تحقیقات هوش مصنوعی بلومبرگ، به VentureBeat گفت: «به نظر من نکته بزرگتر این مقاله RAG این است که شما واقعاً نمی‌توانید از این خطر فرار کنید. این ذاتی نحوه عملکرد سیستم‌های RAG است. راه فرار از آن این است که منطق تجاری یا بررسی واقعیت یا محافظ‌هایی را در اطراف سیستم اصلی RAG قرار دهید.»

چرا طبقه‌بندی‌های ایمنی عمومی هوش مصنوعی در خدمات مالی شکست می‌خورند؟

مقاله دوم بلومبرگ یک طبقه‌بندی تخصصی از خطرات محتوای هوش مصنوعی برای خدمات مالی ارائه می‌دهد که به نگرانی‌های خاص حوزه مانند سوء رفتار مالی، افشای محرمانه و روایت‌های خلاف واقع می‌پردازد.

محققان به طور تجربی نشان دادند که سیستم‌های محافظ موجود این خطرات تخصصی را از دست می‌دهند. آنها مدل‌های محافظ منبع باز از جمله Llama Guard، Llama Guard 3، AEGIS و ShieldGemma را در برابر داده‌های جمع‌آوری شده در طول تمرین‌های تیم قرمز آزمایش کردند.

گهرمان توضیح داد: «ما این طبقه‌بندی را توسعه دادیم، و سپس آزمایشی را اجرا کردیم که در آن سیستم‌های محافظ در دسترس عموم را که توسط شرکت‌های دیگر منتشر شده‌اند، گرفتیم و آن را در برابر داده‌هایی که به عنوان بخشی از رویدادهای تیم قرمز در حال انجام خود جمع‌آوری کردیم، اجرا کردیم. ما دریافتیم که این محافظ‌های منبع باز... هیچ یک از مسائل مربوط به صنعت ما را پیدا نمی‌کنند.»

محققان چارچوبی را توسعه دادند که فراتر از مدل‌های ایمنی عمومی می‌رود و بر خطرات منحصر به فرد در محیط‌های مالی حرفه‌ای تمرکز دارد. گهرمان استدلال کرد که مدل‌های محافظ با هدف عمومی معمولاً برای خطرات خاص رو به مصرف‌کننده توسعه یافته‌اند. بنابراین آنها بسیار متمرکز بر سمیت و تعصب هستند. وی خاطرنشان کرد که در حالی که این نگرانی‌ها مهم هستند، لزوماً مختص هیچ صنعت یا حوزه خاصی نیست. نکته کلیدی این تحقیق این است که سازمان‌ها باید طبقه‌بندی خاص دامنه را برای موارد استفاده خاص صنعت و کاربرد خود داشته باشند.

هوش مصنوعی مسئولانه در بلومبرگ

بلومبرگ در طول سال‌ها به عنوان یک ارائه دهنده قابل اعتماد سیستم‌های داده مالی برای خود نامی دست و پا کرده است. از برخی جهات، هوش مصنوعی مولد و سیستم‌های RAG به طور بالقوه می‌توانند به عنوان رقبای تجارت سنتی بلومبرگ دیده شوند و بنابراین ممکن است در این تحقیق سوگیری پنهانی وجود داشته باشد.

استنت گفت: «ما در زمینه ارائه بهترین داده‌ها و تجزیه و تحلیل و گسترده‌ترین توانایی برای کشف، تجزیه و تحلیل و سنتز اطلاعات به مشتریان خود فعالیت می‌کنیم. هوش مصنوعی مولد ابزاری است که واقعاً می‌تواند به کشف، تجزیه و تحلیل و سنتز در بین داده‌ها و تجزیه و تحلیل کمک کند، بنابراین برای ما، این یک مزیت است.»

وی افزود که انواع سوگیری‌هایی که بلومبرگ در مورد راه‌حل‌های هوش مصنوعی خود نگران است، بر امور مالی متمرکز است. مسائلی مانند رانش داده، رانش مدل و اطمینان از وجود نمایش خوب در کل مجموعه تیکرها و اوراق بهاداری که بلومبرگ پردازش می‌کند، بسیار مهم است.

وی بر تعهد این شرکت به شفافیت برای تلاش‌های هوش مصنوعی خود بلومبرگ تأکید کرد.

استنت گفت: «هر چیزی که سیستم خروجی می‌دهد، می‌توانید نه تنها به یک سند، بلکه به مکانی در سند که از آن آمده است، ردیابی کنید.»

پیامدهای عملی برای استقرار هوش مصنوعی سازمانی

برای شرکت‌هایی که به دنبال پیشرو بودن در هوش مصنوعی هستند، تحقیقات بلومبرگ به این معنی است که پیاده‌سازی‌های RAG نیاز به یک بازنگری اساسی در معماری ایمنی دارد. رهبران باید فراتر از دیدن محافظ‌ها و RAG به عنوان اجزای جداگانه حرکت کنند و در عوض سیستم‌های ایمنی یکپارچه را طراحی کنند که به طور خاص پیش‌بینی کنند که چگونه محتوای بازیابی شده ممکن است با محافظ‌های مدل تعامل داشته باشد.

سازمان‌های پیشرو در صنعت نیاز به توسعه طبقه‌بندی خطرات خاص دامنه متناسب با محیط‌های نظارتی خود دارند و از چارچوب‌های ایمنی عمومی هوش مصنوعی به چارچوب‌هایی که به نگرانی‌های تجاری خاص می‌پردازند، تغییر جهت می‌دهند. با ادغام روزافزون هوش مصنوعی در گردش‌های کاری حیاتی، این رویکرد ایمنی را از یک تمرین انطباق به یک تمایز رقابتی تبدیل می‌کند که مشتریان و تنظیم‌کننده‌ها انتظار خواهند داشت.

گهرمان توضیح داد: «این واقعاً با آگاهی از اینکه این مسائل ممکن است رخ دهند، اقدام به اندازه‌گیری واقعی آنها و شناسایی این مسائل و سپس توسعه محافظ‌هایی که مختص برنامه‌ای هستند که در حال ساخت آن هستید، شروع می‌شود.»