تولید افزوده بازیابی (RAG) قرار است با ارائه محتوای مبتنی بر واقعیت، به بهبود دقت هوش مصنوعی سازمانی کمک کند. در حالی که این اغلب درست است، یک عارضه جانبی ناخواسته نیز وجود دارد.
بر اساس تحقیقات جدید و شگفتانگیزی که امروز توسط بلومبرگ منتشر شده است، RAG به طور بالقوه میتواند مدلهای زبانی بزرگ (LLM) را ناامن کند.
مقاله بلومبرگ با عنوان "مدلهای زبانی بزرگ RAG ایمنتر نیستند: تجزیه و تحلیل ایمنی تولید افزوده بازیابی برای مدلهای زبانی بزرگ" (RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models)، یازده مدل زبانی بزرگ محبوب از جمله Claude-3.5-Sonnet، Llama-3-8B و GPT-4o را ارزیابی کرد. یافتهها با خرد متعارف مبنی بر اینکه RAG ذاتاً سیستمهای هوش مصنوعی را ایمنتر میکند، مغایرت دارد. تیم تحقیقاتی بلومبرگ دریافت که هنگام استفاده از RAG، مدلهایی که معمولاً از پاسخ دادن به پرسشهای مضر در تنظیمات استاندارد امتناع میکنند، اغلب پاسخهای ناایمن تولید میکنند.
در کنار تحقیقات RAG، بلومبرگ مقاله دومی را با عنوان "درک و کاهش خطرات هوش مصنوعی مولد در خدمات مالی" (Understanding and Mitigating Risks of Generative AI in Financial Services) منتشر کرد که یک طبقهبندی تخصصی از خطرات محتوای هوش مصنوعی برای خدمات مالی ارائه میدهد که نگرانیهای خاص این حوزه را که توسط رویکردهای ایمنی عمومی پوشش داده نمیشوند، برطرف میکند.
این تحقیق فرضیات گسترده مبنی بر اینکه تولید افزوده بازیابی (RAG) ایمنی هوش مصنوعی را افزایش میدهد را به چالش میکشد، در حالی که نشان میدهد چگونه سیستمهای محافظ موجود در برطرف کردن خطرات خاص حوزه در برنامههای خدمات مالی ناکام هستند.
سباستین گهرمان، رئیس بخش هوش مصنوعی مسئولانه بلومبرگ، به VentureBeat گفت: «سیستمها باید در زمینهای که در آن مستقر شدهاند ارزیابی شوند، و شما نمیتوانید فقط حرف دیگران را بپذیرید که میگویند، هی، مدل من ایمن است، از آن استفاده کنید، خیالت راحت باشد.»
سیستمهای RAG میتوانند مدلهای زبانی بزرگ را ناامنتر کنند، نه ایمنتر
RAG به طور گسترده توسط تیمهای هوش مصنوعی سازمانی برای ارائه محتوای مبتنی بر واقعیت استفاده میشود. هدف ارائه اطلاعات دقیق و به روز است.
تحقیقات و پیشرفتهای زیادی در زمینه RAG در ماههای اخیر برای بهبود بیشتر دقت صورت گرفته است. در اوایل این ماه، یک چارچوب منبع باز جدید به نام Open RAG Eval برای کمک به اعتبارسنجی کارایی RAG معرفی شد.
توجه به این نکته مهم است که تحقیق بلومبرگ کارایی RAG یا توانایی آن در کاهش توهم را زیر سوال نمیبرد. موضوع تحقیق این نیست. بلکه در مورد این است که چگونه استفاده از RAG به طور غیرمنتظرهای بر محافظهای مدل زبانی بزرگ تأثیر میگذارد.
تیم تحقیقاتی دریافت که هنگام استفاده از RAG، مدلهایی که معمولاً از پاسخ دادن به پرسشهای مضر در تنظیمات استاندارد امتناع میکنند، اغلب پاسخهای ناایمن تولید میکنند. به عنوان مثال، پاسخهای ناایمن Llama-3-8B هنگام پیادهسازی RAG از 0.3٪ به 9.2٪ افزایش یافت.
گهرمان توضیح داد که اگر کاربر یک پرسش مخرب را تایپ کند، بدون اینکه RAG در جای خود باشد، سیستم ایمنی داخلی یا محافظها معمولاً پرسش را مسدود میکنند. با این حال، به دلایلی، وقتی همان پرسش در یک مدل زبانی بزرگ که از RAG استفاده میکند صادر میشود، سیستم به پرسش مخرب پاسخ میدهد، حتی اگر اسناد بازیابی شده خود ایمن باشند.
گهرمان توضیح داد: «آنچه ما دریافتیم این است که اگر از یک مدل زبانی بزرگ به صورت آماده استفاده کنید، اغلب محافظهایی در آن تعبیه شده است که اگر بپرسید، "چگونه این کار غیرقانونی را انجام دهم"، میگوید، "متاسفم، نمیتوانم به شما در انجام این کار کمک کنم." ما دریافتیم که اگر واقعاً این را در یک تنظیمات RAG اعمال کنید، یک اتفاقی که میتواند بیفتد این است که زمینه بازیابی شده اضافی، حتی اگر حاوی هیچ اطلاعاتی نباشد که به پرسش مخرب اصلی بپردازد، ممکن است همچنان به آن پرسش اصلی پاسخ دهد.»
RAG چگونه محافظهای هوش مصنوعی سازمانی را دور میزند؟
بنابراین چرا و چگونه RAG به دور زدن محافظها کمک میکند؟ محققان بلومبرگ کاملاً مطمئن نبودند، اگرچه ایدههایی داشتند.
گهرمان این فرضیه را مطرح کرد که نحوه توسعه و آموزش مدلهای زبانی بزرگ، همسوییهای ایمنی را برای ورودیهای بسیار طولانی به طور کامل در نظر نگرفته است. این تحقیق نشان داد که طول زمینه به طور مستقیم بر تخریب ایمنی تأثیر میگذارد. در این مقاله آمده است: «مدلهای زبانی بزرگ با ارائه اسناد بیشتر، آسیبپذیرتر میشوند و نشان میدهد که حتی معرفی یک سند ایمن میتواند به طور قابل توجهی رفتار ایمنی را تغییر دهد.»
آماندا استنت، رئیس استراتژی و تحقیقات هوش مصنوعی بلومبرگ، به VentureBeat گفت: «به نظر من نکته بزرگتر این مقاله RAG این است که شما واقعاً نمیتوانید از این خطر فرار کنید. این ذاتی نحوه عملکرد سیستمهای RAG است. راه فرار از آن این است که منطق تجاری یا بررسی واقعیت یا محافظهایی را در اطراف سیستم اصلی RAG قرار دهید.»
چرا طبقهبندیهای ایمنی عمومی هوش مصنوعی در خدمات مالی شکست میخورند؟
مقاله دوم بلومبرگ یک طبقهبندی تخصصی از خطرات محتوای هوش مصنوعی برای خدمات مالی ارائه میدهد که به نگرانیهای خاص حوزه مانند سوء رفتار مالی، افشای محرمانه و روایتهای خلاف واقع میپردازد.
محققان به طور تجربی نشان دادند که سیستمهای محافظ موجود این خطرات تخصصی را از دست میدهند. آنها مدلهای محافظ منبع باز از جمله Llama Guard، Llama Guard 3، AEGIS و ShieldGemma را در برابر دادههای جمعآوری شده در طول تمرینهای تیم قرمز آزمایش کردند.
گهرمان توضیح داد: «ما این طبقهبندی را توسعه دادیم، و سپس آزمایشی را اجرا کردیم که در آن سیستمهای محافظ در دسترس عموم را که توسط شرکتهای دیگر منتشر شدهاند، گرفتیم و آن را در برابر دادههایی که به عنوان بخشی از رویدادهای تیم قرمز در حال انجام خود جمعآوری کردیم، اجرا کردیم. ما دریافتیم که این محافظهای منبع باز... هیچ یک از مسائل مربوط به صنعت ما را پیدا نمیکنند.»
محققان چارچوبی را توسعه دادند که فراتر از مدلهای ایمنی عمومی میرود و بر خطرات منحصر به فرد در محیطهای مالی حرفهای تمرکز دارد. گهرمان استدلال کرد که مدلهای محافظ با هدف عمومی معمولاً برای خطرات خاص رو به مصرفکننده توسعه یافتهاند. بنابراین آنها بسیار متمرکز بر سمیت و تعصب هستند. وی خاطرنشان کرد که در حالی که این نگرانیها مهم هستند، لزوماً مختص هیچ صنعت یا حوزه خاصی نیست. نکته کلیدی این تحقیق این است که سازمانها باید طبقهبندی خاص دامنه را برای موارد استفاده خاص صنعت و کاربرد خود داشته باشند.
هوش مصنوعی مسئولانه در بلومبرگ
بلومبرگ در طول سالها به عنوان یک ارائه دهنده قابل اعتماد سیستمهای داده مالی برای خود نامی دست و پا کرده است. از برخی جهات، هوش مصنوعی مولد و سیستمهای RAG به طور بالقوه میتوانند به عنوان رقبای تجارت سنتی بلومبرگ دیده شوند و بنابراین ممکن است در این تحقیق سوگیری پنهانی وجود داشته باشد.
استنت گفت: «ما در زمینه ارائه بهترین دادهها و تجزیه و تحلیل و گستردهترین توانایی برای کشف، تجزیه و تحلیل و سنتز اطلاعات به مشتریان خود فعالیت میکنیم. هوش مصنوعی مولد ابزاری است که واقعاً میتواند به کشف، تجزیه و تحلیل و سنتز در بین دادهها و تجزیه و تحلیل کمک کند، بنابراین برای ما، این یک مزیت است.»
وی افزود که انواع سوگیریهایی که بلومبرگ در مورد راهحلهای هوش مصنوعی خود نگران است، بر امور مالی متمرکز است. مسائلی مانند رانش داده، رانش مدل و اطمینان از وجود نمایش خوب در کل مجموعه تیکرها و اوراق بهاداری که بلومبرگ پردازش میکند، بسیار مهم است.
وی بر تعهد این شرکت به شفافیت برای تلاشهای هوش مصنوعی خود بلومبرگ تأکید کرد.
استنت گفت: «هر چیزی که سیستم خروجی میدهد، میتوانید نه تنها به یک سند، بلکه به مکانی در سند که از آن آمده است، ردیابی کنید.»
پیامدهای عملی برای استقرار هوش مصنوعی سازمانی
برای شرکتهایی که به دنبال پیشرو بودن در هوش مصنوعی هستند، تحقیقات بلومبرگ به این معنی است که پیادهسازیهای RAG نیاز به یک بازنگری اساسی در معماری ایمنی دارد. رهبران باید فراتر از دیدن محافظها و RAG به عنوان اجزای جداگانه حرکت کنند و در عوض سیستمهای ایمنی یکپارچه را طراحی کنند که به طور خاص پیشبینی کنند که چگونه محتوای بازیابی شده ممکن است با محافظهای مدل تعامل داشته باشد.
سازمانهای پیشرو در صنعت نیاز به توسعه طبقهبندی خطرات خاص دامنه متناسب با محیطهای نظارتی خود دارند و از چارچوبهای ایمنی عمومی هوش مصنوعی به چارچوبهایی که به نگرانیهای تجاری خاص میپردازند، تغییر جهت میدهند. با ادغام روزافزون هوش مصنوعی در گردشهای کاری حیاتی، این رویکرد ایمنی را از یک تمرین انطباق به یک تمایز رقابتی تبدیل میکند که مشتریان و تنظیمکنندهها انتظار خواهند داشت.
گهرمان توضیح داد: «این واقعاً با آگاهی از اینکه این مسائل ممکن است رخ دهند، اقدام به اندازهگیری واقعی آنها و شناسایی این مسائل و سپس توسعه محافظهایی که مختص برنامهای هستند که در حال ساخت آن هستید، شروع میشود.»