محققان MIT یک تکنیک حریم خصوصی داده‌ها را بهبود بخشیدند تا از نظر محاسباتی کارآمدتر باشد و دقت الگوریتم‌های هوش مصنوعی را که روی آن اعمال می‌شود، افزایش دهد. تصویر: MIT News; iStock
محققان MIT یک تکنیک حریم خصوصی داده‌ها را بهبود بخشیدند تا از نظر محاسباتی کارآمدتر باشد و دقت الگوریتم‌های هوش مصنوعی را که روی آن اعمال می‌شود، افزایش دهد. تصویر: MIT News; iStock

روش جدید به طور کارآمد از داده‌های حساس آموزش هوش مصنوعی محافظت می‌کند

این رویکرد دقت مدل هوش مصنوعی را حفظ می‌کند و در عین حال اطمینان می‌دهد که مهاجمان نمی‌توانند اطلاعات مخفی را استخراج کنند.

حریم خصوصی داده‌ها هزینه دارد. تکنیک‌های امنیتی وجود دارند که از داده‌های حساس کاربر، مانند آدرس مشتریان، در برابر مهاجمانی که ممکن است تلاش کنند آن‌ها را از مدل‌های هوش مصنوعی استخراج کنند، محافظت می‌کنند - اما اغلب دقت این مدل‌ها را کاهش می‌دهند.

محققان MIT اخیراً چارچوبی را بر اساس یک معیار جدید حریم خصوصی به نام PAC Privacy توسعه داده‌اند که می‌تواند عملکرد یک مدل هوش مصنوعی را حفظ کند و در عین حال اطمینان حاصل کند که داده‌های حساس، مانند تصاویر پزشکی یا سوابق مالی، از مهاجمان در امان می‌مانند. اکنون، آن‌ها این کار را یک قدم جلوتر برده‌اند و با کارآمدتر کردن روش خود از نظر محاسباتی، موازنه بین دقت و حریم خصوصی را بهبود بخشیده‌اند و یک الگوی رسمی ایجاد کرده‌اند که می‌توان از آن برای خصوصی‌سازی تقریباً هر الگوریتمی بدون نیاز به دسترسی به عملکرد داخلی آن الگوریتم استفاده کرد.

این تیم از نسخه جدید PAC Privacy خود برای خصوصی‌سازی چندین الگوریتم کلاسیک برای تجزیه و تحلیل داده‌ها و کارهای یادگیری ماشین استفاده کرد.

آن‌ها همچنین نشان دادند که خصوصی‌سازی الگوریتم‌های "پایدارتر" با روش آن‌ها آسان‌تر است. پیش‌بینی‌های یک الگوریتم پایدار حتی زمانی که داده‌های آموزش آن کمی تغییر می‌کنند، ثابت می‌مانند. پایداری بیشتر به یک الگوریتم کمک می‌کند تا پیش‌بینی‌های دقیق‌تری در مورد داده‌های قبلاً دیده‌نشده انجام دهد.

محققان می‌گویند افزایش کارایی چارچوب جدید PAC Privacy و الگوی چهار مرحله‌ای که می‌توان برای پیاده‌سازی آن دنبال کرد، استفاده از این تکنیک را در موقعیت‌های واقعی آسان‌تر می‌کند.

مایوری شریدار، دانشجوی فارغ‌التحصیل MIT و نویسنده اصلی مقاله در مورد این چارچوب حریم خصوصی، می‌گوید: «ما تمایل داریم که استحکام و حریم خصوصی را نامرتبط یا حتی در تضاد با ساخت یک الگوریتم با عملکرد بالا در نظر بگیریم. ابتدا، ما یک الگوریتم کارآمد می‌سازیم، سپس آن را قوی و سپس خصوصی می‌کنیم. ما نشان داده‌ایم که این همیشه چارچوب‌بندی درستی نیست. اگر الگوریتم خود را در تنظیمات مختلف بهتر عمل کنید، اساساً می‌توانید حریم خصوصی را به صورت رایگان دریافت کنید.»

هنشین شیائو، دارنده مدرک دکترا از سال 2024، که در پاییز به عنوان استادیار در دانشگاه پردو شروع به کار خواهد کرد. و نویسنده ارشد سرینی دوااداس، استاد مهندسی برق ادوین سیبلی وبستر در MIT، در این مقاله به او پیوسته‌اند. این تحقیق در سمپوزیوم IEEE در مورد امنیت و حریم خصوصی ارائه خواهد شد.

تخمین نویز

برای محافظت از داده‌های حساسی که برای آموزش یک مدل هوش مصنوعی استفاده شده‌اند، مهندسان اغلب نویز یا تصادفی بودن عمومی را به مدل اضافه می‌کنند تا حدس زدن داده‌های آموزشی اصلی برای یک مهاجم دشوارتر شود. این نویز دقت یک مدل را کاهش می‌دهد، بنابراین هرچه نویز کمتری اضافه شود، بهتر است.

PAC Privacy به طور خودکار کمترین میزان نویزی را که برای دستیابی به سطح مورد نظر از حریم خصوصی باید به یک الگوریتم اضافه کرد، تخمین می‌زند.

الگوریتم اصلی PAC Privacy مدل هوش مصنوعی کاربر را بارها بر روی نمونه‌های مختلف یک مجموعه داده اجرا می‌کند. این الگوریتم واریانس و همچنین همبستگی بین این خروجی‌های متعدد را اندازه‌گیری می‌کند و از این اطلاعات برای تخمین میزان نویزی که برای محافظت از داده‌ها باید اضافه شود، استفاده می‌کند.

این نوع جدید PAC Privacy به همان روش کار می‌کند، اما نیازی به نمایش کل ماتریس همبستگی داده‌ها در بین خروجی‌ها ندارد. فقط به واریانس خروجی نیاز دارد.

شریدار توضیح می‌دهد: «از آنجایی که چیزی که شما تخمین می‌زنید بسیار بسیار کوچکتر از کل ماتریس کوواریانس است، می‌توانید آن را بسیار بسیار سریعتر انجام دهید.» این بدان معناست که می‌توان آن را به مجموعه‌های داده بسیار بزرگتر مقیاس داد.

اضافه کردن نویز می‌تواند به سودمندی نتایج آسیب برساند و به حداقل رساندن از دست دادن سودمندی مهم است. به دلیل هزینه محاسباتی، الگوریتم اصلی PAC Privacy محدود به افزودن نویز ایزوتروپیک بود که به طور یکنواخت در همه جهات اضافه می‌شود. از آنجایی که نوع جدید نویز ناهمسانگرد را تخمین می‌زند، که متناسب با ویژگی‌های خاص داده‌های آموزشی است، کاربر می‌تواند نویز کلی کمتری را برای دستیابی به همان سطح از حریم خصوصی اضافه کند و دقت الگوریتم خصوصی‌شده را افزایش دهد.

حریم خصوصی و پایداری

همانطور که شریدار PAC Privacy را مطالعه کرد، این فرضیه را مطرح کرد که خصوصی‌سازی الگوریتم‌های پایدارتر با این تکنیک آسان‌تر خواهد بود. او از نوع کارآمدتر PAC Privacy برای آزمایش این نظریه بر روی چندین الگوریتم کلاسیک استفاده کرد.

الگوریتم‌هایی که پایدارتر هستند، زمانی که داده‌های آموزش آن‌ها کمی تغییر می‌کنند، واریانس کمتری در خروجی‌های خود دارند. PAC Privacy یک مجموعه داده را به قطعات تقسیم می‌کند، الگوریتم را بر روی هر قطعه از داده اجرا می‌کند و واریانس بین خروجی‌ها را اندازه‌گیری می‌کند. هرچه واریانس بیشتر باشد، نویز بیشتری برای خصوصی‌سازی الگوریتم باید اضافه شود.

او توضیح می‌دهد که استفاده از تکنیک‌های پایداری برای کاهش واریانس در خروجی‌های یک الگوریتم، میزان نویزی را که برای خصوصی‌سازی آن باید اضافه شود نیز کاهش می‌دهد.

او می‌گوید: «در بهترین حالت، می‌توانیم این سناریوهای برد-برد را بدست آوریم.»

این تیم نشان داد که این تضمین‌های حریم خصوصی با وجود الگوریتمی که آزمایش کرده‌اند، قوی باقی مانده‌اند و نوع جدید PAC Privacy برای تخمین نویز به یک مرتبه بزرگی آزمایش کمتری نیاز دارد. آن‌ها همچنین این روش را در شبیه‌سازی‌های حمله آزمایش کردند و نشان دادند که تضمین‌های حریم خصوصی آن می‌تواند در برابر حملات پیشرفته مقاومت کند.

دوااداس می‌گوید: «ما می‌خواهیم بررسی کنیم که چگونه الگوریتم‌ها می‌توانند با PAC Privacy به طور مشترک طراحی شوند، به طوری که الگوریتم از ابتدا پایدارتر، ایمن‌تر و قوی‌تر باشد.» محققان همچنین می‌خواهند روش خود را با الگوریتم‌های پیچیده‌تر آزمایش کنند و موازنه حریم خصوصی و سودمندی را بیشتر بررسی کنند.

شریدار می‌گوید: «سوال اکنون این است: چه زمانی این موقعیت‌های برد-برد اتفاق می‌افتد و چگونه می‌توانیم آن‌ها را بیشتر اتفاق دهیم؟»

شیانگیائو یو، استادیار در بخش علوم کامپیوتر در دانشگاه ویسکانسین در مادیسون، که در این مطالعه شرکت نداشت، می‌گوید: «من فکر می‌کنم مزیت اصلی PAC Privacy در این زمینه نسبت به سایر تعاریف حریم خصوصی این است که یک جعبه سیاه است - شما نیازی به تجزیه و تحلیل دستی هر پرس و جوی جداگانه برای خصوصی‌سازی نتایج ندارید. این کار می‌تواند به طور کامل خودکار انجام شود. ما به طور فعال در حال ساخت یک پایگاه داده فعال‌شده توسط PAC با گسترش موتورهای SQL موجود برای پشتیبانی از تجزیه و تحلیل داده‌های خصوصی عملی، خودکار و کارآمد هستیم.»

این تحقیق تا حدی توسط سیسکو سیستمز، کپیتال وان، وزارت دفاع ایالات متحده و یک بورس تحصیلی MathWorks پشتیبانی می‌شود.