حریم خصوصی دادهها هزینه دارد. تکنیکهای امنیتی وجود دارند که از دادههای حساس کاربر، مانند آدرس مشتریان، در برابر مهاجمانی که ممکن است تلاش کنند آنها را از مدلهای هوش مصنوعی استخراج کنند، محافظت میکنند - اما اغلب دقت این مدلها را کاهش میدهند.
محققان MIT اخیراً چارچوبی را بر اساس یک معیار جدید حریم خصوصی به نام PAC Privacy توسعه دادهاند که میتواند عملکرد یک مدل هوش مصنوعی را حفظ کند و در عین حال اطمینان حاصل کند که دادههای حساس، مانند تصاویر پزشکی یا سوابق مالی، از مهاجمان در امان میمانند. اکنون، آنها این کار را یک قدم جلوتر بردهاند و با کارآمدتر کردن روش خود از نظر محاسباتی، موازنه بین دقت و حریم خصوصی را بهبود بخشیدهاند و یک الگوی رسمی ایجاد کردهاند که میتوان از آن برای خصوصیسازی تقریباً هر الگوریتمی بدون نیاز به دسترسی به عملکرد داخلی آن الگوریتم استفاده کرد.
این تیم از نسخه جدید PAC Privacy خود برای خصوصیسازی چندین الگوریتم کلاسیک برای تجزیه و تحلیل دادهها و کارهای یادگیری ماشین استفاده کرد.
آنها همچنین نشان دادند که خصوصیسازی الگوریتمهای "پایدارتر" با روش آنها آسانتر است. پیشبینیهای یک الگوریتم پایدار حتی زمانی که دادههای آموزش آن کمی تغییر میکنند، ثابت میمانند. پایداری بیشتر به یک الگوریتم کمک میکند تا پیشبینیهای دقیقتری در مورد دادههای قبلاً دیدهنشده انجام دهد.
محققان میگویند افزایش کارایی چارچوب جدید PAC Privacy و الگوی چهار مرحلهای که میتوان برای پیادهسازی آن دنبال کرد، استفاده از این تکنیک را در موقعیتهای واقعی آسانتر میکند.
مایوری شریدار، دانشجوی فارغالتحصیل MIT و نویسنده اصلی مقاله در مورد این چارچوب حریم خصوصی، میگوید: «ما تمایل داریم که استحکام و حریم خصوصی را نامرتبط یا حتی در تضاد با ساخت یک الگوریتم با عملکرد بالا در نظر بگیریم. ابتدا، ما یک الگوریتم کارآمد میسازیم، سپس آن را قوی و سپس خصوصی میکنیم. ما نشان دادهایم که این همیشه چارچوببندی درستی نیست. اگر الگوریتم خود را در تنظیمات مختلف بهتر عمل کنید، اساساً میتوانید حریم خصوصی را به صورت رایگان دریافت کنید.»
هنشین شیائو، دارنده مدرک دکترا از سال 2024، که در پاییز به عنوان استادیار در دانشگاه پردو شروع به کار خواهد کرد. و نویسنده ارشد سرینی دوااداس، استاد مهندسی برق ادوین سیبلی وبستر در MIT، در این مقاله به او پیوستهاند. این تحقیق در سمپوزیوم IEEE در مورد امنیت و حریم خصوصی ارائه خواهد شد.
تخمین نویز
برای محافظت از دادههای حساسی که برای آموزش یک مدل هوش مصنوعی استفاده شدهاند، مهندسان اغلب نویز یا تصادفی بودن عمومی را به مدل اضافه میکنند تا حدس زدن دادههای آموزشی اصلی برای یک مهاجم دشوارتر شود. این نویز دقت یک مدل را کاهش میدهد، بنابراین هرچه نویز کمتری اضافه شود، بهتر است.
PAC Privacy به طور خودکار کمترین میزان نویزی را که برای دستیابی به سطح مورد نظر از حریم خصوصی باید به یک الگوریتم اضافه کرد، تخمین میزند.
الگوریتم اصلی PAC Privacy مدل هوش مصنوعی کاربر را بارها بر روی نمونههای مختلف یک مجموعه داده اجرا میکند. این الگوریتم واریانس و همچنین همبستگی بین این خروجیهای متعدد را اندازهگیری میکند و از این اطلاعات برای تخمین میزان نویزی که برای محافظت از دادهها باید اضافه شود، استفاده میکند.
این نوع جدید PAC Privacy به همان روش کار میکند، اما نیازی به نمایش کل ماتریس همبستگی دادهها در بین خروجیها ندارد. فقط به واریانس خروجی نیاز دارد.
شریدار توضیح میدهد: «از آنجایی که چیزی که شما تخمین میزنید بسیار بسیار کوچکتر از کل ماتریس کوواریانس است، میتوانید آن را بسیار بسیار سریعتر انجام دهید.» این بدان معناست که میتوان آن را به مجموعههای داده بسیار بزرگتر مقیاس داد.
اضافه کردن نویز میتواند به سودمندی نتایج آسیب برساند و به حداقل رساندن از دست دادن سودمندی مهم است. به دلیل هزینه محاسباتی، الگوریتم اصلی PAC Privacy محدود به افزودن نویز ایزوتروپیک بود که به طور یکنواخت در همه جهات اضافه میشود. از آنجایی که نوع جدید نویز ناهمسانگرد را تخمین میزند، که متناسب با ویژگیهای خاص دادههای آموزشی است، کاربر میتواند نویز کلی کمتری را برای دستیابی به همان سطح از حریم خصوصی اضافه کند و دقت الگوریتم خصوصیشده را افزایش دهد.
حریم خصوصی و پایداری
همانطور که شریدار PAC Privacy را مطالعه کرد، این فرضیه را مطرح کرد که خصوصیسازی الگوریتمهای پایدارتر با این تکنیک آسانتر خواهد بود. او از نوع کارآمدتر PAC Privacy برای آزمایش این نظریه بر روی چندین الگوریتم کلاسیک استفاده کرد.
الگوریتمهایی که پایدارتر هستند، زمانی که دادههای آموزش آنها کمی تغییر میکنند، واریانس کمتری در خروجیهای خود دارند. PAC Privacy یک مجموعه داده را به قطعات تقسیم میکند، الگوریتم را بر روی هر قطعه از داده اجرا میکند و واریانس بین خروجیها را اندازهگیری میکند. هرچه واریانس بیشتر باشد، نویز بیشتری برای خصوصیسازی الگوریتم باید اضافه شود.
او توضیح میدهد که استفاده از تکنیکهای پایداری برای کاهش واریانس در خروجیهای یک الگوریتم، میزان نویزی را که برای خصوصیسازی آن باید اضافه شود نیز کاهش میدهد.
او میگوید: «در بهترین حالت، میتوانیم این سناریوهای برد-برد را بدست آوریم.»
این تیم نشان داد که این تضمینهای حریم خصوصی با وجود الگوریتمی که آزمایش کردهاند، قوی باقی ماندهاند و نوع جدید PAC Privacy برای تخمین نویز به یک مرتبه بزرگی آزمایش کمتری نیاز دارد. آنها همچنین این روش را در شبیهسازیهای حمله آزمایش کردند و نشان دادند که تضمینهای حریم خصوصی آن میتواند در برابر حملات پیشرفته مقاومت کند.
دوااداس میگوید: «ما میخواهیم بررسی کنیم که چگونه الگوریتمها میتوانند با PAC Privacy به طور مشترک طراحی شوند، به طوری که الگوریتم از ابتدا پایدارتر، ایمنتر و قویتر باشد.» محققان همچنین میخواهند روش خود را با الگوریتمهای پیچیدهتر آزمایش کنند و موازنه حریم خصوصی و سودمندی را بیشتر بررسی کنند.
شریدار میگوید: «سوال اکنون این است: چه زمانی این موقعیتهای برد-برد اتفاق میافتد و چگونه میتوانیم آنها را بیشتر اتفاق دهیم؟»
شیانگیائو یو، استادیار در بخش علوم کامپیوتر در دانشگاه ویسکانسین در مادیسون، که در این مطالعه شرکت نداشت، میگوید: «من فکر میکنم مزیت اصلی PAC Privacy در این زمینه نسبت به سایر تعاریف حریم خصوصی این است که یک جعبه سیاه است - شما نیازی به تجزیه و تحلیل دستی هر پرس و جوی جداگانه برای خصوصیسازی نتایج ندارید. این کار میتواند به طور کامل خودکار انجام شود. ما به طور فعال در حال ساخت یک پایگاه داده فعالشده توسط PAC با گسترش موتورهای SQL موجود برای پشتیبانی از تجزیه و تحلیل دادههای خصوصی عملی، خودکار و کارآمد هستیم.»
این تحقیق تا حدی توسط سیسکو سیستمز، کپیتال وان، وزارت دفاع ایالات متحده و یک بورس تحصیلی MathWorks پشتیبانی میشود.