یک مدل هوش مصنوعی (AI) فوقالعاده سبک جدید توسعه یافته است که به تولید تصاویر با کیفیت بالا بدون ارسال مستقیم دادههای حساس به سرورها کمک میکند. این پیشرفت فناوری، راه را برای استفاده ایمن از هوش مصنوعی مولد با کارایی بالا در محیطهایی که حریم خصوصی در آنها اهمیت دارد، مانند تجزیه و تحلیل اسکن MRI و CT بیماران، هموار میکند.
یک تیم تحقیقاتی به رهبری پروفسور جائه جون یو از دانشکده تحصیلات تکمیلی هوش مصنوعی در UNIST، از توسعه PRISM (بهبود حفظ حریم خصوصی با ماسکگذاری تصادفی) یک مدل هوش مصنوعی یادگیری فدرال خبر داده است. یافتهها در سرور پیشانتشار arXiv منتشر شدهاند.
یادگیری فدرال (Federated Learning یا FL) یک تکنیک است که امکان ایجاد یک هوش مصنوعی جهانی را با جمعآوری نتایج از هوش مصنوعی محلی هر دستگاه پس از انجام یادگیری بدون نیاز به بارگذاری مستقیم اطلاعات حساس به سرور فراهم میکند.
PRISM به عنوان یک مدل هوش مصنوعی عمل میکند که به عنوان واسط بین هوش مصنوعی محلی و هوش مصنوعی جهانی در طول فرآیند یادگیری فدرال عمل میکند. این مدل هزینههای ارتباطی را به طور متوسط ۳۸٪ در مقایسه با مدلهای موجود کاهش میدهد و اندازه آن به سطح ۱ بیتی کاهش مییابد، که به آن امکان میدهد به طور کارآمد بر روی پردازندهها و حافظه دستگاههای کوچک مانند تلفنهای هوشمند و تبلتها کار کند.
علاوه بر این، PRISM به طور دقیق ارزیابی میکند که به اطلاعات کدام هوش مصنوعی محلی اعتماد کند و آن را در خود جای دهد، حتی در شرایطی که تغییرات قابل توجهی در دادهها و عملکرد در بین هوش مصنوعیهای محلی مختلف وجود دارد، و در نتیجه خروجیهای تولید شده با کیفیت بالا به دست میآید.
به عنوان مثال، هنگام تبدیل یک عکس سلفی به یک تصویر به سبک استودیو گیبلی، روشهای قبلی مستلزم بارگذاری عکس در یک سرور بود که نگرانیهایی را در مورد نقض احتمالی حریم خصوصی ایجاد میکرد. با PRISM، تمام پردازشها روی تلفن هوشمند انجام میشود، از حریم خصوصی شخصی محافظت میکند و نتایج سریعی را امکانپذیر میکند. با این حال، توجه به این نکته مهم است که توسعه مدل هوش مصنوعی محلی (AI model) مدل که قادر به تولید تصاویر بر روی تلفن هوشمند باشد، یک الزام جداگانه است.
نتایج تجربی روی مجموعهدادههایی که معمولاً برای اعتبارسنجی عملکرد هوش مصنوعی استفاده میشوند، از جمله MNIST، FMNIST، CelebA و CIFAR10، نشان داد که PRISM نه تنها حجم ارتباطات را کاهش میدهد، بلکه در مقایسه با روشهای سنتی، تولید تصویر با کیفیت بالاتری نیز تولید میکند. به طور مشخص، آزمایشهای اضافی با استفاده از مجموعه داده MNIST سازگاری با مدلهای انتشار (diffusion models) را که عمدتاً برای تولید تصاویر به سبک استودیو گیبلی استفاده میشوند، تأیید کرد.
تیم تحقیقاتی با استفاده از یک روش ماسک باینری تصادفی (stochastic binary mask method) که به طور انتخابی فقط اطلاعات مهم را به جای اشتراکگذاری پارامترهای گسترده به اشتراک میگذارد، کارایی ارتباطات را افزایش داد. علاوه بر این، استفاده از Maximum Mean Discrepancy (MMD) برای ارزیابی دقیق کیفیت تولید و استراتژیهای Mask-Aware Dynamic Aggregation (MADA) که سهم هر هوش مصنوعی محلی را متفاوت جمعآوری میکند، به کاهش اختلافات دادهها و بیثباتی آموزش کمک کرد.
پروفسور یو اظهار داشت: "رویکرد ما نه تنها در تولید تصویر، بلکه در تولید متن، شبیهسازی دادهها و مستندسازی خودکار نیز قابل استفاده است، و آن را به یک راه حل موثر و ایمن در زمینههایی تبدیل میکند که با اطلاعات حساس، مانند مراقبتهای بهداشتی و امور مالی، سروکار دارند."
این تحقیق با همکاری پروفسور دونگ جون هان از دانشگاه یونسی انجام شد و کیونگکوک سئو، محقق UNIST، به عنوان نویسنده اول در آن شرکت داشت.
یافتههای تحقیق در سیزدهمین کنفرانس بینالمللی نمایش یادگیری (ICLR 2025) که در تاریخ ۲۴ تا ۲۸ آوریل در سنگاپور برگزار میشود، ارائه خواهد شد.
اطلاعات بیشتر:
Kyeongkook Seo et al, PRISM: Privacy-Preserving Improved Stochastic Masking for Federated Generative Models, arXiv (2025). DOI: 10.48550/arxiv.2503.08085
اطلاعات مجله: arXiv
ارائه شده توسط موسسه ملی علوم و فناوری اولسان