نتایج کیفی در سناریوی IID با بودجه حفظ حریم خصوصی. اعتبار: <i>arXiv</i> (۲۰۲۵). DOI: 10.48550/arxiv.2503.08085
نتایج کیفی در سناریوی IID با بودجه حفظ حریم خصوصی. اعتبار: <i>arXiv</i> (۲۰۲۵). DOI: 10.48550/arxiv.2503.08085

مدل هوش مصنوعی سبک، تولید تصاویر با کیفیت بالا را بدون انتقال مستقیم داده‌های حساس تسهیل می‌کند

یک مدل هوش مصنوعی (AI) فوق‌العاده سبک جدید توسعه یافته است که به تولید تصاویر با کیفیت بالا بدون ارسال مستقیم داده‌های حساس به سرورها کمک می‌کند. این پیشرفت فناوری، راه را برای استفاده ایمن از هوش مصنوعی مولد با کارایی بالا در محیط‌هایی که حریم خصوصی در آنها اهمیت دارد، مانند تجزیه و تحلیل اسکن MRI و CT بیماران، هموار می‌کند.

یک تیم تحقیقاتی به رهبری پروفسور جائه جون یو از دانشکده تحصیلات تکمیلی هوش مصنوعی در UNIST، از توسعه PRISM (بهبود حفظ حریم خصوصی با ماسک‌گذاری تصادفی) یک مدل هوش مصنوعی یادگیری فدرال خبر داده است. یافته‌ها در سرور پیش‌انتشار arXiv منتشر شده‌اند.

یادگیری فدرال (Federated Learning یا FL) یک تکنیک است که امکان ایجاد یک هوش مصنوعی جهانی را با جمع‌آوری نتایج از هوش مصنوعی محلی هر دستگاه پس از انجام یادگیری بدون نیاز به بارگذاری مستقیم اطلاعات حساس به سرور فراهم می‌کند.

PRISM به عنوان یک مدل هوش مصنوعی عمل می‌کند که به عنوان واسط بین هوش مصنوعی محلی و هوش مصنوعی جهانی در طول فرآیند یادگیری فدرال عمل می‌کند. این مدل هزینه‌های ارتباطی را به طور متوسط ​​۳۸٪ در مقایسه با مدل‌های موجود کاهش می‌دهد و اندازه آن به سطح ۱ بیتی کاهش می‌یابد، که به آن امکان می‌دهد به طور کارآمد بر روی پردازنده‌ها و حافظه دستگاه‌های کوچک مانند تلفن‌های هوشمند و تبلت‌ها کار کند.

علاوه بر این، PRISM به طور دقیق ارزیابی می‌کند که به اطلاعات کدام هوش مصنوعی محلی اعتماد کند و آن را در خود جای دهد، حتی در شرایطی که تغییرات قابل توجهی در داده‌ها و عملکرد در بین هوش مصنوعی‌های محلی مختلف وجود دارد، و در نتیجه خروجی‌های تولید شده با کیفیت بالا به دست می‌آید.

به عنوان مثال، هنگام تبدیل یک عکس سلفی به یک تصویر به سبک استودیو گیبلی، روش‌های قبلی مستلزم بارگذاری عکس در یک سرور بود که نگرانی‌هایی را در مورد نقض احتمالی حریم خصوصی ایجاد می‌کرد. با PRISM، تمام پردازش‌ها روی تلفن هوشمند انجام می‌شود، از حریم خصوصی شخصی محافظت می‌کند و نتایج سریعی را امکان‌پذیر می‌کند. با این حال، توجه به این نکته مهم است که توسعه مدل هوش مصنوعی محلی (AI model) که قادر به تولید تصاویر بر روی تلفن هوشمند باشد، یک الزام جداگانه است.

نتایج تجربی روی مجموعه‌داده‌هایی که معمولاً برای اعتبارسنجی عملکرد هوش مصنوعی استفاده می‌شوند، از جمله MNIST، FMNIST، CelebA و CIFAR10، نشان داد که PRISM نه تنها حجم ارتباطات را کاهش می‌دهد، بلکه در مقایسه با روش‌های سنتی، تولید تصویر با کیفیت بالاتری نیز تولید می‌کند. به طور مشخص، آزمایش‌های اضافی با استفاده از مجموعه داده MNIST سازگاری با مدل‌های انتشار (diffusion models) را که عمدتاً برای تولید تصاویر به سبک استودیو گیبلی استفاده می‌شوند، تأیید کرد.

تیم تحقیقاتی با استفاده از یک روش ماسک باینری تصادفی (stochastic binary mask method) که به طور انتخابی فقط اطلاعات مهم را به جای اشتراک‌گذاری پارامترهای گسترده به اشتراک می‌گذارد، کارایی ارتباطات را افزایش داد. علاوه بر این، استفاده از Maximum Mean Discrepancy (MMD) برای ارزیابی دقیق کیفیت تولید و استراتژی‌های Mask-Aware Dynamic Aggregation (MADA) که سهم هر هوش مصنوعی محلی را متفاوت جمع‌آوری می‌کند، به کاهش اختلافات داده‌ها و بی‌ثباتی آموزش کمک کرد.

پروفسور یو اظهار داشت: "رویکرد ما نه تنها در تولید تصویر، بلکه در تولید متن، شبیه‌سازی داده‌ها و مستندسازی خودکار نیز قابل استفاده است، و آن را به یک راه حل موثر و ایمن در زمینه‌هایی تبدیل می‌کند که با اطلاعات حساس، مانند مراقبت‌های بهداشتی و امور مالی، سروکار دارند."

این تحقیق با همکاری پروفسور دونگ جون هان از دانشگاه یونسی انجام شد و کیونگ‌کوک سئو، محقق UNIST، به عنوان نویسنده اول در آن شرکت داشت.

یافته‌های تحقیق در سیزدهمین کنفرانس بین‌المللی نمایش یادگیری (ICLR 2025) که در تاریخ ۲۴ تا ۲۸ آوریل در سنگاپور برگزار می‌شود، ارائه خواهد شد.

اطلاعات بیشتر:

Kyeongkook Seo et al, PRISM: Privacy-Preserving Improved Stochastic Masking for Federated Generative Models, arXiv (2025). DOI: 10.48550/arxiv.2503.08085

اطلاعات مجله: arXiv

ارائه شده توسط موسسه ملی علوم و فناوری اولسان