مدلهای زبانی بزرگ (LLM) به سرعت به بخشی جداییناپذیر از چشمانداز دیجیتال ما تبدیل شدهاند و همهچیز، از چتباتها گرفته تا تولیدکنندگان کد را قدرت میبخشند. با این حال، با افزایش اتکای این سیستمهای هوش مصنوعی به مدلهای اختصاصی و میزبانیشده در ابر، نگرانیها در مورد حریم خصوصی کاربر و امنیت دادهها افزایش یافته است. چگونه میتوانیم از قدرت هوش مصنوعی بهره ببریم بدون اینکه دادههای حساس را در معرض خطر قرار دهیم؟
مطالعهای اخیر با عنوان «توجه هدایتشده با آنتروپی برای LLMهای خصوصی» توسط ناندان کومار جا، دانشجوی دکترا در مرکز امنیت سایبری دانشگاه نیویورک (CCS)، و برندون ریگان، استادیار دپارتمان مهندسی برق و کامپیوتر و عضو CCS، رویکردی نوین برای امنتر کردن هوش مصنوعی معرفی میکند.
این مقاله در کارگاه AAAI با موضوع هوش مصنوعی حافظ حریم خصوصی (PPAI 25) در اوایل ماه مارس ارائه شد و در سرور پیشچاپ arXiv در دسترس است.
محققان به بررسی یک ویژگی بنیادی و در عین حال اغلب نادیده گرفته شده شبکههای عصبی میپردازند: آنتروپی (entropy) – معیاری برای عدم قطعیت اطلاعات در یک سیستم. کار آنها پیشنهاد میکند که با درک نقش آنتروپی در معماریهای هوش مصنوعی، میتوانیم حریم خصوصی، کارایی و قابلیت اطمینان LLMها را بهبود بخشیم.
پارادوکس حریم خصوصی در هوش مصنوعی
هنگامی که با مدلهای هوش مصنوعی تعامل داریم - چه از یک دستیار مجازی برای مشاوره پزشکی بپرسیم یا از ابزارهای تحقیقاتی حقوقی مبتنی بر هوش مصنوعی استفاده کنیم - دادههای ورودی ما معمولاً در ابر پردازش میشوند. این بدان معناست که پرسشهای کاربر، حتی اگر در حین انتقال رمزگذاری شده باشند، در نهایت برای پردازش توسط مدل، رمزگشایی میشوند. این امر یک خطر اساسی برای حریم خصوصی ایجاد میکند: دادههای حساس میتوانند، چه به طور ناخواسته از طریق نشت اطلاعات و چه به صورت مخرب از طریق حملات سایبری، افشا شوند.
برای طراحی LLMهای خصوصی کارآمد، محققان باید در معماریای که این مدلها بر اساس آن ساخته شدهاند، بازنگری کنند. با این حال، حذف ساده توابع غیرخطی، آموزش را بیثبات کرده و عملکرد اصلی اجزایی مانند مکانیزم توجه را مختل میکند.
جا میگوید: «توابع غیرخطی، مایه حیات شبکههای عصبی هستند. آنها مدلها را قادر میسازند تا نمایشهای غنی را یاد بگیرند و الگوهای پیچیده را ثبت کنند.»
حوزه استنتاج خصوصی (PI یا Private Inference) با هدف حل این مشکل از طریق امکان دادن به مدلهای هوش مصنوعی برای کار مستقیم روی دادههای رمزگذاری شده، به دنبال این است که تضمین کند نه کاربر و نه ارائهدهنده مدل هرگز ورودی خام را نمیبینند. با این حال، PI هزینههای محاسباتی قابل توجهی دارد. روشهای رمزگذاری که از حریم خصوصی محافظت میکنند، محاسبات را نیز پیچیدهتر میکنند که منجر به تأخیر و مصرف انرژی بالاتر میشود – دو مانع اصلی برای استقرار عملی.
برای مقابله با این چالشها، تحقیقات جا و ریگان بر تحولات غیرخطی در مدلهای هوش مصنوعی متمرکز است. در یادگیری عمیق، توابع غیرخطی مانند توابع فعالسازی نقش مهمی در شکلدهی نحوه پردازش اطلاعات توسط مدلها دارند. محققان بررسی میکنند که چگونه این غیرخطیبودنها بر آنتروپی تأثیر میگذارند – به طور خاص، تنوع اطلاعاتی که از لایههای مختلف یک مدل ترانسفورمر عبور میکند.
جا میگوید: «کار ما مستقیماً به این چالش میپردازد و رویکردی اساساً متفاوت برای حریم خصوصی اتخاذ میکند. این رویکرد عملیات غیرخطی را حذف میکند و در عین حال تا حد امکان عملکرد مدل را حفظ میکند.»
آنها با استفاده از آنتروپی شانون به عنوان یک معیار کمی، دو حالت شکست کلیدی را آشکار میکنند که هنگام حذف غیرخطیبودن رخ میدهد:
- فروپاشی آنتروپی (لایههای عمیق): در غیاب غیرخطیبودن، لایههای بعدی در شبکه نمیتوانند اطلاعات مفید را حفظ کنند، که منجر به آموزش ناپایدار میشود.
- سرریز آنتروپیک (لایههای اولیه): بدون کنترل مناسب آنتروپی، لایههای اولیه نمیتوانند به طور مؤثر از مکانیزم توجه چندسر (MHA یا Multi-Head Attention) استفاده کنند و توانایی مدل برای ثبت نمایشهای متنوع کاهش مییابد.
این بینش جدید است – نشان میدهد که آنتروپی فقط یک مفهوم انتزاعی ریاضی نیست، بلکه یک اصل طراحی کلیدی است که تعیین میکند آیا یک مدل میتواند به درستی عمل کند یا خیر.
طرحی نوین برای هوش مصنوعی
محققان با بهرهگیری از این یافتهها، یک مکانیزم توجه هدایتشده با آنتروپی را پیشنهاد میکنند که به صورت پویا جریان اطلاعات را در مدلهای ترانسفورمر تنظیم میکند. رویکرد آنها شامل تنظیمسازی آنتروپی (Entropy Regularization) – تکنیک جدیدی که از اشباع لایههای اولیه با اطلاعات بیش از حد جلوگیری میکند – و نرمالسازی سازگار با استنتاج خصوصی (PI-Friendly Normalization) – روشهای جایگزین برای نرمالسازی لایه استاندارد که به تثبیت آموزش کمک کرده و در عین حال حریم خصوصی را حفظ میکنند – میشود.
آنها با تنظیم استراتژیک آنتروپی توزیعهای توجه، توانستند رفتار منسجم و قابل آموزش را حتی در مدلهای به شدت سادهشده حفظ کنند. این امر تضمین میکند که وزنهای توجه معنادار باقی بمانند و از الگوهای منحط که معمولاً پس از حذف غیرخطیبودن به وجود میآیند، جلوگیری شود؛ الگوهایی که در آنها تعداد نامتناسبی از سرها رفتار افراطی نشان میدهند – یا به توجه تقریباً تکنقطهای (آنتروپی پایین) فرو میپاشند یا توجه را به طور یکنواخت پخش میکنند (آنتروپی بالا) – که هر دو توانایی مدل برای تمرکز و تعمیم را مختل میکنند.
این کار شکاف بین نظریه اطلاعات و طراحی معماری را پر میکند و دینامیک آنتروپی را به عنوان راهنمای اصولی برای توسعه LLMهای کارآمد حافظ حریم خصوصی تثبیت میکند. این نشاندهنده گامی حیاتی به سوی عملیتر و کارآمدتر کردن هوش مصنوعی حافظ حریم خصوصی در کاربردهای دنیای واقعی است. با پر کردن شکاف بین نظریه اطلاعات و طراحی معماری عصبی، کار آنها نقشهراهی برای توسعه مدلهای هوش مصنوعی ارائه میدهد که نه تنها خصوصیتر هستند، بلکه از نظر محاسباتی نیز کارآمدترند.
این تیم پیادهسازی خود را نیز متنباز کردهاند و از محققان و توسعهدهندگان دعوت میکنند تا رویکرد هدایتشده با آنتروپی آنها را آزمایش کنند.
اطلاعات بیشتر: Nandan Kumar Jha et al, Entropy-Guided Attention for Private LLMs, arXiv (2025). DOI: 10.48550/arxiv.2501.03489
ارائه شده توسط دانشکده مهندسی تندن دانشگاه نیویورک