تصویری از مدل تهدید و پروتکل‌های رمزنگاری مورد استفاده برای استنتاج خصوصی LLM. منبع: <i>arXiv</i> (2025).
تصویری از مدل تهدید و پروتکل‌های رمزنگاری مورد استفاده برای استنتاج خصوصی LLM. منبع: <i>arXiv</i> (2025).

رمزگشایی هوش مصنوعی خصوصی: نقش آنتروپی در مدل‌های زبان امن

تصویری از مدل تهدید و پروتکل‌های رمزنگاری مورد استفاده برای استنتاج خصوصی LLM.
تصویری از مدل تهدید و پروتکل‌های رمزنگاری مورد استفاده برای استنتاج خصوصی LLM. منبع: <i>arXiv</i> (2025).

مدل‌های زبانی بزرگ (LLM) به سرعت به بخشی جدایی‌ناپذیر از چشم‌انداز دیجیتال ما تبدیل شده‌اند و همه‌چیز، از چت‌بات‌ها گرفته تا تولیدکنندگان کد را قدرت می‌بخشند. با این حال، با افزایش اتکای این سیستم‌های هوش مصنوعی به مدل‌های اختصاصی و میزبانی‌شده در ابر، نگرانی‌ها در مورد حریم خصوصی کاربر و امنیت داده‌ها افزایش یافته است. چگونه می‌توانیم از قدرت هوش مصنوعی بهره ببریم بدون اینکه داده‌های حساس را در معرض خطر قرار دهیم؟

مطالعه‌ای اخیر با عنوان «توجه هدایت‌شده با آنتروپی برای LLMهای خصوصی» توسط ناندان کومار جا، دانشجوی دکترا در مرکز امنیت سایبری دانشگاه نیویورک (CCS)، و برندون ریگان، استادیار دپارتمان مهندسی برق و کامپیوتر و عضو CCS، رویکردی نوین برای امن‌تر کردن هوش مصنوعی معرفی می‌کند.

این مقاله در کارگاه AAAI با موضوع هوش مصنوعی حافظ حریم خصوصی (PPAI 25) در اوایل ماه مارس ارائه شد و در سرور پیش‌چاپ arXiv در دسترس است.

محققان به بررسی یک ویژگی بنیادی و در عین حال اغلب نادیده گرفته شده شبکه‌های عصبی می‌پردازند: آنتروپی (entropy) – معیاری برای عدم قطعیت اطلاعات در یک سیستم. کار آن‌ها پیشنهاد می‌کند که با درک نقش آنتروپی در معماری‌های هوش مصنوعی، می‌توانیم حریم خصوصی، کارایی و قابلیت اطمینان LLMها را بهبود بخشیم.

پارادوکس حریم خصوصی در هوش مصنوعی

هنگامی که با مدل‌های هوش مصنوعی تعامل داریم - چه از یک دستیار مجازی برای مشاوره پزشکی بپرسیم یا از ابزارهای تحقیقاتی حقوقی مبتنی بر هوش مصنوعی استفاده کنیم - داده‌های ورودی ما معمولاً در ابر پردازش می‌شوند. این بدان معناست که پرسش‌های کاربر، حتی اگر در حین انتقال رمزگذاری شده باشند، در نهایت برای پردازش توسط مدل، رمزگشایی می‌شوند. این امر یک خطر اساسی برای حریم خصوصی ایجاد می‌کند: داده‌های حساس می‌توانند، چه به طور ناخواسته از طریق نشت اطلاعات و چه به صورت مخرب از طریق حملات سایبری، افشا شوند.

برای طراحی LLMهای خصوصی کارآمد، محققان باید در معماری‌ای که این مدل‌ها بر اساس آن ساخته شده‌اند، بازنگری کنند. با این حال، حذف ساده توابع غیرخطی، آموزش را بی‌ثبات کرده و عملکرد اصلی اجزایی مانند مکانیزم توجه را مختل می‌کند.

جا می‌گوید: «توابع غیرخطی، مایه حیات شبکه‌های عصبی هستند. آن‌ها مدل‌ها را قادر می‌سازند تا نمایش‌های غنی را یاد بگیرند و الگوهای پیچیده را ثبت کنند.»

حوزه استنتاج خصوصی (PI یا Private Inference) با هدف حل این مشکل از طریق امکان دادن به مدل‌های هوش مصنوعی برای کار مستقیم روی داده‌های رمزگذاری شده، به دنبال این است که تضمین کند نه کاربر و نه ارائه‌دهنده مدل هرگز ورودی خام را نمی‌بینند. با این حال، PI هزینه‌های محاسباتی قابل توجهی دارد. روش‌های رمزگذاری که از حریم خصوصی محافظت می‌کنند، محاسبات را نیز پیچیده‌تر می‌کنند که منجر به تأخیر و مصرف انرژی بالاتر می‌شود – دو مانع اصلی برای استقرار عملی.

برای مقابله با این چالش‌ها، تحقیقات جا و ریگان بر تحولات غیرخطی در مدل‌های هوش مصنوعی متمرکز است. در یادگیری عمیق، توابع غیرخطی مانند توابع فعال‌سازی نقش مهمی در شکل‌دهی نحوه پردازش اطلاعات توسط مدل‌ها دارند. محققان بررسی می‌کنند که چگونه این غیرخطی‌بودن‌ها بر آنتروپی تأثیر می‌گذارند – به طور خاص، تنوع اطلاعاتی که از لایه‌های مختلف یک مدل ترانسفورمر عبور می‌کند.

جا می‌گوید: «کار ما مستقیماً به این چالش می‌پردازد و رویکردی اساساً متفاوت برای حریم خصوصی اتخاذ می‌کند. این رویکرد عملیات غیرخطی را حذف می‌کند و در عین حال تا حد امکان عملکرد مدل را حفظ می‌کند.»

آن‌ها با استفاده از آنتروپی شانون به عنوان یک معیار کمی، دو حالت شکست کلیدی را آشکار می‌کنند که هنگام حذف غیرخطی‌بودن رخ می‌دهد:

  1. فروپاشی آنتروپی (لایه‌های عمیق): در غیاب غیرخطی‌بودن، لایه‌های بعدی در شبکه نمی‌توانند اطلاعات مفید را حفظ کنند، که منجر به آموزش ناپایدار می‌شود.
  2. سرریز آنتروپیک (لایه‌های اولیه): بدون کنترل مناسب آنتروپی، لایه‌های اولیه نمی‌توانند به طور مؤثر از مکانیزم توجه چندسر (MHA یا Multi-Head Attention) استفاده کنند و توانایی مدل برای ثبت نمایش‌های متنوع کاهش می‌یابد.

این بینش جدید است – نشان می‌دهد که آنتروپی فقط یک مفهوم انتزاعی ریاضی نیست، بلکه یک اصل طراحی کلیدی است که تعیین می‌کند آیا یک مدل می‌تواند به درستی عمل کند یا خیر.

طرحی نوین برای هوش مصنوعی

محققان با بهره‌گیری از این یافته‌ها، یک مکانیزم توجه هدایت‌شده با آنتروپی را پیشنهاد می‌کنند که به صورت پویا جریان اطلاعات را در مدل‌های ترانسفورمر تنظیم می‌کند. رویکرد آن‌ها شامل تنظیم‌سازی آنتروپی (Entropy Regularization) – تکنیک جدیدی که از اشباع لایه‌های اولیه با اطلاعات بیش از حد جلوگیری می‌کند – و نرمال‌سازی سازگار با استنتاج خصوصی (PI-Friendly Normalization) – روش‌های جایگزین برای نرمال‌سازی لایه استاندارد که به تثبیت آموزش کمک کرده و در عین حال حریم خصوصی را حفظ می‌کنند – می‌شود.

آن‌ها با تنظیم استراتژیک آنتروپی توزیع‌های توجه، توانستند رفتار منسجم و قابل آموزش را حتی در مدل‌های به شدت ساده‌شده حفظ کنند. این امر تضمین می‌کند که وزن‌های توجه معنادار باقی بمانند و از الگوهای منحط که معمولاً پس از حذف غیرخطی‌بودن به وجود می‌آیند، جلوگیری شود؛ الگوهایی که در آن‌ها تعداد نامتناسبی از سرها رفتار افراطی نشان می‌دهند – یا به توجه تقریباً تک‌نقطه‌ای (آنتروپی پایین) فرو می‌پاشند یا توجه را به طور یکنواخت پخش می‌کنند (آنتروپی بالا) – که هر دو توانایی مدل برای تمرکز و تعمیم را مختل می‌کنند.

این کار شکاف بین نظریه اطلاعات و طراحی معماری را پر می‌کند و دینامیک آنتروپی را به عنوان راهنمای اصولی برای توسعه LLMهای کارآمد حافظ حریم خصوصی تثبیت می‌کند. این نشان‌دهنده گامی حیاتی به سوی عملی‌تر و کارآمدتر کردن هوش مصنوعی حافظ حریم خصوصی در کاربردهای دنیای واقعی است. با پر کردن شکاف بین نظریه اطلاعات و طراحی معماری عصبی، کار آن‌ها نقشه‌راهی برای توسعه مدل‌های هوش مصنوعی ارائه می‌دهد که نه تنها خصوصی‌تر هستند، بلکه از نظر محاسباتی نیز کارآمدترند.

این تیم پیاده‌سازی خود را نیز متن‌باز کرده‌اند و از محققان و توسعه‌دهندگان دعوت می‌کنند تا رویکرد هدایت‌شده با آنتروپی آن‌ها را آزمایش کنند.

اطلاعات بیشتر: Nandan Kumar Jha et al, Entropy-Guided Attention for Private LLMs, arXiv (2025). DOI: 10.48550/arxiv.2501.03489

ارائه شده توسط دانشکده مهندسی تندن دانشگاه نیویورک