شبکههای عصبی مصنوعی (ANN) با عملکرد عالی خود، انقلابی در بینایی کامپیوتر ایجاد کردهاند، اما ماهیت «جعبه سیاه» آنها چالشهای قابل توجهی را در حوزههایی که نیازمند شفافیت، پاسخگویی و انطباق نظارتی هستند، ایجاد میکند. ابهام این سیستمها مانع از پذیرش آنها در کاربردهای حیاتی میشود، جایی که درک فرآیندهای تصمیمگیری ضروری است. دانشمندان مشتاق درک سازوکارهای داخلی این مدلها هستند و میخواهند از این بینشها برای اشکالزدایی مؤثر، بهبود مدل و بررسی شباهتهای بالقوه با علوم اعصاب استفاده کنند. این عوامل توسعه سریع هوش مصنوعی قابل توضیح (XAI) را به عنوان یک زمینه اختصاصی تسریع کردهاند. این حوزه بر تفسیرپذیری ANNs تمرکز دارد و شکاف بین هوش ماشین و درک انسان را پر میکند.
روشهای مبتنی بر مفهوم، چارچوبهای قدرتمندی در میان رویکردهای XAI برای آشکار کردن مفاهیم بصری قابل فهم در الگوهای فعالسازی پیچیده ANNs هستند. تحقیقات اخیر، استخراج مفهوم را به عنوان مسائل یادگیری دیکشنری (dictionary learning) توصیف میکند، جایی که فعالسازیها به یک «فضای مفهومی» پراکنده با ابعاد بالاتر نگاشت میشوند که قابل تفسیرتر است. تکنیکهایی مانند فاکتورسازی ماتریس غیرمنفی (NMF) و K-Means برای بازسازی دقیق فعالسازیهای اصلی استفاده میشوند، در حالی که Autoencoders پراکنده (SAEs) اخیراً به عنوان جایگزینهای قدرتمند برجسته شدهاند. SAEها به تعادل چشمگیری بین پراکندگی و کیفیت بازسازی دست مییابند، اما از ناپایداری رنج میبرند. آموزش SAEهای یکسان بر روی یک داده میتواند دیکشنریهای مفهومی متفاوتی تولید کند، که قابلیت اطمینان و تفسیرپذیری آنها را برای تجزیه و تحلیل معنادار محدود میکند.
محققان دانشگاه هاروارد، دانشگاه یورک، CNRS و Google DeepMind دو نوع جدید از Autoencoders پراکنده را برای رفع مشکلات ناپایداری پیشنهاد کردهاند: SAE نمونهای (A-SAE) و همتای آرامشده آن (RA-SAE). این رویکردها بر تجزیه و تحلیل نمونهای تکیه میکنند تا پایداری و ثبات را در استخراج مفهوم افزایش دهند. مدل A-SAE هر اتم دیکشنری را محدود میکند تا دقیقاً در محدوده پوسته محدب دادههای آموزشی قرار گیرد، که یک محدودیت هندسی را تحمیل میکند که پایداری را در طول اجراهای آموزشی مختلف بهبود میبخشد. RA-SAE این چارچوب را با گنجاندن یک عبارت آرامسازی کوچک گسترش میدهد و امکان انحرافات جزئی از پوسته محدب را فراهم میکند تا انعطافپذیری مدلسازی را افزایش دهد و در عین حال پایداری را حفظ کند.
محققان رویکرد خود را با استفاده از پنج مدل دیداری ارزیابی میکنند: DINOv2، SigLip، ViT، ConvNeXt و ResNet50، که همگی از کتابخانه timm به دست آمدهاند. آنها دیکشنریهای overcomplete را با اندازههای پنج برابر بعد ویژگی میسازند (به عنوان مثال، 768×5 برای DINOv2 و 2048×5 برای ConvNeXt)، که ظرفیت کافی برای نمایش مفهوم فراهم میکند. این مدلها بر روی کل مجموعه داده ImageNet آموزش داده میشوند و تقریباً 1.28 میلیون تصویر را پردازش میکنند که بیش از 60 میلیون توکن در هر دوره برای ConvNeXt و بیش از 250 میلیون توکن برای DINOv2 تولید میکنند و این روند برای 50 دوره ادامه دارد. علاوه بر این، RA-SAE بر اساس معماری TopK SAE ساخته شده است تا سطوح پراکندگی ثابتی را در سراسر آزمایشها حفظ کند. محاسبه یک ماتریس شامل خوشهبندی K-Means کل مجموعه داده به 32000 مرکز است.
نتایج تفاوتهای عملکردی قابل توجهی را بین رویکردهای سنتی و روشهای پیشنهادی نشان میدهد. الگوریتمهای یادگیری دیکشنری کلاسیک و SAEهای استاندارد عملکرد قابل مقایسهای نشان میدهند، اما برای بازیابی دقیق عوامل تولیدی واقعی در مجموعههای داده آزمایش شده، تلاش میکنند. در مقابل، RA-SAE به دقت بالاتری در بازیابی طبقات اشیاء زیربنایی در تمام مجموعههای داده مصنوعی استفاده شده در ارزیابی دست مییابد. در نتایج کیفی، RA-SAE مفاهیم معناداری را کشف میکند، از جمله ویژگیهای مبتنی بر سایه مرتبط با استدلال عمق، مفاهیم وابسته به زمینه مانند «آرایشگر» و قابلیتهای تشخیص لبه دقیق در گلبرگهای گل. علاوه بر این، تمایزات ساختاریافتهتری را در درون کلاس نسبت به TopK-SAEها یاد میگیرد و ویژگیهایی مانند گوشهای خرگوش، صورتها و پنجهها را به جای مخلوط کردن آنها، به مفاهیم متمایز تقسیم میکند.
در خاتمه، محققان دو نوع از Autoencoders پراکنده را معرفی کردهاند: A-SAE و همتای آرامشده آن RA-SAE. A-SAE اتمهای دیکشنری را به پوسته محدب دادههای آموزشی محدود میکند و پایداری را افزایش میدهد و در عین حال قدرت بیان را حفظ میکند. سپس، RA-SAE به طور موثری کیفیت بازسازی را با کشف مفهوم معنادار در مدلهای دیداری در مقیاس بزرگ متعادل میکند. برای ارزیابی این رویکردها، تیم متریکها و معیارهای جدیدی را با الهام از نظریه شناساییپذیری توسعه داد و یک چارچوب سیستماتیک برای اندازهگیری کیفیت دیکشنری و تفکیک مفهوم ارائه کرد. فراتر از بینایی کامپیوتر، A-SAE پایهای برای کشف مفهوم قابل اعتمادتر در میان روشهای گستردهتر، از جمله LLMها و سایر حوزههای داده ساختاریافته ایجاد میکند.