مدل RA-SAE
مدل RA-SAE

SAE نمونه‌ای: یادگیری تطبیقی و پایدار دیکشنری برای استخراج مفهوم در مدل‌های دیداری بزرگ

شبکه‌های عصبی مصنوعی (ANN) با عملکرد عالی خود، انقلابی در بینایی کامپیوتر ایجاد کرده‌اند، اما ماهیت «جعبه سیاه» آن‌ها چالش‌های قابل توجهی را در حوزه‌هایی که نیازمند شفافیت، پاسخگویی و انطباق نظارتی هستند، ایجاد می‌کند. ابهام این سیستم‌ها مانع از پذیرش آن‌ها در کاربردهای حیاتی می‌شود، جایی که درک فرآیندهای تصمیم‌گیری ضروری است. دانشمندان مشتاق درک سازوکارهای داخلی این مدل‌ها هستند و می‌خواهند از این بینش‌ها برای اشکال‌زدایی مؤثر، بهبود مدل و بررسی شباهت‌های بالقوه با علوم اعصاب استفاده کنند. این عوامل توسعه سریع هوش مصنوعی قابل توضیح (XAI) را به عنوان یک زمینه اختصاصی تسریع کرده‌اند. این حوزه بر تفسیرپذیری ANNs تمرکز دارد و شکاف بین هوش ماشین و درک انسان را پر می‌کند.

روش‌های مبتنی بر مفهوم، چارچوب‌های قدرتمندی در میان رویکردهای XAI برای آشکار کردن مفاهیم بصری قابل فهم در الگوهای فعال‌سازی پیچیده ANNs هستند. تحقیقات اخیر، استخراج مفهوم را به عنوان مسائل یادگیری دیکشنری (dictionary learning) توصیف می‌کند، جایی که فعال‌سازی‌ها به یک «فضای مفهومی» پراکنده با ابعاد بالاتر نگاشت می‌شوند که قابل تفسیرتر است. تکنیک‌هایی مانند فاکتورسازی ماتریس غیرمنفی (NMF) و K-Means برای بازسازی دقیق فعال‌سازی‌های اصلی استفاده می‌شوند، در حالی که Autoencoders پراکنده (SAEs) اخیراً به عنوان جایگزین‌های قدرتمند برجسته شده‌اند. SAEها به تعادل چشمگیری بین پراکندگی و کیفیت بازسازی دست می‌یابند، اما از ناپایداری رنج می‌برند. آموزش SAEهای یکسان بر روی یک داده می‌تواند دیکشنری‌های مفهومی متفاوتی تولید کند، که قابلیت اطمینان و تفسیرپذیری آن‌ها را برای تجزیه و تحلیل معنادار محدود می‌کند.

محققان دانشگاه هاروارد، دانشگاه یورک، CNRS و Google DeepMind دو نوع جدید از Autoencoders پراکنده را برای رفع مشکلات ناپایداری پیشنهاد کرده‌اند: SAE نمونه‌ای (A-SAE) و همتای آرام‌شده آن (RA-SAE). این رویکردها بر تجزیه و تحلیل نمونه‌ای تکیه می‌کنند تا پایداری و ثبات را در استخراج مفهوم افزایش دهند. مدل A-SAE هر اتم دیکشنری را محدود می‌کند تا دقیقاً در محدوده پوسته محدب داده‌های آموزشی قرار گیرد، که یک محدودیت هندسی را تحمیل می‌کند که پایداری را در طول اجراهای آموزشی مختلف بهبود می‌بخشد. RA-SAE این چارچوب را با گنجاندن یک عبارت آرام‌سازی کوچک گسترش می‌دهد و امکان انحرافات جزئی از پوسته محدب را فراهم می‌کند تا انعطاف‌پذیری مدل‌سازی را افزایش دهد و در عین حال پایداری را حفظ کند.

محققان رویکرد خود را با استفاده از پنج مدل دیداری ارزیابی می‌کنند: DINOv2، SigLip، ViT، ConvNeXt و ResNet50، که همگی از کتابخانه timm به دست آمده‌اند. آن‌ها دیکشنری‌های overcomplete را با اندازه‌های پنج برابر بعد ویژگی می‌سازند (به عنوان مثال، 768×5 برای DINOv2 و 2048×5 برای ConvNeXt)، که ظرفیت کافی برای نمایش مفهوم فراهم می‌کند. این مدل‌ها بر روی کل مجموعه داده ImageNet آموزش داده می‌شوند و تقریباً 1.28 میلیون تصویر را پردازش می‌کنند که بیش از 60 میلیون توکن در هر دوره برای ConvNeXt و بیش از 250 میلیون توکن برای DINOv2 تولید می‌کنند و این روند برای 50 دوره ادامه دارد. علاوه بر این، RA-SAE بر اساس معماری TopK SAE ساخته شده است تا سطوح پراکندگی ثابتی را در سراسر آزمایش‌ها حفظ کند. محاسبه یک ماتریس شامل خوشه‌بندی K-Means کل مجموعه داده به 32000 مرکز است.

نتایج تفاوت‌های عملکردی قابل توجهی را بین رویکردهای سنتی و روش‌های پیشنهادی نشان می‌دهد. الگوریتم‌های یادگیری دیکشنری کلاسیک و SAEهای استاندارد عملکرد قابل مقایسه‌ای نشان می‌دهند، اما برای بازیابی دقیق عوامل تولیدی واقعی در مجموعه‌های داده آزمایش شده، تلاش می‌کنند. در مقابل، RA-SAE به دقت بالاتری در بازیابی طبقات اشیاء زیربنایی در تمام مجموعه‌های داده مصنوعی استفاده شده در ارزیابی دست می‌یابد. در نتایج کیفی، RA-SAE مفاهیم معناداری را کشف می‌کند، از جمله ویژگی‌های مبتنی بر سایه مرتبط با استدلال عمق، مفاهیم وابسته به زمینه مانند «آرایشگر» و قابلیت‌های تشخیص لبه دقیق در گلبرگ‌های گل. علاوه بر این، تمایزات ساختاریافته‌تری را در درون کلاس نسبت به TopK-SAEها یاد می‌گیرد و ویژگی‌هایی مانند گوش‌های خرگوش، صورت‌ها و پنجه‌ها را به جای مخلوط کردن آن‌ها، به مفاهیم متمایز تقسیم می‌کند.

در خاتمه، محققان دو نوع از Autoencoders پراکنده را معرفی کرده‌اند: A-SAE و همتای آرام‌شده آن RA-SAE. A-SAE اتم‌های دیکشنری را به پوسته محدب داده‌های آموزشی محدود می‌کند و پایداری را افزایش می‌دهد و در عین حال قدرت بیان را حفظ می‌کند. سپس، RA-SAE به طور موثری کیفیت بازسازی را با کشف مفهوم معنادار در مدل‌های دیداری در مقیاس بزرگ متعادل می‌کند. برای ارزیابی این رویکردها، تیم متریک‌ها و معیارهای جدیدی را با الهام از نظریه شناسایی‌پذیری توسعه داد و یک چارچوب سیستماتیک برای اندازه‌گیری کیفیت دیکشنری و تفکیک مفهوم ارائه کرد. فراتر از بینایی کامپیوتر، A-SAE پایه‌ای برای کشف مفهوم قابل اعتمادتر در میان روش‌های گسترده‌تر، از جمله LLMها و سایر حوزه‌های داده ساختاریافته ایجاد می‌کند.