بررسی رویکرد مبتنی بر رگرسیون استنفورد برای مدل‌های دنباله‌ای و حافظه تداعی‌گر

مدل‌سازی دنباله‌ای (Sequence modeling) از داده‌های آموزشی مرتب شده به صورت ترتیبی استفاده می‌کند تا به مدل‌ها آموزش دهد که عنصر بعدی در یک سری را پیش‌بینی کنند، با در نظر گرفتن زمینه و وابستگی‌های عناصر قبلی. این فرایند در حوزه یادگیری ماشین (Machine Learning یا ML) حیاتی است و الهام‌بخش معماری‌های متعددی بوده است. با این حال، دانشمندان داده را بدون یک چارچوب واحد رها کرده است. از آنجا که آنها شباهت‌های اساسی مدل‌ها را درک نمی‌کنند، هیچ راهی برای بازتولید یا بهینه‌سازی تکنیک‌های مؤثر وجود ندارد.

اینجاست که رویکرد مبتنی بر رگرسیون استنفورد برای مدل‌سازی دنباله‌ای و حافظه تداعی‌گر وارد می‌شود. چارچوب رگرسیون به اصطلاح "در زمان آزمایش" (Test-Time Regression) محققان به دانشمندان داده کمک می‌کند تا مدل‌هایی را طراحی کنند که بتوانند فراخوانی تداعی‌گر را انجام دهند. این رویکرد بر این ایده استوار است که به خاطر سپردن نشانه‌های ورودی از طریق این حافظه معادل با رگرسیون در زمان آزمایش است.

نمودار مدل رگرسیون — نموداری که مدل رگرسیون را نشان می‌دهد.

توضیح چارچوب رگرسیون در زمان آزمایش استنفورد

کی الکساندر وانگ (Ke Alexander Wang)، دانشجوی دکترا در دانشگاه استنفورد، با همکاری جیاشین شی (Jiaxin Shi)، دانشمند پژوهشی در گوگل دیپ‌مایند (Google DeepMind)، و امیلی بی. فاکس (Emily B. Fox)، استاد آمار و علوم کامپیوتر در استنفورد، رگرسیون در زمان آزمایش را توسعه دادند که استراتژی یکپارچه‌سازی آنها برای توسعه مدل‌های دنباله‌ای با حافظه تداعی‌گر است.

آنها با یک سوال ساده شروع کردند - آیا امکان طراحی سیستماتیک معماری‌هایی وجود دارد که بتوانند فراخوانی تداعی‌گر را انجام دهند؟ حافظه‌های تداعی‌گر (Associative Memories) سیستم‌های ذخیره‌سازی و بازیابی الگو هستند. به عنوان مثال، شنیدن نام یک دوست باید تأثیر ذهنی آن فرد را برانگیزد. محققان این جفت‌سازی نشانه و پاسخ را "کلیدها" و "مقادیر" می‌نامند. با توجه به مجموعه‌ای از تداعی‌ها، یک سیستم حافظه باید هنگام دریافت یک کلید، یک مقدار را برگرداند.

فراخوانی تداعی‌گر برای مدل‌سازی دنباله‌ای بسیار مهم است زیرا یادگیری درون‌متنی (In-Context Learning) را امکان‌پذیر می‌کند. چارچوب استنفورد به خاطر سپردن جفت‌های کلید-مقدار را به عنوان یک مسئله رگرسیون در نظر می‌گیرد. رگرسیون به دنبال یافتن ارتباط بین متغیرهای ورودی و خروجی است. یک لایه دنباله‌ای که نشانه‌های ورودی را برای بازیابی بعدی به خاطر می‌سپارد، در زمان آزمایش روی آنها رگرس می‌کند.

معادل بودن رگرسیون درون‌متنی و حافظه تداعی‌گر منجر به یک رویکرد سیستماتیک برای طراحی مدل از طریق سه انتخاب کلیدی می‌شود - اهمیت نسبی تداعی‌ها، کلاس تابع رگرسیون و الگوریتم بهینه‌سازی. مدل‌های مشتق شده از رگرسیون می‌توانند فراخوانی تداعی‌گر را انجام دهند.

موارد استفاده از رویکرد مبتنی بر رگرسیون پیشنهادی

این استراتژی نشان می‌دهد که یک لایه رگرسیون در زمان آزمایش با یک کانولوشن کوتاه برای حل فراخوانی تداعی‌گر چند پرسشی (Multiquery Associative Recall) کافی است - یک کار استاندارد فراخوانی تداعی‌گر - بدون هیچ پارامتری غیر از جاسازی‌ها (Embeddings). این امکان را به شما می‌دهد تا مدل‌هایی را توسعه دهید که می‌توانند از زمینه قبلی استفاده کنند.

از آنجا که مدل‌سازی دنباله‌ای به سنگ بنای توسعه معماری تبدیل شده است، اهمیت این دانش را نمی‌توان نادیده گرفت. از آنجا که از اطلاعات مرتبط و مبتنی بر زمینه استفاده می‌کند، می‌توانید از آن برای بهبود کارایی و دقت تصمیم‌گیری استفاده کنید.

هر مورد استفاده مرتبط با الگو کار خواهد کرد. با این حال، با توجه به اینکه جرایم سایبری تا پایان سال 2025 شاهد افزایش 15 درصدی خواهند بود - به ویژه با افزایش چشمگیر جرایم سایبری مبتنی بر هوش مصنوعی، جایی که کلاهبرداران از هوش مصنوعی برای جعل واقع‌بینانه افراد و برندهای مورد اعتماد استفاده می‌کنند - امنیت سایبری یکی از استراتژیک‌ترین کاربردها است. فراخوانی مقاوم در برابر نویز، تشخیص الگو را افزایش می‌دهد و الگوریتم‌های ML را قادر می‌سازد تا نشانگرهای سازش را شناسایی و پیش‌بینی کنند.

البته، چنین کاربردهایی تنها در صورتی امکان‌پذیر هستند که جفت‌های کلید-مقدار مرتبطی را برای زمان آزمایش بسازید. حتی بهترین الگوریتم طراحی شده و بیش از حد مهندسی شده نیز تنها به اندازه داده‌هایی که پردازش می‌کند خوب است. یک لایه رگرسیون تنها در صورتی می‌تواند فراخوانی چند پرسشی را حل کند که کلیدها و مقادیر مناسبی را برای رگرس کردن به آن بدهید.

پیامدهای این چارچوب رگرسیون در زمان آزمایش

کار تیم تحقیقاتی راهی سیستماتیک برای توجیه نظری انتخاب‌های طراحی معماری در اختیار شما قرار می‌دهد و درک شما از معماری‌های موجود مانند شبکه‌های بازگشتی (Recurrent Networks) و ترانسفورمرها (Transformers) را افزایش می‌دهد.

تاکنون، معماری‌های متعدد و پراکنده‌ای که از مدل‌سازی دنباله‌ای الهام گرفته‌اند، هیچ ویژگی اساسی مشترک برجسته‌ای نداشته‌اند. رویکرد سه شاخه‌ای و سیستماتیک استنفورد به طراحی مدل، همبستگی قوی بین توانایی فراخوانی تداعی‌گر آنها و اجرای مدل‌سازی زبان را نشان می‌دهد. این یکپارچه‌سازی نشان می‌دهد که این پیشرفت‌های معماری به ظاهر متفاوت بر اساس مفاهیم یکسانی از نظریه رگرسیون هستند.

به عبارت دیگر، می‌توانید از آن مفاهیم اساسی برای شناسایی راه‌های بهینه‌سازی استفاده کنید و به شما امکان می‌دهد مدل‌های قدرتمندتری را توسعه دهید. دیگر مجبور نیستید به یک رویکرد محدودکننده و تجربی تکیه کنید.

شایان ذکر است، بسیاری از متخصصان ML دیگر چارچوب‌های مشابهی را ارائه کرده‌اند. به عنوان مثال، یک گروه تحقیقاتی کرنل (Cornell) آموزش در زمان آزمایش را پیشنهاد کرد - یک کلاس جدید از لایه‌های مدل‌سازی دنباله‌ای با یک حالت پنهان رسا داخلی که در طول عملیات منظم و دنباله‌های آزمایش به‌روز می‌شود - تقریباً نیمی از یک سال قبل از انتشار مقاله استنفورد.

تفاوت کلیدی این است که این آخرین کار، چارچوب استنفورد را به عنوان یک اصل اساسی‌تر از آنچه قبلاً تصور می‌شد، مطرح می‌کند و استدلال می‌کند که بر انتزاع قدرتمندی متکی است تا امکان مقایسه مستقیم بین معماری‌های موجود را فراهم کند. این تیم حتی به مقاله کرنل اشاره کرد و برداشت منحصر به فرد خود را از این مفهوم نوظهور تثبیت کرد.

تحقیقات آینده این رویکرد رگرسیون در زمان آزمایش پیشنهادی را به کجا خواهد برد؟

از آنجا که این مقاله بر اساس چندین اثر موجود بنا شده است - و استنفورد یک دانشگاه معتبر است - این تحقیق به احتمال زیاد ادامه خواهد یافت. با رسیدن این مفهوم از مقالات مجلات به افرادی که به هوش مصنوعی علاقه‌مند هستند، تعداد متخصصان علاقه‌مند به اضافه کردن دیدگاه خود افزایش خواهد یافت. به هر حال، مشارکت در چیزی که برای این حوزه به اندازه مدل‌سازی دنباله‌ای اساسی است، مطبوعات و ستایش قابل توجهی را به همراه دارد.

این گزارش ترجمه و بازنویسی خبری با موتور هوش مصنوعی افق آبی است و برای خوانندهٔ فارسی‌زبان بازتنظیم شده. منبع اصلی: odsc - open data science