ترانسفورمرها درک موقعیتی چندبعدی قوی به دست می‌آورند: پژوهشگران دانشگاه منچستر یک چارچوب جبری لی متحد برای تعبیه موقعیت چرخشی N بعدی (RoPE) معرفی می‌کنند

ترانسفورمرها به عنوان ابزارهای اساسی در یادگیری ماشین ظاهر شده‌اند و مدل‌هایی را پشتیبانی می‌کنند که بر روی داده‌های ترتیبی و ساختاریافته عمل می‌کنند. یکی از چالش‌های مهم در این تنظیمات، توانمندسازی مدل برای درک موقعیت نشانه‌ها یا ورودی‌ها است، زیرا ترانسفورمرها ذاتاً فاقد مکانیزمی برای رمزگذاری ترتیب هستند. تعبیه موقعیت چرخشی (RoPE) به یک راه حل محبوب تبدیل شد، به ویژه در وظایف زبانی و بینایی، زیرا به طور کارآمد موقعیت‌های مطلق را برای تسهیل درک فضایی نسبی رمزگذاری می‌کند. با افزایش پیچیدگی و کاربرد این مدل‌ها در سراسر روش‌ها، افزایش بیان و انعطاف‌پذیری ابعادی RoPE اهمیت فزاینده‌ای پیدا کرده است.

یک چالش مهم هنگام مقیاس‌بندی RoPE، از مدیریت توالی‌های ساده 1 بعدی تا پردازش داده‌های فضایی چندبعدی، ایجاد می‌شود. این دشواری در حفظ دو ویژگی اساسی نهفته است: نسبیت—توانمندسازی مدل برای تشخیص موقعیت‌ها نسبت به یکدیگر—و برگشت‌پذیری—اطمینان از بازیابی منحصربه‌فرد موقعیت‌های اصلی. طرح‌های فعلی اغلب با هر محور فضایی به طور مستقل رفتار می‌کنند و در گرفتن وابستگی متقابل ابعاد ناکام هستند. این رویکرد منجر به درک موقعیتی ناقص در تنظیمات چندبعدی می‌شود و عملکرد مدل را در محیط‌های فضایی یا چندوجهی پیچیده محدود می‌کند.

تلاش‌ها برای گسترش RoPE عموماً شامل تکرار عملیات 1 بعدی در امتداد چندین محور یا گنجاندن فرکانس‌های چرخشی قابل یادگیری بوده است. یک مثال رایج، RoPE استاندارد 2 بعدی است که به طور مستقل چرخش‌های 1 بعدی را در هر محور با استفاده از فرم‌های ماتریس بلوک-قطری اعمال می‌کند. در حالی که این تکنیک‌ها کارایی محاسباتی را حفظ می‌کنند، نمی‌توانند روابط قطری یا جهت‌دار مختلط را نشان دهند. اخیراً، فرمول‌بندی‌های RoPE قابل یادگیری، مانند STRING، سعی کردند با آموزش مستقیم پارامترهای چرخش، بیان را اضافه کنند. با این حال، اینها فاقد یک چارچوب ریاضی روشن هستند و تضمین نمی‌کنند که محدودیت‌های اساسی نسبیت و برگشت‌پذیری برآورده می‌شوند.

پژوهشگران دانشگاه منچستر روش جدیدی را معرفی کردند که به طور سیستماتیک RoPE را با استفاده از نظریه گروه لی و جبر لی به ابعاد N گسترش می‌دهد. رویکرد آنها ساختارهای معتبر RoPE را به عنوان ساختارهایی تعریف می‌کند که در یک زیرجبر ماکزیمال آبلی (MASA) از جبر لی متعامد ویژه so(n) قرار دارند. این استراتژی دقت نظری غایب قبلی را به ارمغان می‌آورد و اطمینان می‌دهد که رمزگذاری‌های موقعیتی الزامات نسبیت و برگشت‌پذیری را برآورده می‌کنند. چارچوب آن‌ها به‌جای انباشتن عملیات 1 بعدی، پایه‌ای را برای تبدیل‌های وابسته به موقعیت می‌سازد که می‌توانند به طور انعطاف‌پذیر با ابعاد بالاتر سازگار شوند و در عین حال ضمانت‌های ریاضی را حفظ کنند.

روش اصلی، تبدیل RoPE را به عنوان یک نمایی ماتریسی از مولدهای متقارن-کج در جبر لی so(n) تعریف می‌کند. برای موارد استاندارد 1 بعدی و 2 بعدی، این ماتریس‌ها ماتریس‌های چرخشی سنتی را تولید می‌کنند. نوآوری در تعمیم به ابعاد N است، جایی که محققان یک مجموعه مستقل خطی از N مولد را از MASA از so(d) انتخاب می‌کنند. این اطمینان می‌دهد که ماتریس تبدیل حاصل، تمام ابعاد فضایی را به طور برگشت‌پذیر و نسبی رمزگذاری می‌کند. نویسندگان ثابت می‌کنند که این فرمول، به ویژه RoPE ND استاندارد، با زیرجبر تورال ماکزیمال مطابقت دارد—ساختاری که فضای ورودی را به چرخش‌های دو بعدی متعامد تقسیم می‌کند. برای فعال کردن تعاملات ابعادی، محققان یک ماتریس متعامد قابل یادگیری، Q، را وارد می‌کنند که مبنا را بدون مختل کردن خواص ریاضی ساختار RoPE تغییر می‌دهد. استراتژی‌های متعددی برای یادگیری Q پیشنهاد شده است، از جمله تبدیل Cayley، نمایی ماتریسی و چرخش‌های Givens، که هر کدام مصالحه‌هایی در تفسیرپذیری و کارایی محاسباتی ارائه می‌دهند.

این روش عملکرد نظری قوی را نشان می‌دهد و ثابت می‌کند که RoPE ساخته شده، تزریق‌شوندگی را در هر چرخه تعبیه حفظ می‌کند. هنگامی که بعد d² برابر با تعداد ابعاد N باشد، مبنای استاندارد به طور کارآمد از چرخش‌های ساختاریافته بدون همپوشانی پشتیبانی می‌کند. برای مقادیر بالاتر d، مولدهای انعطاف‌پذیرتری را می‌توان برای سازگاری بهتر با داده‌های چندوجهی انتخاب کرد. محققان نشان دادند که ماتریس‌هایی مانند B1 و B2 در so(6) می‌توانند چرخش‌های متعامد و مستقل را در سراسر فضای شش بعدی نشان دهند. اگرچه هیچ نتیجه تجربی برای عملکرد وظیفه پایین‌دستی گزارش نشده است، اما ساختار ریاضی تأیید می‌کند که هر دو ویژگی کلیدی—نسبیت و برگشت‌پذیری—حتی هنگام معرفی تعاملات بین بعدی آموخته شده حفظ می‌شوند.

این تحقیق از دانشگاه منچستر یک راه حل ریاضی کامل و ظریف برای محدودیت‌های رویکردهای فعلی RoPE ارائه می‌دهد. این تحقیق با زمینه‌سازی روش خود در نظریه جبری و ارائه مسیری برای یادگیری روابط بین بعدی بدون قربانی کردن ویژگی‌های اساسی، یک شکاف قابل توجه در رمزگذاری موقعیتی را پر می‌کند. این چارچوب برای ورودی‌های سنتی 1 بعدی و 2 بعدی اعمال می‌شود و به داده‌های پیچیده‌تر N بعدی مقیاس می‌شود و آن را به یک گام اساسی به سوی معماری‌های ترانسفورمر رسا تر تبدیل می‌کند.