ترانسفورمرها به عنوان ابزارهای اساسی در یادگیری ماشین ظاهر شدهاند و مدلهایی را پشتیبانی میکنند که بر روی دادههای ترتیبی و ساختاریافته عمل میکنند. یکی از چالشهای مهم در این تنظیمات، توانمندسازی مدل برای درک موقعیت نشانهها یا ورودیها است، زیرا ترانسفورمرها ذاتاً فاقد مکانیزمی برای رمزگذاری ترتیب هستند. تعبیه موقعیت چرخشی (RoPE) به یک راه حل محبوب تبدیل شد، به ویژه در وظایف زبانی و بینایی، زیرا به طور کارآمد موقعیتهای مطلق را برای تسهیل درک فضایی نسبی رمزگذاری میکند. با افزایش پیچیدگی و کاربرد این مدلها در سراسر روشها، افزایش بیان و انعطافپذیری ابعادی RoPE اهمیت فزایندهای پیدا کرده است.
یک چالش مهم هنگام مقیاسبندی RoPE، از مدیریت توالیهای ساده 1 بعدی تا پردازش دادههای فضایی چندبعدی، ایجاد میشود. این دشواری در حفظ دو ویژگی اساسی نهفته است: نسبیت—توانمندسازی مدل برای تشخیص موقعیتها نسبت به یکدیگر—و برگشتپذیری—اطمینان از بازیابی منحصربهفرد موقعیتهای اصلی. طرحهای فعلی اغلب با هر محور فضایی به طور مستقل رفتار میکنند و در گرفتن وابستگی متقابل ابعاد ناکام هستند. این رویکرد منجر به درک موقعیتی ناقص در تنظیمات چندبعدی میشود و عملکرد مدل را در محیطهای فضایی یا چندوجهی پیچیده محدود میکند.
تلاشها برای گسترش RoPE عموماً شامل تکرار عملیات 1 بعدی در امتداد چندین محور یا گنجاندن فرکانسهای چرخشی قابل یادگیری بوده است. یک مثال رایج، RoPE استاندارد 2 بعدی است که به طور مستقل چرخشهای 1 بعدی را در هر محور با استفاده از فرمهای ماتریس بلوک-قطری اعمال میکند. در حالی که این تکنیکها کارایی محاسباتی را حفظ میکنند، نمیتوانند روابط قطری یا جهتدار مختلط را نشان دهند. اخیراً، فرمولبندیهای RoPE قابل یادگیری، مانند STRING، سعی کردند با آموزش مستقیم پارامترهای چرخش، بیان را اضافه کنند. با این حال، اینها فاقد یک چارچوب ریاضی روشن هستند و تضمین نمیکنند که محدودیتهای اساسی نسبیت و برگشتپذیری برآورده میشوند.
پژوهشگران دانشگاه منچستر روش جدیدی را معرفی کردند که به طور سیستماتیک RoPE را با استفاده از نظریه گروه لی و جبر لی به ابعاد N گسترش میدهد. رویکرد آنها ساختارهای معتبر RoPE را به عنوان ساختارهایی تعریف میکند که در یک زیرجبر ماکزیمال آبلی (MASA) از جبر لی متعامد ویژه so(n) قرار دارند. این استراتژی دقت نظری غایب قبلی را به ارمغان میآورد و اطمینان میدهد که رمزگذاریهای موقعیتی الزامات نسبیت و برگشتپذیری را برآورده میکنند. چارچوب آنها بهجای انباشتن عملیات 1 بعدی، پایهای را برای تبدیلهای وابسته به موقعیت میسازد که میتوانند به طور انعطافپذیر با ابعاد بالاتر سازگار شوند و در عین حال ضمانتهای ریاضی را حفظ کنند.
روش اصلی، تبدیل RoPE را به عنوان یک نمایی ماتریسی از مولدهای متقارن-کج در جبر لی so(n) تعریف میکند. برای موارد استاندارد 1 بعدی و 2 بعدی، این ماتریسها ماتریسهای چرخشی سنتی را تولید میکنند. نوآوری در تعمیم به ابعاد N است، جایی که محققان یک مجموعه مستقل خطی از N مولد را از MASA از so(d) انتخاب میکنند. این اطمینان میدهد که ماتریس تبدیل حاصل، تمام ابعاد فضایی را به طور برگشتپذیر و نسبی رمزگذاری میکند. نویسندگان ثابت میکنند که این فرمول، به ویژه RoPE ND استاندارد، با زیرجبر تورال ماکزیمال مطابقت دارد—ساختاری که فضای ورودی را به چرخشهای دو بعدی متعامد تقسیم میکند. برای فعال کردن تعاملات ابعادی، محققان یک ماتریس متعامد قابل یادگیری، Q، را وارد میکنند که مبنا را بدون مختل کردن خواص ریاضی ساختار RoPE تغییر میدهد. استراتژیهای متعددی برای یادگیری Q پیشنهاد شده است، از جمله تبدیل Cayley، نمایی ماتریسی و چرخشهای Givens، که هر کدام مصالحههایی در تفسیرپذیری و کارایی محاسباتی ارائه میدهند.
این روش عملکرد نظری قوی را نشان میدهد و ثابت میکند که RoPE ساخته شده، تزریقشوندگی را در هر چرخه تعبیه حفظ میکند. هنگامی که بعد d² برابر با تعداد ابعاد N باشد، مبنای استاندارد به طور کارآمد از چرخشهای ساختاریافته بدون همپوشانی پشتیبانی میکند. برای مقادیر بالاتر d، مولدهای انعطافپذیرتری را میتوان برای سازگاری بهتر با دادههای چندوجهی انتخاب کرد. محققان نشان دادند که ماتریسهایی مانند B1 و B2 در so(6) میتوانند چرخشهای متعامد و مستقل را در سراسر فضای شش بعدی نشان دهند. اگرچه هیچ نتیجه تجربی برای عملکرد وظیفه پاییندستی گزارش نشده است، اما ساختار ریاضی تأیید میکند که هر دو ویژگی کلیدی—نسبیت و برگشتپذیری—حتی هنگام معرفی تعاملات بین بعدی آموخته شده حفظ میشوند.
این تحقیق از دانشگاه منچستر یک راه حل ریاضی کامل و ظریف برای محدودیتهای رویکردهای فعلی RoPE ارائه میدهد. این تحقیق با زمینهسازی روش خود در نظریه جبری و ارائه مسیری برای یادگیری روابط بین بعدی بدون قربانی کردن ویژگیهای اساسی، یک شکاف قابل توجه در رمزگذاری موقعیتی را پر میکند. این چارچوب برای ورودیهای سنتی 1 بعدی و 2 بعدی اعمال میشود و به دادههای پیچیدهتر N بعدی مقیاس میشود و آن را به یک گام اساسی به سوی معماریهای ترانسفورمر رسا تر تبدیل میکند.