یادگیری خودنظارتی سهبعدی (SSL) با چالشهای مداومی در توسعه بازنماییهای نقطهای معنادار از نظر معنایی که برای کاربردهای متنوع با حداقل نظارت مناسب باشند، روبرو بوده است. با وجود پیشرفتهای قابل توجه در SSL مبتنی بر تصویر، روشهای موجود SSL ابر نقاط عمدتاً به دلیل مسئلهای به نام «میانبر هندسی» محدود شدهاند، که در آن مدلها بیش از حد به ویژگیهای هندسی سطح پایین مانند نرمالهای سطح یا ارتفاع نقاط تکیه میکنند. این اتکا، تعمیمپذیری و عمق معنایی بازنماییها را به خطر میاندازد و مانع استقرار عملی آنها میشود.
محققان دانشگاه هنگ کنگ و آزمایشگاه تحقیقاتی متا ریلیتی (Meta Reality Labs Research) سوناتا (Sonata) را معرفی میکنند، رویکردی پیشرفته که برای رسیدگی به این چالشهای اساسی طراحی شده است. سوناتا از یک چارچوب یادگیری خودنظارتی استفاده میکند که با پنهان کردن راهبردی نشانههای فضایی سطح پایین و تقویت وابستگی به ویژگیهای ورودی غنیتر، بهطور مؤثری میانبر هندسی را کاهش میدهد. سوناتا با الهام از پیشرفتهای اخیر در SSL مبتنی بر تصویر، مکانیزم تقطیر خودی نقطهای (point self-distillation) را ادغام میکند که به تدریج کیفیت بازنمایی را بهبود میبخشد و استحکام در برابر سادهسازیهای هندسی را تضمین میکند.
از نظر فنی، سوناتا از دو استراتژی اصلی استفاده میکند: اولاً، در مقیاسهای درشتتر عمل میکند تا اطلاعات فضایی را که در غیر این صورت ممکن است بر بازنماییهای آموختهشده غالب شوند، پنهان کند. ثانیاً، سوناتا رویکرد تقطیر خودی نقطهای را اتخاذ میکند و به تدریج دشواری کار را از طریق استراتژیهای پوششدهی تطبیقی (adaptive masking) افزایش میدهد تا درک معنایی عمیقتری را پرورش دهد. نکته مهم این است که سوناتا ساختارهای رمزگشا (decoder) را که بهطور سنتی در مدلهای سلسله مراتبی برای جلوگیری از معرفی مجدد میانبرهای هندسی محلی استفاده میشوند، حذف میکند و به رمزگذار (encoder) به تنهایی اجازه میدهد تا بازنماییهای ویژگی قوی و چندمقیاسی بسازد. علاوه بر این، سوناتا «لرزش نقطهای پوششدادهشده» (masked point jitter) را اعمال میکند و اغتشاشات تصادفی را به مختصات فضایی نقاط پوششدادهشده وارد میکند، بنابراین اتکا به ویژگیهای هندسی جزئی را بیشتر کاهش میدهد.
نتایج تجربی گزارششده، کارایی و اثربخشی سوناتا را تأیید میکنند. سوناتا به بهبود عملکرد قابل توجهی در معیارهایی مانند ScanNet دست مییابد، جایی که دقت کاوش خطی (linear probing accuracy) ۷۲.۵٪ را ثبت میکند که بهطور قابل توجهی از روشهای پیشرفته قبلی SSL فراتر میرود. نکته مهم این است که سوناتا حتی با دادههای محدود نیز استحکام نشان میدهد و با استفاده از تنها ۱٪ از مجموعه داده ScanNet بهطور مؤثر عمل میکند، که مناسب بودن آن را برای سناریوهای کممنابع برجسته میکند. بازدهی پارامتر آن نیز قابل توجه است و با پارامترهای کمتر در مقایسه با روشهای متداول، بهبود عملکرد قوی ارائه میدهد. علاوه بر این، ادغام سوناتا با بازنماییهای مشتقشده از تصویر مانند DINOv2 منجر به افزایش دقت میشود و بر ظرفیت آن برای ثبت جزئیات معنایی متمایز و مختص دادههای سهبعدی تأکید میکند.
قابلیتهای سوناتا از طریق تجسمهای بدون نظارت (zero-shot) روشنگرانه، از جمله ابر نقاط رنگآمیزیشده با PCA و تطابق ویژگیهای متراکم، بیشتر نشان داده میشود که خوشهبندی معنایی منسجم و استدلال فضایی قوی را تحت شرایط افزونگی (augmentation) چالشبرانگیز نشان میدهد. تطبیقپذیری سوناتا همچنین در وظایف مختلف تقسیمبندی معنایی (semantic segmentation) مشهود است که شامل مجموعه دادههای داخلی مانند ScanNet و ScanNet200 و همچنین مجموعه دادههای خارجی از جمله Waymo میشود و بهطور مداوم به نتایج پیشرفته دست مییابد.
در نتیجه، سوناتا نشاندهنده پیشرفت قابل توجهی در پرداختن به محدودیتهای ذاتی در یادگیری خودنظارتی سهبعدی است. نوآوریهای روششناختی آن بهطور مؤثری مسائل مرتبط با میانبر هندسی را حل میکند و بازنماییهای غنیتر از نظر معنایی و قابل اعتمادتری ارائه میدهد. ادغام تقطیر خودی، دستکاری دقیق اطلاعات فضایی و مقیاسپذیری سوناتا به مجموعه دادههای بزرگ، پایهای محکم برای کاوشهای آتی در یادگیری بازنمایی سهبعدی همهکاره و قوی ایجاد میکند. این چارچوب یک معیار روششناختی تعیین میکند و تحقیقات بیشتر را به سمت ادغام جامع SSL چندوجهی و کاربردهای عملی سهبعدی تسهیل میبخشد.