SuperBPE: پیشرفت مدل‌های زبانی با توکن‌بندی بین‌کلمه‌ای

مدل‌های زبانی (Language Models یا LMs) در نحوه درک داده‌های متنی از طریق توکن‌بندی با یک چالش اساسی روبرو هستند. توکن‌سازهای فرعی کلمه فعلی، متن را به توکن‌های واژگانی تقسیم می‌کنند که نمی‌توانند فضای خالی را پر کنند و از یک محدودیت مصنوعی پیروی می‌کنند که فضا را به عنوان یک مرز معنایی در نظر می‌گیرد. این عمل این واقعیت را نادیده می‌گیرد که معنا اغلب از کلمات منفرد فراتر می‌رود - عبارات چند کلمه‌ای مانند "a lot of" (بسیاری از) به عنوان واحدهای معنایی واحد عمل می‌کنند و انگلیسی‌زبانان هزاران عبارت از این قبیل را به صورت ذهنی ذخیره می‌کنند. به صورت بین زبانی، مفاهیم یکسان ممکن است به صورت کلمات منفرد یا چندگانه بسته به زبان بیان شوند. قابل توجه است که برخی از زبان‌ها مانند چینی و ژاپنی از فضای خالی استفاده نمی‌کنند و به توکن‌ها اجازه می‌دهند چندین کلمه یا جمله را بدون کاهش عملکرد ظاهری در بر گیرند.

تحقیقات قبلی چندین رویکرد فراتر از توکن‌بندی فرعی کلمه سنتی را بررسی کرده‌اند. برخی از مطالعات پردازش متن در سطوح دانه‌بندی چندگانه یا ایجاد توکن‌های چند کلمه‌ای از طریق شناسایی n-گرم مبتنی بر فراوانی را بررسی کردند. محققان دیگر، پیش‌بینی چند توکنی (Multi-Token Prediction یا MTP) را بررسی کرده‌اند که به مدل‌های زبانی اجازه می‌دهد تا توکن‌های مختلف را در یک مرحله پیش‌بینی کنند، که قابلیت مدل‌ها برای پردازش بیش از یک فرعی کلمه را به طور همزمان تأیید می‌کند. با این حال، این رویکردها نیاز به تغییرات معماری دارند و تعداد توکن‌های پیش‌بینی‌شده در هر مرحله را ثابت می‌کنند. برخی از محققان رویکردهای بدون توکن‌ساز را دنبال کرده‌اند و متن را مستقیماً به عنوان دنباله‌های بایت مدل‌سازی می‌کنند. با این حال، این امر به طور قابل توجهی طول دنباله‌ها و الزامات محاسباتی را افزایش می‌دهد و منجر به راه حل‌های معماری پیچیده می‌شود.

محققان دانشگاه واشنگتن (University of Washington)، انویدیا (NVIDIA) و مؤسسه آلن برای هوش مصنوعی (Allen Institute for AI)، SuperBPE را پیشنهاد کرده‌اند، یک الگوریتم توکن‌بندی که واژگانی حاوی هر دو توکن فرعی کلمه سنتی و توکن‌های "ابرکلمه" نوآورانه ایجاد می‌کند که چندین کلمه را در بر می‌گیرد. این رویکرد، الگوریتم محبوب رمزگذاری جفتی بایت (Byte-Pair Encoding یا BPE) را با اجرای یک برنامه درسی پیش توکن‌بندی با حفظ اولیه مرزهای فضای خالی برای یادگیری توکن‌های فرعی کلمه و سپس حذف این محدودیت‌ها برای امکان شکل‌گیری توکن ابرکلمه، بهبود می‌بخشد. در حالی که BPE استاندارد به سرعت به بازده نزولی می‌رسد و با افزایش اندازه واژگان، شروع به استفاده از فرعی کلمات به طور فزاینده نادر می‌کند، SuperBPE به کشف دنباله‌های چند کلمه‌ای رایج برای رمزگذاری به عنوان توکن‌های واحد ادامه می‌دهد و کارایی رمزگذاری را بهبود می‌بخشد.

معماری SuperBPE

SuperBPE از طریق یک فرایند آموزشی دو مرحله‌ای عمل می‌کند که مرحله پیش توکن‌بندی BPE سنتی را تغییر می‌دهد، که در بالا ذکر شد. این رویکرد به طور شهودی واحدهای معنایی را می‌سازد و آنها را برای کارایی بیشتر در دنباله‌های رایج ترکیب می‌کند. تنظیم t=T (t نقطه انتقال و T اندازه هدف است) BPE استاندارد را تولید می‌کند، در حالی که t=0 یک BPE ساده بدون فضای خالی ایجاد می‌کند. آموزش SuperBPE به منابع محاسباتی بیشتری نسبت به BPE استاندارد نیاز دارد، زیرا بدون پیش توکن‌بندی فضای خالی، داده‌های آموزشی از "کلمات" بسیار طولانی با حداقل رفع تکرار تشکیل شده‌اند. با این حال، این افزایش هزینه آموزش - چند ساعت روی 100 پردازنده - فقط یک بار رخ می‌دهد که در مقایسه با منابع مورد نیاز برای پیش‌آموزش مدل زبانی ناچیز است.

SuperBPE عملکرد چشمگیری را در 30 معیار ارزیابی در زمینه‌های دانش، استدلال، کدنویسی، درک مطلب و غیره نشان می‌دهد. همه مدل‌های SuperBPE از خط پایه BPE بهتر عمل می‌کنند و قوی‌ترین مدل 8B به طور متوسط ​​4.0٪ بهبود دست می‌یابد و از خط پایه در 25 از 30 وظیفه فردی فراتر می‌رود. وظایف چند گزینه‌ای افزایش قابل توجهی را نشان می‌دهند، با 9.7٪ + بهبود. تنها عملکرد ضعیف از نظر آماری در وظیفه LAMBADA رخ می‌دهد، جایی که SuperBPE کاهش دقت نهایی را از 75.8٪ به 70.6٪ تجربه می‌کند. علاوه بر این، همه نقاط انتقال معقول نتایج قوی‌تری نسبت به خط پایه ارائه می‌دهند. کارآمدترین نقطه انتقال رمزگذاری 3.1٪ + بهبود عملکرد را ارائه می‌دهد در حالی که محاسبات استنتاج را 35٪ کاهش می‌دهد.

در خاتمه، محققان SuperBPE را معرفی کردند، یک رویکرد توکن‌بندی مؤثرتر که با بهبود الگوریتم استاندارد BPE برای گنجاندن توکن‌های ابرکلمه توسعه یافته است. علیرغم اینکه توکن‌بندی به عنوان رابط اساسی بین مدل‌های زبانی و متن عمل می‌کند، الگوریتم‌های توکن‌بندی نسبتاً ایستا باقی مانده‌اند. SuperBPE این وضعیت موجود را با تشخیص اینکه توکن‌ها می‌توانند فراتر از مرزهای فرعی کلمه سنتی گسترش یابند تا عبارات چند کلمه‌ای را شامل شوند، به چالش می‌کشد. توکن‌سازهای SuperBPE مدل‌های زبانی را قادر می‌سازند تا به عملکرد برتر در بسیاری از وظایف پایین‌دستی دست یابند در حالی که هزینه‌های محاسباتی استنتاج را کاهش می‌دهند. این مزایا نیازی به تغییر در معماری مدل زیربنایی ندارند، و SuperBPE را به یک جایگزین بی‌نقص برای BPE سنتی در خطوط لوله توسعه مدل زبانی مدرن تبدیل می‌کند.

سجاد انصاری

درباره نویسنده

سجاد انصاری

سجاد انصاری دانشجوی سال آخر کارشناسی از IIT Kharagpur است. او به عنوان یک علاقه‌مند به فناوری، به کاربردهای عملی هوش مصنوعی می‌پردازد و بر درک تأثیر فناوری‌های هوش مصنوعی و پیامدهای واقعی آنها تمرکز دارد. هدف او بیان مفاهیم پیچیده هوش مصنوعی به شیوه‌ای واضح و در دسترس است.