مدلهای زبانی (Language Models یا LMs) در نحوه درک دادههای متنی از طریق توکنبندی با یک چالش اساسی روبرو هستند. توکنسازهای فرعی کلمه فعلی، متن را به توکنهای واژگانی تقسیم میکنند که نمیتوانند فضای خالی را پر کنند و از یک محدودیت مصنوعی پیروی میکنند که فضا را به عنوان یک مرز معنایی در نظر میگیرد. این عمل این واقعیت را نادیده میگیرد که معنا اغلب از کلمات منفرد فراتر میرود - عبارات چند کلمهای مانند "a lot of" (بسیاری از) به عنوان واحدهای معنایی واحد عمل میکنند و انگلیسیزبانان هزاران عبارت از این قبیل را به صورت ذهنی ذخیره میکنند. به صورت بین زبانی، مفاهیم یکسان ممکن است به صورت کلمات منفرد یا چندگانه بسته به زبان بیان شوند. قابل توجه است که برخی از زبانها مانند چینی و ژاپنی از فضای خالی استفاده نمیکنند و به توکنها اجازه میدهند چندین کلمه یا جمله را بدون کاهش عملکرد ظاهری در بر گیرند.
تحقیقات قبلی چندین رویکرد فراتر از توکنبندی فرعی کلمه سنتی را بررسی کردهاند. برخی از مطالعات پردازش متن در سطوح دانهبندی چندگانه یا ایجاد توکنهای چند کلمهای از طریق شناسایی n-گرم مبتنی بر فراوانی را بررسی کردند. محققان دیگر، پیشبینی چند توکنی (Multi-Token Prediction یا MTP) را بررسی کردهاند که به مدلهای زبانی اجازه میدهد تا توکنهای مختلف را در یک مرحله پیشبینی کنند، که قابلیت مدلها برای پردازش بیش از یک فرعی کلمه را به طور همزمان تأیید میکند. با این حال، این رویکردها نیاز به تغییرات معماری دارند و تعداد توکنهای پیشبینیشده در هر مرحله را ثابت میکنند. برخی از محققان رویکردهای بدون توکنساز را دنبال کردهاند و متن را مستقیماً به عنوان دنبالههای بایت مدلسازی میکنند. با این حال، این امر به طور قابل توجهی طول دنبالهها و الزامات محاسباتی را افزایش میدهد و منجر به راه حلهای معماری پیچیده میشود.
محققان دانشگاه واشنگتن (University of Washington)، انویدیا (NVIDIA) و مؤسسه آلن برای هوش مصنوعی (Allen Institute for AI)، SuperBPE را پیشنهاد کردهاند، یک الگوریتم توکنبندی که واژگانی حاوی هر دو توکن فرعی کلمه سنتی و توکنهای "ابرکلمه" نوآورانه ایجاد میکند که چندین کلمه را در بر میگیرد. این رویکرد، الگوریتم محبوب رمزگذاری جفتی بایت (Byte-Pair Encoding یا BPE) را با اجرای یک برنامه درسی پیش توکنبندی با حفظ اولیه مرزهای فضای خالی برای یادگیری توکنهای فرعی کلمه و سپس حذف این محدودیتها برای امکان شکلگیری توکن ابرکلمه، بهبود میبخشد. در حالی که BPE استاندارد به سرعت به بازده نزولی میرسد و با افزایش اندازه واژگان، شروع به استفاده از فرعی کلمات به طور فزاینده نادر میکند، SuperBPE به کشف دنبالههای چند کلمهای رایج برای رمزگذاری به عنوان توکنهای واحد ادامه میدهد و کارایی رمزگذاری را بهبود میبخشد.
SuperBPE از طریق یک فرایند آموزشی دو مرحلهای عمل میکند که مرحله پیش توکنبندی BPE سنتی را تغییر میدهد، که در بالا ذکر شد. این رویکرد به طور شهودی واحدهای معنایی را میسازد و آنها را برای کارایی بیشتر در دنبالههای رایج ترکیب میکند. تنظیم t=T (t نقطه انتقال و T اندازه هدف است) BPE استاندارد را تولید میکند، در حالی که t=0 یک BPE ساده بدون فضای خالی ایجاد میکند. آموزش SuperBPE به منابع محاسباتی بیشتری نسبت به BPE استاندارد نیاز دارد، زیرا بدون پیش توکنبندی فضای خالی، دادههای آموزشی از "کلمات" بسیار طولانی با حداقل رفع تکرار تشکیل شدهاند. با این حال، این افزایش هزینه آموزش - چند ساعت روی 100 پردازنده - فقط یک بار رخ میدهد که در مقایسه با منابع مورد نیاز برای پیشآموزش مدل زبانی ناچیز است.
SuperBPE عملکرد چشمگیری را در 30 معیار ارزیابی در زمینههای دانش، استدلال، کدنویسی، درک مطلب و غیره نشان میدهد. همه مدلهای SuperBPE از خط پایه BPE بهتر عمل میکنند و قویترین مدل 8B به طور متوسط 4.0٪ بهبود دست مییابد و از خط پایه در 25 از 30 وظیفه فردی فراتر میرود. وظایف چند گزینهای افزایش قابل توجهی را نشان میدهند، با 9.7٪ + بهبود. تنها عملکرد ضعیف از نظر آماری در وظیفه LAMBADA رخ میدهد، جایی که SuperBPE کاهش دقت نهایی را از 75.8٪ به 70.6٪ تجربه میکند. علاوه بر این، همه نقاط انتقال معقول نتایج قویتری نسبت به خط پایه ارائه میدهند. کارآمدترین نقطه انتقال رمزگذاری 3.1٪ + بهبود عملکرد را ارائه میدهد در حالی که محاسبات استنتاج را 35٪ کاهش میدهد.
در خاتمه، محققان SuperBPE را معرفی کردند، یک رویکرد توکنبندی مؤثرتر که با بهبود الگوریتم استاندارد BPE برای گنجاندن توکنهای ابرکلمه توسعه یافته است. علیرغم اینکه توکنبندی به عنوان رابط اساسی بین مدلهای زبانی و متن عمل میکند، الگوریتمهای توکنبندی نسبتاً ایستا باقی ماندهاند. SuperBPE این وضعیت موجود را با تشخیص اینکه توکنها میتوانند فراتر از مرزهای فرعی کلمه سنتی گسترش یابند تا عبارات چند کلمهای را شامل شوند، به چالش میکشد. توکنسازهای SuperBPE مدلهای زبانی را قادر میسازند تا به عملکرد برتر در بسیاری از وظایف پاییندستی دست یابند در حالی که هزینههای محاسباتی استنتاج را کاهش میدهند. این مزایا نیازی به تغییر در معماری مدل زیربنایی ندارند، و SuperBPE را به یک جایگزین بینقص برای BPE سنتی در خطوط لوله توسعه مدل زبانی مدرن تبدیل میکند.
درباره نویسنده
سجاد انصاری
سجاد انصاری دانشجوی سال آخر کارشناسی از IIT Kharagpur است. او به عنوان یک علاقهمند به فناوری، به کاربردهای عملی هوش مصنوعی میپردازد و بر درک تأثیر فناوریهای هوش مصنوعی و پیامدهای واقعی آنها تمرکز دارد. هدف او بیان مفاهیم پیچیده هوش مصنوعی به شیوهای واضح و در دسترس است.