در چشمانداز پویای امروزی هوش مصنوعی، توسعهدهندگان و سازمانها با چالشهای عملی متعددی روبرو هستند. تقاضای محاسباتی بالا, مسائل مربوط به تأخیر و دسترسی محدود به مدلهای متنباز واقعاً سازگار، اغلب پیشرفت را محدود میکند. بسیاری از راهکارهای موجود به زیرساختهای ابری گرانقیمت نیاز دارند یا برای برنامههای روی دستگاه بسیار بزرگ هستند و یک شکاف برای مدلهایی ایجاد میکنند که هم کارآمد و هم انعطافپذیر باشند. رسیدگی به این چالشها برای فعال کردن راهکارهای هوش مصنوعی قابلدسترستر و سفارشیسازی شده که میتوانند برای کاربردهای مختلف بدون تحمیل بار اضافی بر منابع، طراحی شوند، بسیار مهم است.
ریکای هوش مصنوعی (Reka AI)، رکا فلش 3 (Reka Flash 3) را معرفی کرده است—یک مدل استدلال که از ابتدا با 21 میلیارد پارامتر ساخته شده است. این مدل که برای مکالمه عمومی، پشتیبانی از کدنویسی، پیروی از دستورالعملها و حتی فراخوانی عملکرد طراحی شده است، برای خدمت به عنوان یک پایه عملی برای طیف گستردهای از برنامهها ساخته شده است. فرآیند آموزش شامل ترکیبی از مجموعهدادههای در دسترس عموم و مصنوعی است و به دنبال آن تنظیم دقیق دستورالعملها و یادگیری تقویتی با استفاده از روشهای REINFORCE Leave One-Out (RLOO) انجام میشود. این رویکرد سنجیده با هدف ایجاد تعادل بین قابلیت و کارایی، رکا فلش 3 را به عنوان یک انتخاب منطقی در میان همتایان خود قرار میدهد.
از دیدگاه فنی، رکا فلش 3 چندین ویژگی را ارائه میدهد که آن را همهکاره و هم از نظر منابع کارآمد میکند. یکی از جنبههای قابل توجه، توانایی آن در مدیریت طول متن تا 32 هزار توکن است که پردازش اسناد طولانی و وظایف پیچیده را بدون فشار بیرویه تسهیل میکند. این مدل همچنین یک مکانیسم «تحمیل بودجه» را از طریق تگهای <reasoning> تعیینشده در خود جای داده است. این ویژگی به کاربران این امکان را میدهد که فرآیند تفکر مدل را به تعداد مشخصی از مراحل محدود کنند و در نتیجه عملکرد مداوم را بدون سربار محاسباتی بیش از حد تضمین کنند. علاوه بر این، رکا فلش 3 برای استقرار روی دستگاه نیز مناسب است و اندازه کامل با دقت 39 گیگابایت (fp16) را ارائه میدهد که میتواند از طریق کوانتیزاسیون 4 بیتی بیشتر به 11 گیگابایت فشرده شود. چنین انعطافپذیری استقرارهای محلی روانتری را در مقایسه با مدلهای بزرگتر و با منابع فشردهتر امکانپذیر میکند.
معیارهای ارزیابی و دادههای عملکرد، کاربردی بودن مدل را تقویت میکنند. به عنوان مثال، در حالی که رکا فلش 3 نمره MMLU-Pro متواضعانه 65.0 را نشان میدهد، هنگامی که با منابع دانش تکمیلی مانند جستجوی وب جفت شود، رقابتی باقی میماند. علاوه بر این، قابلیتهای چند زبانه آن در نمره 83.2 COMET در WMT’23 منعکس شده است که نشاندهنده سطح معقولی از پشتیبانی از ورودیهای غیر انگلیسی علیرغم تمرکز اصلی آن بر روی انگلیسی است. این نتایج، همراه با تعداد پارامترهای کارآمد آن نسبت به همتایانی مانند QwQ-32B، پتانسیل آن را برای طیف وسیعی از کاربردهای دنیای واقعی بدون توسل به ادعاهای گزاف برجسته میکند.
به طور خلاصه، رکا فلش 3 گامی سنجیده به سوی راهکارهای هوش مصنوعی قابلدسترستر را نشان میدهد. با ایجاد تعادل دقیق بین عملکرد و کارایی، یک مدل قوی و در عین حال سازگار را ارائه میدهد که برای چت عمومی، کدنویسی و وظایف دستورالعمل مناسب است. طراحی جمعوجور آن، که با پنجره متن 32 هزار توکنی و مکانیسم نوآورانه تحمیل بودجه تقویت شده است، آن را به یک گزینه عملی برای استقرارهای روی دستگاه و برنامههای کاربردی با تأخیر کم تبدیل میکند. برای محققان و توسعهدهندگانی که به دنبال مدلی هستند که هم توانمند و هم قابل مدیریت باشد، رکا فلش 3 یک پایه امیدوارکننده را ارائه میدهد که با نیازهای عملی بدون هیاهوی بیشازحد همسو است.
مدل در Hugging Face و جزئیات فنی را بررسی کنید.
توسط آصف رزاق