ریکای هوش مصنوعی، رکا فلش 3 را با منبع باز ارائه کرد: یک مدل استدلال 21B که از ابتدا آموزش داده شده است

در چشم‌انداز پویای امروزی هوش مصنوعی، توسعه‌دهندگان و سازمان‌ها با چالش‌های عملی متعددی روبرو هستند. تقاضای محاسباتی بالا, مسائل مربوط به تأخیر و دسترسی محدود به مدل‌های متن‌باز واقعاً سازگار، اغلب پیشرفت را محدود می‌کند. بسیاری از راهکارهای موجود به زیرساخت‌های ابری گران‌قیمت نیاز دارند یا برای برنامه‌های روی دستگاه بسیار بزرگ هستند و یک شکاف برای مدل‌هایی ایجاد می‌کنند که هم کارآمد و هم انعطاف‌پذیر باشند. رسیدگی به این چالش‌ها برای فعال کردن راهکارهای هوش مصنوعی قابل‌دسترس‌تر و سفارشی‌سازی شده که می‌توانند برای کاربردهای مختلف بدون تحمیل بار اضافی بر منابع، طراحی شوند، بسیار مهم است.

ریکای هوش مصنوعی (Reka AI)، رکا فلش 3 (Reka Flash 3) را معرفی کرده است—یک مدل استدلال که از ابتدا با 21 میلیارد پارامتر ساخته شده است. این مدل که برای مکالمه عمومی، پشتیبانی از کدنویسی، پیروی از دستورالعمل‌ها و حتی فراخوانی عملکرد طراحی شده است، برای خدمت به عنوان یک پایه عملی برای طیف گسترده‌ای از برنامه‌ها ساخته شده است. فرآیند آموزش شامل ترکیبی از مجموعه‌داده‌های در دسترس عموم و مصنوعی است و به دنبال آن تنظیم دقیق دستورالعمل‌ها و یادگیری تقویتی با استفاده از روش‌های REINFORCE Leave One-Out (RLOO) انجام می‌شود. این رویکرد سنجیده با هدف ایجاد تعادل بین قابلیت و کارایی، رکا فلش 3 را به عنوان یک انتخاب منطقی در میان همتایان خود قرار می‌دهد.

از دیدگاه فنی، رکا فلش 3 چندین ویژگی را ارائه می‌دهد که آن را همه‌کاره و هم از نظر منابع کارآمد می‌کند. یکی از جنبه‌های قابل توجه، توانایی آن در مدیریت طول متن تا 32 هزار توکن است که پردازش اسناد طولانی و وظایف پیچیده را بدون فشار بی‌رویه تسهیل می‌کند. این مدل همچنین یک مکانیسم «تحمیل بودجه» را از طریق تگ‌های <reasoning> تعیین‌شده در خود جای داده است. این ویژگی به کاربران این امکان را می‌دهد که فرآیند تفکر مدل را به تعداد مشخصی از مراحل محدود کنند و در نتیجه عملکرد مداوم را بدون سربار محاسباتی بیش از حد تضمین کنند. علاوه بر این، رکا فلش 3 برای استقرار روی دستگاه نیز مناسب است و اندازه کامل با دقت 39 گیگابایت (fp16) را ارائه می‌دهد که می‌تواند از طریق کوانتیزاسیون 4 بیتی بیشتر به 11 گیگابایت فشرده شود. چنین انعطاف‌پذیری استقرارهای محلی روان‌تری را در مقایسه با مدل‌های بزرگ‌تر و با منابع فشرده‌تر امکان‌پذیر می‌کند.

معیارهای ارزیابی و داده‌های عملکرد، کاربردی بودن مدل را تقویت می‌کنند. به عنوان مثال، در حالی که رکا فلش 3 نمره MMLU-Pro متواضعانه 65.0 را نشان می‌دهد، هنگامی که با منابع دانش تکمیلی مانند جستجوی وب جفت شود، رقابتی باقی می‌ماند. علاوه بر این، قابلیت‌های چند زبانه آن در نمره 83.2 COMET در WMT’23 منعکس شده است که نشان‌دهنده سطح معقولی از پشتیبانی از ورودی‌های غیر انگلیسی علیرغم تمرکز اصلی آن بر روی انگلیسی است. این نتایج، همراه با تعداد پارامترهای کارآمد آن نسبت به همتایانی مانند QwQ-32B، پتانسیل آن را برای طیف وسیعی از کاربردهای دنیای واقعی بدون توسل به ادعاهای گزاف برجسته می‌کند.

به طور خلاصه، رکا فلش 3 گامی سنجیده به سوی راهکارهای هوش مصنوعی قابل‌دسترس‌تر را نشان می‌دهد. با ایجاد تعادل دقیق بین عملکرد و کارایی، یک مدل قوی و در عین حال سازگار را ارائه می‌دهد که برای چت عمومی، کدنویسی و وظایف دستورالعمل مناسب است. طراحی جمع‌وجور آن، که با پنجره متن 32 هزار توکنی و مکانیسم نوآورانه تحمیل بودجه تقویت شده است، آن را به یک گزینه عملی برای استقرارهای روی دستگاه و برنامه‌های کاربردی با تأخیر کم تبدیل می‌کند. برای محققان و توسعه‌دهندگانی که به دنبال مدلی هستند که هم توانمند و هم قابل مدیریت باشد، رکا فلش 3 یک پایه امیدوارکننده را ارائه می‌دهد که با نیازهای عملی بدون هیاهوی بیش‌ازحد همسو است.


مدل در Hugging Face و جزئیات فنی را بررسی کنید.

توسط آصف رزاق