مدل‌های کوچک، تاثیر بزرگ: سرویس‌ناو هوش مصنوعی Apriel-5B را منتشر کرد تا با منابع کمتر از مدل‌های زبانی بزرگتر عملکرد بهتری داشته باشد

همزمان با افزایش اندازه و پیچیدگی مدل‌های زبانی، نیاز به منابع مورد نیاز برای آموزش و استقرار آنها نیز افزایش می‌یابد. در حالی که مدل‌های بزرگ‌مقیاس می‌توانند به عملکرد قابل توجهی در انواع معیارهای ارزیابی دست یابند، اما اغلب به دلیل محدودیت‌های زیرساختی و هزینه‌های عملیاتی بالا، برای بسیاری از سازمان‌ها در دسترس نیستند. این شکاف بین قابلیت و قابلیت استقرار، یک چالش عملی ایجاد می‌کند، به ویژه برای شرکت‌هایی که به دنبال جاسازی مدل‌های زبانی در سیستم‌های بلادرنگ یا محیط‌های حساس به هزینه هستند.

در سال‌های اخیر، مدل‌های زبانی کوچک (SLM) به عنوان یک راه حل بالقوه ظاهر شده‌اند و نیازهای حافظه و محاسباتی را کاهش می‌دهند بدون اینکه به طور کامل عملکرد را به خطر بیندازند. با این حال، بسیاری از SLMها برای ارائه نتایج ثابت در وظایف مختلف تلاش می‌کنند و طراحی آنها اغلب شامل مصالحه‌ای است که تعمیم‌پذیری یا قابلیت استفاده را محدود می‌کند.

سرویس‌ناو هوش مصنوعی Apriel-5B را منتشر کرد: گامی به سوی هوش مصنوعی عملی در مقیاس

برای رفع این نگرانی‌ها، سرویس‌ناو هوش مصنوعی Apriel-5B را منتشر کرده است، یک خانواده جدید از مدل‌های زبانی کوچک که با تمرکز بر توان عملیاتی استنتاج، کارایی آموزش و تطبیق‌پذیری بین‌دامنه‌ای طراحی شده‌اند. Apriel-5B با 4.8 میلیارد پارامتر، به اندازه کافی کوچک است که روی سخت‌افزار متوسط مستقر شود، اما همچنان به طور رقابتی در طیف وسیعی از وظایف پیروی از دستورالعمل و استدلال عمل می‌کند.

خانواده Apriel شامل دو نسخه است:

  • Apriel-5B-Base، یک مدل از پیش آموزش‌دیده که برای تنظیم بیشتر یا جاسازی در خطوط لوله در نظر گرفته شده است.
  • Apriel-5B-Instruct، یک نسخه تنظیم‌شده با دستورالعمل که برای چت، استدلال و تکمیل کار همسو شده است.

هر دو مدل تحت مجوز MIT منتشر شده‌اند که از آزمایش باز و پذیرش گسترده‌تر در تحقیقات و موارد استفاده تجاری پشتیبانی می‌کنند.

طراحی معماری و نکات برجسته فنی

Apriel-5B بر روی بیش از 4.5 تریلیون توکن آموزش داده شده است، یک مجموعه داده که با دقت ساخته شده است تا دسته‌های مختلف وظایف، از جمله درک زبان طبیعی، استدلال و قابلیت‌های چند زبانه را پوشش دهد. این مدل از یک معماری متراکم استفاده می‌کند که برای کارایی استنتاج بهینه شده است، با ویژگی‌های فنی کلیدی مانند:

  • Embeddings موقعیتی چرخشی (RoPE) با یک پنجره زمینه 8192 توکن، که از وظایف توالی طولانی پشتیبانی می‌کند.
  • FlashAttention-2، که محاسبات توجه سریع‌تر و استفاده بهتر از حافظه را امکان پذیر می‌کند.
  • توجه پرس و جوی گروه‌بندی شده (GQA)، که سربار حافظه را در طول رمزگشایی خودرگرسیو کاهش می‌دهد.
  • آموزش در BFloat16، که سازگاری با شتاب‌دهنده‌های مدرن را تضمین می‌کند در حالی که ثبات عددی را حفظ می‌کند.

این تصمیمات معماری به Apriel-5B اجازه می‌دهد تا بدون تکیه بر سخت‌افزار تخصصی یا موازی‌سازی گسترده، پاسخگویی و سرعت را حفظ کند. نسخه تنظیم‌شده با دستورالعمل با استفاده از مجموعه‌های داده انتخاب‌شده و تکنیک‌های نظارت‌شده تنظیم دقیق شده است و آن را قادر می‌سازد تا در طیف وسیعی از وظایف پیروی از دستورالعمل با حداقل درخواست، عملکرد خوبی داشته باشد.

بینش‌های ارزیابی و مقایسه‌های معیار

Apriel-5B-Instruct در برابر چندین مدل باز به طور گسترده استفاده شده، از جمله LLaMA 3.1–8B متا، OLMo-2–7B آلن ای‌آی و Mistral-Nemo-12B ارزیابی شده است. علیرغم اندازه کوچکتر، Apriel نتایج رقابتی را در چندین معیار نشان می‌دهد:

  • به طور متوسط در وظایف عمومی، از OLMo-2–7B-Instruct و Mistral-Nemo-12B-Instruct عملکرد بهتری دارد.
  • نتایج قوی‌تری نسبت به LLaMA-3.1–8B-Instruct در وظایف متمرکز بر ریاضی و IF Eval نشان می‌دهد که سازگاری پیروی از دستورالعمل را ارزیابی می‌کند.
  • به طور قابل توجهی منابع محاسباتی کمتری—2.3 برابر ساعت‌های GPU کمتر—نسبت به OLMo-2–7B نیاز دارد، که بر کارایی آموزش آن تأکید می‌کند.

این نتایج نشان می‌دهد که Apriel-5B به یک نقطه میانی سازنده بین استقرار سبک وزن و تطبیق‌پذیری وظیفه، به ویژه در دامنه‌هایی که عملکرد بلادرنگ و منابع محدود ملاحظات کلیدی هستند، دست می‌یابد.

نتایج معیار Apriel-5B
نتایج معیار مقایسه Apriel-5B با سایر مدل‌های باز.

نتیجه‌گیری: یک افزودنی کاربردی به اکوسیستم مدل

Apriel-5B نشان‌دهنده یک رویکرد متفکرانه برای طراحی مدل کوچک است، رویکردی که بر تعادل به جای مقیاس تأکید دارد. سرویس‌ناو هوش مصنوعی با تمرکز بر توان عملیاتی استنتاج، کارایی آموزش و عملکرد اصلی پیروی از دستورالعمل، یک خانواده مدل ایجاد کرده است که به راحتی قابل استقرار، سازگار با موارد استفاده متنوع و به طور آشکار برای ادغام در دسترس است.

عملکرد قوی آن در معیارهای ریاضی و استدلال، همراه با مجوز مجاز و مشخصات محاسباتی کارآمد، Apriel-5B را به یک انتخاب قانع‌کننده برای تیم‌هایی تبدیل می‌کند که قابلیت‌های هوش مصنوعی را در محصولات، عوامل یا گردش کار ایجاد می‌کنند. در زمینه‌ای که به طور فزاینده‌ای با دسترسی و کاربرد در دنیای واقعی تعریف می‌شود، Apriel-5B یک گام عملی به جلو است.


ServiceNow-AI/Apriel-5B-Base و ServiceNow-AI/Apriel-5B-Instruct. را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، می‌توانید ما را در توییتر دنبال کنید و فراموش نکنید که به 85k+ ساب‌ردیت ML ما بپیوندید.