انتشار مدل هوش مصنوعی پیشرفته Llama-3.1-Nemotron-Ultra-253B-v1 توسط انویدیا

مدلی که مقیاس بزرگ، قدرت استدلال و استقرار کارآمد را برای نوآوری سازمانی متعادل می‌کند

Llama-3_1-Nemotron-Ultra-253B-v1
<strong>منبع تصویر</strong>
مدل Nemotron
<strong>منبع تصویر</strong>

انتشار مدل هوش مصنوعی پیشرفته Llama-3.1-Nemotron-Ultra-253B-v1 توسط انویدیا

با افزایش استفاده از هوش مصنوعی در زیرساخت‌های دیجیتال، شرکت‌ها و توسعه‌دهندگان با فشار فزاینده‌ای برای متعادل کردن هزینه‌های محاسباتی با عملکرد، مقیاس‌پذیری و انطباق‌پذیری مواجه هستند. پیشرفت سریع مدل‌های زبانی بزرگ (LLM) مرزهای جدیدی را در درک زبان طبیعی، استدلال و هوش مصنوعی مکالمه‌ای گشوده است. با این حال، اندازه و پیچیدگی محض آنها اغلب ناکارآمدی‌هایی را ایجاد می‌کند که مانع از استقرار در مقیاس بزرگ می‌شود. در این چشم‌انداز پویا، این سوال مطرح است: آیا معماری‌های هوش مصنوعی می‌توانند تکامل یابند تا عملکرد بالا را بدون افزایش سربار محاسباتی یا هزینه‌های مالی حفظ کنند؟ فصل بعدی در حماسه نوآوری NVIDIA، راه حلی است که به دنبال بهینه سازی این معاوضه ضمن گسترش مرزهای عملکردی هوش مصنوعی است.

انویدیا مدل Llama-3.1-Nemotron-Ultra-253B-v1 را منتشر کرد، یک مدل زبانی ۲۵۳ میلیارد پارامتری که نشان دهنده یک جهش قابل توجه در قابلیت‌های استدلال، کارایی معماری و آمادگی تولید است. این مدل بخشی از مجموعه بزرگتر Llama Nemotron است و مستقیماً از معماری Llama-3.1-405B-Instruct متا گرفته شده است. دو مدل کوچکتر دیگر، که بخشی از این مجموعه هستند، Llama-3.1-Nemotron-Nano-8B-v1 و Llama-3.3-Nemotron-Super-49B-v1 هستند. Nemotron Ultra که برای استفاده تجاری و سازمانی طراحی شده است، مهندسی شده است تا از وظایف مختلفی از جمله استفاده از ابزار و تولید افزوده شده با بازیابی ( RAG ) تا گفتگوی چند نوبتی و پیروی از دستورالعمل‌های پیچیده پشتیبانی کند.

هسته این مدل یک ساختار رمزگشای متراکم است که با استفاده از یک الگوریتم جستجوی معماری عصبی (NAS) تخصصی تنظیم شده است. برخلاف مدل‌های ترانسفورماتور سنتی، این معماری از بلوک‌های غیر تکراری و استراتژی‌های بهینه‌سازی مختلف استفاده می‌کند. از جمله این نوآوری‌ها می توان به مکانیسم پرش توجه اشاره کرد، جایی که ماژول‌های توجه در لایه‌های خاص به طور کامل رد می‌شوند یا با لایه‌های خطی ساده‌تر جایگزین می‌شوند. همچنین، تکنیک همجوشی شبکه پیشخور (FFN) توالی‌های FFN را در لایه‌های کمتر و گسترده‌تر ادغام می‌کند و به طور قابل توجهی زمان استنتاج را کاهش می‌دهد در حالی که عملکرد را حفظ می‌کند.

این مدل دقیقاً تنظیم شده از یک پنجره زمینه ۱۲۸K توکن پشتیبانی می کند و به آن اجازه می دهد ورودی های متنی طولانی را جذب و استدلال کند، و آن را برای سیستم های پیشرفته RAG و تجزیه و تحلیل چند سندی مناسب می کند. علاوه بر این، Nemotron Ultra حجم کاری استنتاج را روی یک گره 8xH100 قرار می دهد، که نقطه عطفی در کارایی استقرار به شمار می رود. چنین قابلیت استنتاج فشرده به طور چشمگیری هزینه های مرکز داده را کاهش می دهد و دسترسی را برای توسعه دهندگان سازمانی افزایش می دهد.

فرآیند دقیق چند مرحله ای پس از آموزش NVIDIA شامل تنظیم دقیق نظارت شده بر روی وظایفی مانند تولید کد، ریاضیات، چت، استدلال و فراخوانی ابزار است. پس از آن یادگیری تقویتی (RL) با استفاده از بهینه سازی سیاست نسبی گروهی (GRPO) انجام می شود، الگوریتمی که برای تنظیم دقیق قابلیت های پیروی از دستورالعمل و مکالمه مدل طراحی شده است. این لایه‌های آموزشی اضافی تضمین می‌کنند که مدل در معیارهای ارزیابی عملکرد خوبی دارد و در طول جلسات تعاملی با ترجیحات انسانی همسو می‌شود.

Nemotron Ultra که با در نظر گرفتن آمادگی تولید ساخته شده است، تحت مجوز مدل باز NVIDIA اداره می شود. انتشار آن با مدل های خواهر و برادر دیگر در همان خانواده، از جمله Llama-3.1-Nemotron-Nano-8B-v1 و Llama-3.3-Nemotron-Super-49B-v1 همراه بوده است. پنجره انتشار، بین نوامبر ۲۰۲۴ و آوریل ۲۰۲۵، تضمین کرد که این مدل از داده های آموزشی تا پایان سال ۲۰۲۳ استفاده می کند و دانش و زمینه آن را نسبتاً به روز می کند.

برخی از نکات کلیدی از انتشار Llama-3.1-Nemotron-Ultra-253B-v1 عبارتند از:

  • طراحی اولویت‌بندی کارایی: انویدیا با استفاده از همجوشی NAS و FFN، پیچیدگی مدل را بدون به خطر انداختن دقت کاهش داد و به تأخیر و توان عملیاتی برتر دست یافت.
  • طول زمینه ۱۲۸K توکن: این مدل می تواند اسناد بزرگ را به طور همزمان پردازش کند و قابلیت های RAG و درک زمینه طولانی را افزایش دهد.
  • آماده برای شرکت: این مدل برای چت‌بات‌های تجاری و سیستم‌های عامل هوش مصنوعی ایده‌آل است، زیرا استقرار آن بر روی یک گره 8xH100 آسان است و به خوبی از دستورالعمل‌ها پیروی می‌کند.
  • تنظیم دقیق پیشرفته: RL با GRPO و آموزش نظارت شده در چندین رشته، تعادلی بین قدرت استدلال و همسویی چت را تضمین می کند.
  • مجوز باز: مجوز مدل باز NVIDIA از استقرار انعطاف‌پذیر پشتیبانی می‌کند، در حالی که مجوز انجمن، پذیرش مشارکتی را تشویق می‌کند.

مدل را در Hugging Face بررسی کنید. اعتبار این تحقیق به محققان این پروژه می رسد. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به 85k+ ML SubReddit ما بپیوندید.