انتشار مدل هوش مصنوعی پیشرفته Llama-3.1-Nemotron-Ultra-253B-v1 توسط انویدیا
با افزایش استفاده از هوش مصنوعی در زیرساختهای دیجیتال، شرکتها و توسعهدهندگان با فشار فزایندهای برای متعادل کردن هزینههای محاسباتی با عملکرد، مقیاسپذیری و انطباقپذیری مواجه هستند. پیشرفت سریع مدلهای زبانی بزرگ (LLM) مرزهای جدیدی را در درک زبان طبیعی، استدلال و هوش مصنوعی مکالمهای گشوده است. با این حال، اندازه و پیچیدگی محض آنها اغلب ناکارآمدیهایی را ایجاد میکند که مانع از استقرار در مقیاس بزرگ میشود. در این چشمانداز پویا، این سوال مطرح است: آیا معماریهای هوش مصنوعی میتوانند تکامل یابند تا عملکرد بالا را بدون افزایش سربار محاسباتی یا هزینههای مالی حفظ کنند؟ فصل بعدی در حماسه نوآوری NVIDIA، راه حلی است که به دنبال بهینه سازی این معاوضه ضمن گسترش مرزهای عملکردی هوش مصنوعی است.
انویدیا مدل Llama-3.1-Nemotron-Ultra-253B-v1 را منتشر کرد، یک مدل زبانی ۲۵۳ میلیارد پارامتری که نشان دهنده یک جهش قابل توجه در قابلیتهای استدلال، کارایی معماری و آمادگی تولید است. این مدل بخشی از مجموعه بزرگتر Llama Nemotron است و مستقیماً از معماری Llama-3.1-405B-Instruct متا گرفته شده است. دو مدل کوچکتر دیگر، که بخشی از این مجموعه هستند، Llama-3.1-Nemotron-Nano-8B-v1 و Llama-3.3-Nemotron-Super-49B-v1 هستند. Nemotron Ultra که برای استفاده تجاری و سازمانی طراحی شده است، مهندسی شده است تا از وظایف مختلفی از جمله استفاده از ابزار و تولید افزوده شده با بازیابی ( RAG ) تا گفتگوی چند نوبتی و پیروی از دستورالعملهای پیچیده پشتیبانی کند.
هسته این مدل یک ساختار رمزگشای متراکم است که با استفاده از یک الگوریتم جستجوی معماری عصبی (NAS) تخصصی تنظیم شده است. برخلاف مدلهای ترانسفورماتور سنتی، این معماری از بلوکهای غیر تکراری و استراتژیهای بهینهسازی مختلف استفاده میکند. از جمله این نوآوریها می توان به مکانیسم پرش توجه اشاره کرد، جایی که ماژولهای توجه در لایههای خاص به طور کامل رد میشوند یا با لایههای خطی سادهتر جایگزین میشوند. همچنین، تکنیک همجوشی شبکه پیشخور (FFN) توالیهای FFN را در لایههای کمتر و گستردهتر ادغام میکند و به طور قابل توجهی زمان استنتاج را کاهش میدهد در حالی که عملکرد را حفظ میکند.
این مدل دقیقاً تنظیم شده از یک پنجره زمینه ۱۲۸K توکن پشتیبانی می کند و به آن اجازه می دهد ورودی های متنی طولانی را جذب و استدلال کند، و آن را برای سیستم های پیشرفته RAG و تجزیه و تحلیل چند سندی مناسب می کند. علاوه بر این، Nemotron Ultra حجم کاری استنتاج را روی یک گره 8xH100 قرار می دهد، که نقطه عطفی در کارایی استقرار به شمار می رود. چنین قابلیت استنتاج فشرده به طور چشمگیری هزینه های مرکز داده را کاهش می دهد و دسترسی را برای توسعه دهندگان سازمانی افزایش می دهد.
فرآیند دقیق چند مرحله ای پس از آموزش NVIDIA شامل تنظیم دقیق نظارت شده بر روی وظایفی مانند تولید کد، ریاضیات، چت، استدلال و فراخوانی ابزار است. پس از آن یادگیری تقویتی (RL) با استفاده از بهینه سازی سیاست نسبی گروهی (GRPO) انجام می شود، الگوریتمی که برای تنظیم دقیق قابلیت های پیروی از دستورالعمل و مکالمه مدل طراحی شده است. این لایههای آموزشی اضافی تضمین میکنند که مدل در معیارهای ارزیابی عملکرد خوبی دارد و در طول جلسات تعاملی با ترجیحات انسانی همسو میشود.
Nemotron Ultra که با در نظر گرفتن آمادگی تولید ساخته شده است، تحت مجوز مدل باز NVIDIA اداره می شود. انتشار آن با مدل های خواهر و برادر دیگر در همان خانواده، از جمله Llama-3.1-Nemotron-Nano-8B-v1 و Llama-3.3-Nemotron-Super-49B-v1 همراه بوده است. پنجره انتشار، بین نوامبر ۲۰۲۴ و آوریل ۲۰۲۵، تضمین کرد که این مدل از داده های آموزشی تا پایان سال ۲۰۲۳ استفاده می کند و دانش و زمینه آن را نسبتاً به روز می کند.
برخی از نکات کلیدی از انتشار Llama-3.1-Nemotron-Ultra-253B-v1 عبارتند از:
- طراحی اولویتبندی کارایی: انویدیا با استفاده از همجوشی NAS و FFN، پیچیدگی مدل را بدون به خطر انداختن دقت کاهش داد و به تأخیر و توان عملیاتی برتر دست یافت.
- طول زمینه ۱۲۸K توکن: این مدل می تواند اسناد بزرگ را به طور همزمان پردازش کند و قابلیت های RAG و درک زمینه طولانی را افزایش دهد.
- آماده برای شرکت: این مدل برای چتباتهای تجاری و سیستمهای عامل هوش مصنوعی ایدهآل است، زیرا استقرار آن بر روی یک گره 8xH100 آسان است و به خوبی از دستورالعملها پیروی میکند.
- تنظیم دقیق پیشرفته: RL با GRPO و آموزش نظارت شده در چندین رشته، تعادلی بین قدرت استدلال و همسویی چت را تضمین می کند.
- مجوز باز: مجوز مدل باز NVIDIA از استقرار انعطافپذیر پشتیبانی میکند، در حالی که مجوز انجمن، پذیرش مشارکتی را تشویق میکند.
مدل را در Hugging Face بررسی کنید. اعتبار این تحقیق به محققان این پروژه می رسد. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به 85k+ ML SubReddit ما بپیوندید.