پارامترهای مدل لاما ۴ ماوریک
پارامترهای مدل لاما ۴ ماوریک

گله لاما ۴: آغاز عصر جدیدی از نوآوری هوش مصنوعی چندوجهی بومی

با افزایش استفاده مردم از هوش مصنوعی برای بهبود زندگی روزمره، مهم است که مدل‌ها و سیستم‌های پیشرو به صورت باز در دسترس باشند تا همه بتوانند آینده تجربیات شخصی‌سازی‌شده را بسازند. امروز، ما با هیجان پیشرفته‌ترین مجموعه مدل‌هایی را معرفی می‌کنیم که کل اکوسیستم لاما (Llama) را پشتیبانی می‌کنند. ما لاما ۴ اسکاوت (Llama 4 Scout) و لاما ۴ ماوریک (Llama 4 Maverick) را معرفی می‌کنیم؛ اولین مدل‌های چندوجهی بومی با وزن باز (open-weight) که از طول زمینه (context length) بی‌سابقه‌ای پشتیبانی می‌کنند و اولین مدل‌های ما هستند که با استفاده از معماری ترکیب متخصصان (MoE یا Mixture-of-Experts) ساخته شده‌اند. همچنین پیش‌نمایشی از لاما ۴ بِهِموت (Llama 4 Behemoth) ارائه می‌دهیم، یکی از هوشمندترین مدل‌های زبان بزرگ (LLM) در جهان و قدرتمندترین مدل ما تاکنون که به عنوان معلمی برای مدل‌های جدید ما عمل می‌کند.

این مدل‌های لاما ۴، سرآغاز عصر جدیدی برای اکوسیستم لاما هستند. ما دو مدل کارآمد در سری لاما ۴ طراحی کردیم: لاما ۴ اسکاوت، مدلی با ۱۷ میلیارد پارامتر فعال و ۱۶ متخصص، و لاما ۴ ماوریک، مدلی با ۱۷ میلیارد پارامتر فعال و ۱۲۸ متخصص. مدل اول روی یک پردازنده گرافیکی H100 انویدیا (با کوانتیزاسیون Int4) جای می‌گیرد، در حالی که مدل دوم روی یک میزبان H100 قرار می‌گیرد. ما همچنین یک مدل معلم، لاما ۴ بِهِموت، را آموزش دادیم که در بنچمارک‌های متمرکز بر STEM (علوم، فناوری، مهندسی و ریاضیات) مانند MATH-500 و GPQA Diamond از GPT-4.5، Claude Sonnet 3.7 و Gemini 2.0 Pro عملکرد بهتری دارد. اگرچه هنوز لاما ۴ بِهِموت را منتشر نمی‌کنیم زیرا هنوز در حال آموزش است، اما هیجان‌زده‌ایم که جزئیات فنی بیشتری در مورد رویکرد خود به اشتراک بگذاریم.

ما همچنان معتقدیم که دسترسی باز باعث پیشرفت نوآوری می‌شود و به نفع توسعه‌دهندگان، متا و جهان است. ما امروز لاما ۴ اسکاوت و لاما ۴ ماوریک را برای دانلود در llama.com و Hugging Face در دسترس قرار می‌دهیم تا همه بتوانند با استفاده از آخرین فناوری ما به ساخت تجربیات جدید ادامه دهند. ما همچنین آنها را در روزهای آینده از طریق شرکای خود در دسترس قرار خواهیم داد. شما همچنین می‌توانید از امروز Meta AI با لاما ۴ را در واتس‌اپ، مسنجر، اینستاگرام دایرکت و وب‌سایت Meta.AI امتحان کنید.

این تازه آغاز راه برای مجموعه لاما ۴ است. ما معتقدیم که هوشمندترین سیستم‌ها باید قادر به انجام اقدامات کلی، مکالمه طبیعی با انسان‌ها و حل مشکلات چالش‌برانگیزی باشند که قبلاً ندیده‌اند. اعطای ابرقدرت‌ها به لاما در این زمینه‌ها منجر به محصولات بهتر برای مردم در پلتفرم‌های ما و فرصت‌های بیشتر برای توسعه‌دهندگان برای نوآوری در موارد استفاده بزرگ بعدی مصرف‌کننده و کسب‌وکار خواهد شد. ما به تحقیق و نمونه‌سازی مدل‌ها و محصولات ادامه می‌دهیم و در LlamaCon در تاریخ ۲۹ آوریل جزئیات بیشتری در مورد دیدگاه خود به اشتراک خواهیم گذاشت—برای شنیدن بیشتر ثبت‌نام کنید.

چه توسعه‌دهنده‌ای باشید که بر روی مدل‌های ما می‌سازید، چه سازمانی که آنها را در گردش کار خود ادغام می‌کنید، یا صرفاً در مورد کاربردها و مزایای بالقوه هوش مصنوعی کنجکاو هستید، لاما ۴ اسکاوت و لاما ۴ ماوریک بهترین گزینه‌ها برای افزودن هوش نسل بعدی به محصولات شما هستند. امروز، ما هیجان‌زده‌ایم که جزئیات بیشتری در مورد چهار بخش اصلی توسعه آنها و بینش‌هایی در مورد فرآیند تحقیق و طراحی خود به اشتراک بگذاریم. ما همچنین بی‌صبرانه منتظریم تا تجربیات باورنکردنی جدیدی را که جامعه با مدل‌های جدید لاما ۴ ما می‌سازد، ببینیم.

پیش‌آموزش (Pre-training)

این مدل‌ها بهترین‌های لاما را نشان می‌دهند و هوش چندوجهی را با قیمتی رقابتی ارائه می‌دهند در حالی که از مدل‌هایی با اندازه‌های بسیار بزرگتر عملکرد بهتری دارند. ساخت نسل بعدی مدل‌های لاما مستلزم اتخاذ چندین رویکرد جدید در طول پیش‌آموزش بود.

مدل‌های جدید لاما ۴ ما اولین مدل‌های ما هستند که از معماری ترکیب متخصصان (MoE) استفاده می‌کنند. در مدل‌های MoE، یک توکن واحد تنها کسری از کل پارامترها را فعال می‌کند. معماری‌های MoE برای آموزش و استنتاج (inference) از نظر محاسباتی کارآمدتر هستند و با توجه به بودجه ثابت FLOPs آموزشی، در مقایسه با یک مدل متراکم (dense model) کیفیت بالاتری ارائه می‌دهند.

نمودار پارامترهای مدل لاما ۴ ماوریک
پارامترهای مدل لاما ۴ ماوریک

پیش‌آموزش (Pre-training)

این مدل‌ها بهترین‌های لاما را نشان می‌دهند و هوش چندوجهی را با قیمتی رقابتی ارائه می‌دهند در حالی که از مدل‌هایی با اندازه‌های بسیار بزرگتر عملکرد بهتری دارند. ساخت نسل بعدی مدل‌های لاما مستلزم اتخاذ چندین رویکرد جدید در طول پیش‌آموزش بود.

مدل‌های جدید لاما ۴ ما اولین مدل‌های ما هستند که از معماری ترکیب متخصصان (MoE) استفاده می‌کنند. در مدل‌های MoE، یک توکن واحد تنها کسری از کل پارامترها را فعال می‌کند. معماری‌های MoE برای آموزش و استنتاج (inference) از نظر محاسباتی کارآمدتر هستند و با توجه به بودجه ثابت FLOPs آموزشی، در مقایسه با یک مدل متراکم (dense model) کیفیت بالاتری ارائه می‌دهند.

تنظیم دقیق با نظارت

ما هر دو مدل لاما ۴ اسکاوت و لاما ۴ ماوریک را با داده‌های تنظیم دقیق با نظارت (SFT یا Supervised Fine-Tuning) گسترده آموزش دادیم تا دستورالعمل‌ها را بهتر دنبال کنند و در مکالمات چند چرخشی مفیدتر باشند.

به طور سنتی، داده‌های SFT با برچسب‌گذاری داده‌های انسانی پرهزینه و زمان‌بر جمع‌آوری می‌شوند. به منظور افزایش دسترسی به داده‌های آموزشی، ما از مدل معلم قدرتمند خود، لاما ۴ بِهِموت، برای تولید داده‌های SFT استفاده کردیم. این به ما امکان داد تا داده‌های بزرگتری را جمع‌آوری کنیم و در عین حال هزینه و زمان را کاهش دهیم. سپس ما این داده‌ها را با داده‌های خارجی با کیفیت بالا ترکیب کردیم تا حتی مدل‌های بهتری ایجاد کنیم. برای دستیابی به بهترین تعادل بین کیفیت و هزینه، چندین استراتژی جمع‌آوری داده را آزمایش کردیم و به راه‌حل‌های ترکیبی رسیدیم که در آن از مدل‌های معلم برای تولید داده‌های SFT و سپس تلفیق آن داده‌ها با داده‌های خارجی با کیفیت بالا استفاده می‌کردیم.

علاوه بر این، برای بهبود قابلیت اطمینان و ایمنی، ما یک حلقه بازخورد از ارزیابی انسانی به مدل‌ها را در پیش گرفتیم. از طریق این حلقه، ما توانستیم به‌سرعت حوزه‌های نیازمند بهبود را شناسایی کرده و داده‌های SFT اضافی را تولید کنیم تا به مدل‌ها کمک کنیم رفتارهای غیر دلخواه را بهتر یاد بگیرند.

استدلال (Reasoning)

ما دریافتیم که مدل‌های لاما ۴ با استفاده از معماری MoE، در استدلال، کدنویسی و ریاضیات به‌طور قابل توجهی بهتر از مدل‌های متراکم قبلی خود هستند. ما از چندین بنچمارک استدلال برای ارزیابی توانایی‌های استدلال آن‌ها استفاده کردیم:

  • MMLU (Massive Multitask Language Understanding) یک بنچمارک محبوب است که دانش و توانایی حل مسئله را در طیف گسترده‌ای از موضوعات، از جمله علوم، مهندسی و ریاضیات اندازه‌گیری می‌کند.
  • MATH-500 مجموعه‌ای از مسائل ریاضی چالش‌برانگیز است که نیازمند استدلال چند مرحله‌ای است.
  • GPQA Diamond مجموعه‌ای از سؤالات سطح پزشک است که نیازمند درک عمیق دانش پزشکی است.

علاوه بر این، لاما ۴ اسکاوت و لاما ۴ ماوریک، به‌ویژه در انجام استدلال چند مرحله‌ای در طول زمینه طولانی خود برتری دارند. به عنوان مثال، در یک کار شبیه‌سازی کتاب‌فروشی، مدل‌ها می‌توانند جزئیات مربوط به کتاب‌های جداگانه را در طول زمینه استخراج کرده و از آن برای پاسخ به سؤالات دشوار استفاده کنند. همچنین به‌طور آزمایشی به این نتیجه رسیدیم که لاما ۴ اسکاوت و لاما ۴ ماوریک می‌توانند در زمینه‌های طولانی خود «یافتن سوزن در انبار کاه» را به دقت انجام دهند، که نشان می‌دهد این مدل‌ها «نمی‌خوابند».

انجام وظایف در زمینه‌های طولانی

مدل‌های لاما ۴ ماوریک و لاما ۴ اسکاوت می‌توانند تا یک میلیون توکن را در یک زمینه واحد مدیریت کنند، که از نظر فنی یک جهش است. زمینه‌های طولانی به مدل‌های LLM اجازه می‌دهند تا حجم بسیار بیشتری از اطلاعات را پردازش کرده و در مکالمات پیچیده‌تر شرکت کنند. مدل‌ها همچنین می‌توانند خلاق‌تر باشند. به عنوان مثال، یک نویسنده می‌تواند از مدل‌ها برای تولید پیش‌نویس‌های متعدد از شخصیت‌های داستانی و تکرار بر روی الگوهای داستان استفاده کند. به منظور دستیابی به قابلیت‌های زمینه طولانی جدید، ما رویکرد متفاوتی را در نحوه پردازش خود اتخاذ کردیم.

با در نظر گرفتن این موضوع، ما به نتایج امیدوارکننده‌ای دست یافتیم—مدل ما در این بنچمارک به شدت ساخته شده، قادر به بازیابی تقریباً تمام «سوزن‌ها» در زمینه ۱M خود است. این نشان می‌دهد که مدل می‌تواند اطلاعات در زمینه طولانی خود را با موفقیت بازیابی کند.