با افزایش استفاده مردم از هوش مصنوعی برای بهبود زندگی روزمره، مهم است که مدلها و سیستمهای پیشرو به صورت باز در دسترس باشند تا همه بتوانند آینده تجربیات شخصیسازیشده را بسازند. امروز، ما با هیجان پیشرفتهترین مجموعه مدلهایی را معرفی میکنیم که کل اکوسیستم لاما (Llama) را پشتیبانی میکنند. ما لاما ۴ اسکاوت (Llama 4 Scout) و لاما ۴ ماوریک (Llama 4 Maverick) را معرفی میکنیم؛ اولین مدلهای چندوجهی بومی با وزن باز (open-weight) که از طول زمینه (context length) بیسابقهای پشتیبانی میکنند و اولین مدلهای ما هستند که با استفاده از معماری ترکیب متخصصان (MoE یا Mixture-of-Experts) ساخته شدهاند. همچنین پیشنمایشی از لاما ۴ بِهِموت (Llama 4 Behemoth) ارائه میدهیم، یکی از هوشمندترین مدلهای زبان بزرگ (LLM) در جهان و قدرتمندترین مدل ما تاکنون که به عنوان معلمی برای مدلهای جدید ما عمل میکند.
این مدلهای لاما ۴، سرآغاز عصر جدیدی برای اکوسیستم لاما هستند. ما دو مدل کارآمد در سری لاما ۴ طراحی کردیم: لاما ۴ اسکاوت، مدلی با ۱۷ میلیارد پارامتر فعال و ۱۶ متخصص، و لاما ۴ ماوریک، مدلی با ۱۷ میلیارد پارامتر فعال و ۱۲۸ متخصص. مدل اول روی یک پردازنده گرافیکی H100 انویدیا (با کوانتیزاسیون Int4) جای میگیرد، در حالی که مدل دوم روی یک میزبان H100 قرار میگیرد. ما همچنین یک مدل معلم، لاما ۴ بِهِموت، را آموزش دادیم که در بنچمارکهای متمرکز بر STEM (علوم، فناوری، مهندسی و ریاضیات) مانند MATH-500 و GPQA Diamond از GPT-4.5، Claude Sonnet 3.7 و Gemini 2.0 Pro عملکرد بهتری دارد. اگرچه هنوز لاما ۴ بِهِموت را منتشر نمیکنیم زیرا هنوز در حال آموزش است، اما هیجانزدهایم که جزئیات فنی بیشتری در مورد رویکرد خود به اشتراک بگذاریم.
ما همچنان معتقدیم که دسترسی باز باعث پیشرفت نوآوری میشود و به نفع توسعهدهندگان، متا و جهان است. ما امروز لاما ۴ اسکاوت و لاما ۴ ماوریک را برای دانلود در llama.com و Hugging Face در دسترس قرار میدهیم تا همه بتوانند با استفاده از آخرین فناوری ما به ساخت تجربیات جدید ادامه دهند. ما همچنین آنها را در روزهای آینده از طریق شرکای خود در دسترس قرار خواهیم داد. شما همچنین میتوانید از امروز Meta AI با لاما ۴ را در واتساپ، مسنجر، اینستاگرام دایرکت و وبسایت Meta.AI امتحان کنید.
این تازه آغاز راه برای مجموعه لاما ۴ است. ما معتقدیم که هوشمندترین سیستمها باید قادر به انجام اقدامات کلی، مکالمه طبیعی با انسانها و حل مشکلات چالشبرانگیزی باشند که قبلاً ندیدهاند. اعطای ابرقدرتها به لاما در این زمینهها منجر به محصولات بهتر برای مردم در پلتفرمهای ما و فرصتهای بیشتر برای توسعهدهندگان برای نوآوری در موارد استفاده بزرگ بعدی مصرفکننده و کسبوکار خواهد شد. ما به تحقیق و نمونهسازی مدلها و محصولات ادامه میدهیم و در LlamaCon در تاریخ ۲۹ آوریل جزئیات بیشتری در مورد دیدگاه خود به اشتراک خواهیم گذاشت—برای شنیدن بیشتر ثبتنام کنید.
چه توسعهدهندهای باشید که بر روی مدلهای ما میسازید، چه سازمانی که آنها را در گردش کار خود ادغام میکنید، یا صرفاً در مورد کاربردها و مزایای بالقوه هوش مصنوعی کنجکاو هستید، لاما ۴ اسکاوت و لاما ۴ ماوریک بهترین گزینهها برای افزودن هوش نسل بعدی به محصولات شما هستند. امروز، ما هیجانزدهایم که جزئیات بیشتری در مورد چهار بخش اصلی توسعه آنها و بینشهایی در مورد فرآیند تحقیق و طراحی خود به اشتراک بگذاریم. ما همچنین بیصبرانه منتظریم تا تجربیات باورنکردنی جدیدی را که جامعه با مدلهای جدید لاما ۴ ما میسازد، ببینیم.
پیشآموزش (Pre-training)
این مدلها بهترینهای لاما را نشان میدهند و هوش چندوجهی را با قیمتی رقابتی ارائه میدهند در حالی که از مدلهایی با اندازههای بسیار بزرگتر عملکرد بهتری دارند. ساخت نسل بعدی مدلهای لاما مستلزم اتخاذ چندین رویکرد جدید در طول پیشآموزش بود.
مدلهای جدید لاما ۴ ما اولین مدلهای ما هستند که از معماری ترکیب متخصصان (MoE) استفاده میکنند. در مدلهای MoE، یک توکن واحد تنها کسری از کل پارامترها را فعال میکند. معماریهای MoE برای آموزش و استنتاج (inference) از نظر محاسباتی کارآمدتر هستند و با توجه به بودجه ثابت FLOPs آموزشی، در مقایسه با یک مدل متراکم (dense model) کیفیت بالاتری ارائه میدهند.
پیشآموزش (Pre-training)
این مدلها بهترینهای لاما را نشان میدهند و هوش چندوجهی را با قیمتی رقابتی ارائه میدهند در حالی که از مدلهایی با اندازههای بسیار بزرگتر عملکرد بهتری دارند. ساخت نسل بعدی مدلهای لاما مستلزم اتخاذ چندین رویکرد جدید در طول پیشآموزش بود.
مدلهای جدید لاما ۴ ما اولین مدلهای ما هستند که از معماری ترکیب متخصصان (MoE) استفاده میکنند. در مدلهای MoE، یک توکن واحد تنها کسری از کل پارامترها را فعال میکند. معماریهای MoE برای آموزش و استنتاج (inference) از نظر محاسباتی کارآمدتر هستند و با توجه به بودجه ثابت FLOPs آموزشی، در مقایسه با یک مدل متراکم (dense model) کیفیت بالاتری ارائه میدهند.
تنظیم دقیق با نظارت
ما هر دو مدل لاما ۴ اسکاوت و لاما ۴ ماوریک را با دادههای تنظیم دقیق با نظارت (SFT یا Supervised Fine-Tuning) گسترده آموزش دادیم تا دستورالعملها را بهتر دنبال کنند و در مکالمات چند چرخشی مفیدتر باشند.
به طور سنتی، دادههای SFT با برچسبگذاری دادههای انسانی پرهزینه و زمانبر جمعآوری میشوند. به منظور افزایش دسترسی به دادههای آموزشی، ما از مدل معلم قدرتمند خود، لاما ۴ بِهِموت، برای تولید دادههای SFT استفاده کردیم. این به ما امکان داد تا دادههای بزرگتری را جمعآوری کنیم و در عین حال هزینه و زمان را کاهش دهیم. سپس ما این دادهها را با دادههای خارجی با کیفیت بالا ترکیب کردیم تا حتی مدلهای بهتری ایجاد کنیم. برای دستیابی به بهترین تعادل بین کیفیت و هزینه، چندین استراتژی جمعآوری داده را آزمایش کردیم و به راهحلهای ترکیبی رسیدیم که در آن از مدلهای معلم برای تولید دادههای SFT و سپس تلفیق آن دادهها با دادههای خارجی با کیفیت بالا استفاده میکردیم.
علاوه بر این، برای بهبود قابلیت اطمینان و ایمنی، ما یک حلقه بازخورد از ارزیابی انسانی به مدلها را در پیش گرفتیم. از طریق این حلقه، ما توانستیم بهسرعت حوزههای نیازمند بهبود را شناسایی کرده و دادههای SFT اضافی را تولید کنیم تا به مدلها کمک کنیم رفتارهای غیر دلخواه را بهتر یاد بگیرند.
استدلال (Reasoning)
ما دریافتیم که مدلهای لاما ۴ با استفاده از معماری MoE، در استدلال، کدنویسی و ریاضیات بهطور قابل توجهی بهتر از مدلهای متراکم قبلی خود هستند. ما از چندین بنچمارک استدلال برای ارزیابی تواناییهای استدلال آنها استفاده کردیم:
- MMLU (Massive Multitask Language Understanding) یک بنچمارک محبوب است که دانش و توانایی حل مسئله را در طیف گستردهای از موضوعات، از جمله علوم، مهندسی و ریاضیات اندازهگیری میکند.
- MATH-500 مجموعهای از مسائل ریاضی چالشبرانگیز است که نیازمند استدلال چند مرحلهای است.
- GPQA Diamond مجموعهای از سؤالات سطح پزشک است که نیازمند درک عمیق دانش پزشکی است.
علاوه بر این، لاما ۴ اسکاوت و لاما ۴ ماوریک، بهویژه در انجام استدلال چند مرحلهای در طول زمینه طولانی خود برتری دارند. به عنوان مثال، در یک کار شبیهسازی کتابفروشی، مدلها میتوانند جزئیات مربوط به کتابهای جداگانه را در طول زمینه استخراج کرده و از آن برای پاسخ به سؤالات دشوار استفاده کنند. همچنین بهطور آزمایشی به این نتیجه رسیدیم که لاما ۴ اسکاوت و لاما ۴ ماوریک میتوانند در زمینههای طولانی خود «یافتن سوزن در انبار کاه» را به دقت انجام دهند، که نشان میدهد این مدلها «نمیخوابند».
انجام وظایف در زمینههای طولانی
مدلهای لاما ۴ ماوریک و لاما ۴ اسکاوت میتوانند تا یک میلیون توکن را در یک زمینه واحد مدیریت کنند، که از نظر فنی یک جهش است. زمینههای طولانی به مدلهای LLM اجازه میدهند تا حجم بسیار بیشتری از اطلاعات را پردازش کرده و در مکالمات پیچیدهتر شرکت کنند. مدلها همچنین میتوانند خلاقتر باشند. به عنوان مثال، یک نویسنده میتواند از مدلها برای تولید پیشنویسهای متعدد از شخصیتهای داستانی و تکرار بر روی الگوهای داستان استفاده کند. به منظور دستیابی به قابلیتهای زمینه طولانی جدید، ما رویکرد متفاوتی را در نحوه پردازش خود اتخاذ کردیم.
با در نظر گرفتن این موضوع، ما به نتایج امیدوارکنندهای دست یافتیم—مدل ما در این بنچمارک به شدت ساخته شده، قادر به بازیابی تقریباً تمام «سوزنها» در زمینه ۱M خود است. این نشان میدهد که مدل میتواند اطلاعات در زمینه طولانی خود را با موفقیت بازیابی کند.