Llama 4: آنچه باید بدانید

بررسی اجمالی مدل و مشخصات

خانواده Llama 4 جدیدترین نسل مدل‌های هوش مصنوعی متا (Meta) است. نسخه اولیه شامل دو مدل اصلی است:

Llama 4 Scout: یک مدل با مجموع 109 میلیارد پارامتر که از معماری Mixture-of-Experts (MoE) با 16 متخصص استفاده می‌کند و 17 میلیارد پارامتر را در هر توکن فعال می‌کند. این مدل دارای یک پنجره زمینه 10 میلیون توکنی است و روی یک پردازنده گرافیکی H100 قرار می‌گیرد.
Llama 4 Maverick: یک مدل با مجموع 400 میلیارد پارامتر با 128 متخصص که 17 میلیارد پارامتر را در هر توکن فعال می‌کند. این مدل دارای یک پنجره زمینه 1 میلیون توکنی است.

هر دو مدل چندوجهی هستند و ورودی‌های متن و تصویر را می‌پذیرند در حالی که فقط خروجی‌های متنی ارائه می‌دهند. برش دانش آن‌ها آگوست 2024 است.

متا همچنین پیش‌نمایشی از Llama 4 Behemoth، یک مدل بسیار بزرگتر (~2T مجموع پارامترها، 16 متخصص با 288B پارامتر فعال) که هنوز در حال آموزش است، ارائه داد که به آموزش Scout و Maverick از طریق تقطیر کمک کرد.

استدلال: متا به طور واضح به یک "مدل استدلال Llama" آینده در صفحه "به زودی" اشاره کرده است. این نشان می‌دهد که نسخه فعلی بر جنبه‌های دیگر (چندوجهی بودن، عملکرد کلی، طول زمینه) تمرکز دارد و نه بر قابلیت‌های استدلال.

معماری Mixture-of-Experts (MoE) که در Llama 4 استفاده شده چیست؟

Llama 4 با اتخاذ Mixture-of-Experts (MoE) یک تغییر معماری قابل توجه را معرفی می‌کند. به جای فعال کردن تمام پارامترها برای هر توکن:

این مدل شامل شبکه‌های فرعی "متخصص" کوچکتر متعددی است.
یک مکانیسم مسیریابی زیرمجموعه کوچکی از متخصصان را برای پردازش هر توکن انتخاب می‌کند.
فقط 17 میلیارد پارامتر در هر توکن فعال هستند، علی‌رغم شمارش بسیار بیشتر پارامترهای کل.
این امر هزینه محاسباتی را در مقایسه با مدل‌های متراکم با قابلیت مشابه کاهش می‌دهد.

MoE مزایای کارایی را در حین حفظ عملکرد بالا، به ویژه برای استدلال پیچیده و وظایف چندوجهی فراهم می‌کند. با این حال، کل مدل هنوز باید در حافظه بارگیری شود، که مدل‌های MoE را از نظر حافظه فشرده می‌کند.

مدل‌های Llama 4 چگونه چندوجهی هستند؟

هر دو مدل Llama 4 Scout و Maverick "به طور ذاتی چندوجهی" هستند، که با "ادغام اولیه" ساخته شده‌اند تا ورودی‌های متن و تصویر را از ابتدا به طور مشترک پردازش کنند تا اینکه قابلیت‌های بینایی را بعداً اضافه کنند. این با رویکردهایی که قابلیت‌های بینایی را به مدل‌های فقط متنی موجود اضافه می‌کنند، مغایرت دارد.

آن‌ها می‌توانند به طور موثر وظایفی مانند خواندن نمودارها، دیاگرام‌ها و استخراج اطلاعات از تصاویر را انجام دهند، و عملکرد قوی در محک‌های درک تصویر مانند DocVQA و ChartQA نشان می‌دهند. با این حال، آن‌ها فقط خروجی‌های متنی تولید می‌کنند و نمی‌توانند تصویر تولید کنند.

عملکرد و محک‌ها

بر اساس محک‌های منتشر شده توسط متا:

Llama 4 Scout: از مدل‌های قبلی Llama بهتر عمل می‌کند و به خوبی با مدل‌های هم اندازه مانند Gemini 2.0 Flash-Lite، Gemma 3 27B و Mistral 3.1 24B، به ویژه در وظایف چندوجهی رقابت می‌کند.
Llama 4 Maverick: نتایج قوی در برابر مدل‌هایی مانند Gemini 2.0 Flash، DeepSeek v3.1 و حتی GPT-4o در چندین محک استدلال، دانش و چندوجهی نشان می‌دهد. این مدل نمرات بسیار بالایی را در MMLU Pro و GPQA Diamond نشان می‌دهد.

با این حال، سردرگمی در مورد یک "نسخه چت آزمایشی" از Maverick وجود داشت که امتیاز ELO بسیار بالایی (1417) در LMArena کسب کرد. متا توضیح داد که این همان نسخه منتشر شده نیست، که منجر به انتقاداتی در مورد شفافیت محک شد.

ما تمایل داریم جدول امتیازات Chatbot Arena را زیر نظر داشته باشیم و بر اساس این رتبه‌بندی، به نظر می‌رسد Llama 4 در برابر مدل‌های برتر جایگاه خود را حفظ می‌کند. با این حال، آزمایش‌های اولیه کاربر عملکرد متفاوتی را در پلتفرم‌ها و وظایف مختلف نشان داد. به طور خاص، برخی از آزمایش‌های خارجی (به عنوان مثال، در محک کدنویسی aider) نشان داد که Maverick عملکرد ضعیفی (16٪) دارد، که به طور قابل توجهی کمتر از رقبا است.

اجماع جامعه این است که مقایسه‌های مستقیم و دقیق بین Llama 4 و جدیدترین مدل‌ها (مانند Gemini 2.5 Pro یا جدیدترین پیشنهادات OpenAI) هنوز ناقص است و متخصصان باید ارزیابی‌های هدفمندی را متناسب با حوزه‌های کاربردی خود انجام دهند.

آیا محک‌های فعلی برای ارزیابی قابلیت‌های Llama 4 کافی هستند؟

اجماع گسترده‌ای وجود دارد که محک‌های فعلی، به ویژه برای وظایف بینایی-زبانی، محدودیت‌های قابل توجهی دارند:

بسیاری از محک‌ها فقط قابلیت‌های اساسی مانند OCR یا شناسایی ویژگی‌های ساده تصویر را آزمایش می‌کنند.
آن‌ها اغلب نمی‌توانند درک عمیق‌تر بصری یا استدلال پیچیده در مورد داده‌های بصری را ارزیابی کنند.
می‌تواند شکاف قابل توجهی بین عملکرد محک و اثربخشی دنیای واقعی وجود داشته باشد.

متخصصان باید در مورد تکیه صرف بر محک‌های منتشر شده محتاط باشند و باید ارزیابی‌های خود را برای موارد استفاده خاص انجام دهند تا اینکه فرض کنند برتری محک مستقیماً به عملکرد برنامه ترجمه می‌شود.

پنجره‌ی زمینه و کاربرد عملی

در حالی که روی کاغذ چشمگیر است، پنجره زمینه 10M توکنی با چالش‌های عملی قابل توجهی روبرو است:

نیازمندی‌های سخت‌افزاری: مستندات متا نشان می‌دهد که اجرای حتی 1.4 میلیون توکن به 8x پردازنده گرافیکی H100 با دقت bf16 نیاز دارد.
محدودیت‌های ارائه‌دهنده: ارائه‌دهندگان API اولیه زمینه را به اندازه‌های بسیار کوچکتر محدود کردند (به عنوان مثال، 128K، 328K).
شکاف‌های ارزیابی: ارزیابی‌های جامع کیفیت بازیابی و استدلال در کل پنجره زمینه محدود است، با آزمایش‌هایی که عمدتاً بر بازیابی ساده سوزن در انبار کاه متمرکز هستند.
تخریب عملکرد: آزمایش‌های اولیه کاربر روی اعلان‌های طولانی گاهی اوقات نتایج ضعیف یا خراب به همراه داشت.

زمینه گسترده احتمالاً از طریق پیشرفت‌های معماری مانند iRoPE (پیشرفتی نسبت به رمزگذاری موقعیتی RoPE) به دست می‌آید، اما استفاده کامل از این قابلیت به منابع محاسباتی قابل توجهی نیاز دارد که ممکن است برای اکثر تیم‌های برنامه‌های هوش مصنوعی از نظر هزینه بازدارنده باشد.

متخصصان چگونه باید اعلان‌ها را برای برنامه‌های مبتنی بر Llama 4 ساختاربندی کنند؟

متا توصیه می‌کند که اعلان‌ها را برای تطبیق با قصد کاربر سفارشی کنید، مانند:

پشتیبانی از مکالمه معمولی، بیان احساسات یا شوخ‌طبعی بدون تحمیل سفت و سخت رسمیت.
اجتناب از موعظه یا سخنرانی بیش از حد به کاربران.
اجازه دادن به انعطاف‌پذیری برای اتخاذ لحن یا دیدگاه خاص بر اساس درخواست‌های کاربر.
تمرکز بر رسیدگی به قصد واقعی پشت پرسش‌ها به جای بی‌فایده بی‌طرف بودن.

برنامه‌ها باید به گونه‌ای طراحی شوند که به استقلال کاربر احترام بگذارند و در عین حال محافظ‌های مناسب را برای زمینه خاص پیاده‌سازی کنند. این نشان دهنده تغییری به سمت تعاملات طبیعی‌تر و همسو با کاربر در مقایسه با رویکردهای قبلی است.

یکی از ابزارهای مورد علاقه ما – BAML – با اعلان‌ها به عنوان توابع رفتار می‌کند و در بین توسعه‌دهندگانی که برنامه‌های هوش مصنوعی می‌سازند محبوب شده است. جالب خواهد بود که واکنش‌های اولیه به Llama 4 را از کاربران BAML ببینیم.

ملاحظات سخت‌افزاری و استقرار

این مدل‌ها نیازمندی‌های سخت‌افزاری قابل توجهی دارند که آن‌ها را فراتر از پردازنده‌های گرافیکی مصرف‌کننده قرار می‌دهد:

Llama 4 Scout (109B):

یک نسخه کوانتیزه شده 4 بیتی به ~55-60 گیگابایت VRAM فقط برای وزن‌ها، به اضافه سربار کش KV نیاز دارد.
می‌تواند روی یک H100 (80 گیگابایتی) یا چند پردازنده گرافیکی سطح بالا اجرا شود.
سیستم‌های High-RAM مانند Mac Studios ممکن است نسخه‌های کوانتیزه شده را مدیریت کنند (تقریباً 64 گیگابایت + برای 3 بیتی، 96 گیگابایت + برای 4 بیتی، 128 گیگابایت + برای 8 بیتی).
عملکرد در سخت‌افزار مصرف‌کننده ممکن است محدود باشد (به عنوان مثال، ~47 توکن/ثانیه گزارش شده در یک M3 Ultra با کوانتیزاسیون 4 بیتی).

Llama 4 Maverick (400B):

به استنتاج توزیع شده در سراسر شتاب‌دهنده‌های قدرتمند متعدد نیاز دارد.
استقرار محلی برای افراد و اکثر سازمان‌ها غیرممکن است.

دیدگاه اجماعی این است که مدل‌های کوچکتر آینده (~24 میلیارد پارامتر) یک "نقطه شیرین" را نشان می‌دهند که عملکرد و الزامات منابع را برای محیط‌های توسعه معمولی متعادل می‌کند.

آیا پردازنده‌های گرافیکی (GPU) هنوز برای اجرای مدل‌های بزرگ MoE مانند Llama 4 بهینه هستند؟

لزومی ندارد. شواهد رو به رشدی وجود دارد که نشان می‌دهد پردازنده‌های گرافیکی سنتی با محدودیت‌های قابل توجهی برای ارائه مدل‌های بزرگ MoE روبرو هستند:

پردازنده‌های گرافیکی اغلب فاقد پهنای باند حافظه کافی برای استنتاج مقرون به صرفه مدل‌های بزرگ هستند.
سخت‌افزار نوظهور متمرکز بر هوش مصنوعی مانند APUهای Strix Halo AMD و Mac Studios با حافظه یکپارچه اپل ممکن است ادغام حافظه بهتری ارائه دهند.
APUها با معماری‌های حافظه یکپارچه می‌توانند برای حجم کاری استنتاج مقرون به صرفه‌تر باشند.

این نشان دهنده یک تغییر بالقوه الگوی سخت‌افزاری دور از استقرارهای سنتی متمرکز بر GPU به سمت سخت‌افزار هوش مصنوعی تخصصی‌تر برای استنتاج LLM کارآمد است.

هزینه استنتاج تخمینی برای مدل‌های Llama 4 چقدر است؟

متا تخمین می‌زند که Maverick می‌تواند با 0.19 تا 0.49 دلار در هر میلیون توکن (با استفاده از نسبت ورودی/خروجی ترکیبی 3:1) با استنتاج و بهینه‌سازی توزیع شده ارائه شود. این به عنوان مقرون به صرفه‌تر از GPT-4o (4.38 دلار/Mtok) اما بالاتر از برخی جایگزین‌ها مانند Gemini 2.0 Flash (0.17 دلار/Mtok) قرار دارد.

قیمت‌گذاری اولیه API از ارائه‌دهندگانی مانند Groq Scout را تقریباً 0.11/0.34 دلار در هر میلیون توکن ورودی/خروجی فهرست کرد. هزینه‌های واقعی بسته به ارائه‌دهنده و الگوهای استفاده خاص متفاوت خواهد بود.

محدودیت‌ها و سوگیری‌ها

علیرغم پیشرفت‌هایشان، مدل‌های Llama 4 دارای چندین محدودیت مهم هستند:

محدودیت‌های اساسی LLM: آن‌ها از طریق پیش‌بینی توکن به جای استدلال واقعی عمل می‌کنند و نمی‌توانند تحقیقات اصلی انجام دهند یا مناقشاتی را که نیاز به شواهد تجربی دارند حل کنند.
محدودیت‌های بینایی: در حالی که آن‌ها می‌توانند تصاویر را پردازش کنند، درک آن‌ها بر ویژگی‌های اساسی، استخراج متن و وظایف شناسایی ساده به جای درک عمیق‌تر بصری متمرکز است.
محدودیت قانون هوش مصنوعی اتحادیه اروپا: متا استفاده از قابلیت‌های بینایی را در اتحادیه اروپا به دلیل نگرانی‌های نظارتی محدود می‌کند.
سوگیری‌های داده آموزشی: مانند سایر LLMها، خروجی‌ها الگوهای موجود در داده‌های آموزشی را منعکس می‌کنند نه استدلال مستقل.

چه سوگیری‌هایی ممکن است در مجموعه‌داده‌های آموزشی Llama 4 وجود داشته باشد؟

مدل‌های Llama 4 احتمالاً سوگیری‌ها را از داده‌های آموزشی خود به ارث می‌برند، که برای نسخه‌های قبلی Llama شامل تکیه زیاد بر ادبیات آکادمیک، رسانه‌های اصلی و منابعی مانند Reddit بود. این ترکیب مجموعه داده خطر تقویت سوگیری‌های ایدئولوژیک، سبکی یا فرهنگی را در خروجی‌های تولید شده دارد.

متخصصان باید از این سوگیری‌های بالقوه آگاه باشند و در نظر داشته باشند که تنظیم دقیق، استراتژی‌های کاهش خاص زمینه یا مجموعه‌داده‌های با دقت تنظیم شده را برای برنامه‌های حساس پیاده‌سازی کنند.

مجوز و بازخورد جامعه

نه. مانند نسخه‌های قبلی Llama، از یک مجوز "وزن باز" سفارشی استفاده می‌کند که به بازرسی و بارگیری اجازه می‌دهد اما شامل محدودیت‌های قابل توجهی است:

استفاده تجاری در مقیاس بزرگ (>700 میلیون کاربر فعال ماهانه) نیاز به مجوز ویژه از متا دارد.
الزام می‌کند که برندسازی "ساخته شده با Llama" وجود داشته باشد.
برخی از موارد استفاده را ممنوع می‌کند.
استفاده از قابلیت‌های بینایی را در اتحادیه اروپا به دلیل قانون هوش مصنوعی محدود می‌کند.

این با مجوزهای واقعاً مجاز مانند MIT که توسط برخی از رقبا مانند DeepSeek استفاده می‌شود، مغایرت دارد.

آیا Llama 4 واقعاً "متن‌باز" است؟

دریافت آن متفاوت بوده است و چندین انتقاد وجود دارد:

زمان‌بندی غیرعادی انتشار آخر هفته نشان‌دهنده یک پاسخ عجولانه یا "وحشت‌زده" به رقابت بود.
تغییر دور از مدل‌های کوچکتر و در دسترس‌تر که موفقیت اولیه Llama را تعریف می‌کرد.
الزامات حافظه بالا که کاربران خانگی و دانشگاهیان را از نظر قیمت دور می‌کند.
مجوز محدودکننده در مقایسه با برخی از رقبا.
سردرگمی در مورد امتیاز ELO LMArena و مغایرت‌ها بین نسخه‌های آزمایشی و منتشر شده.
ناامیدی‌های اولیه عملکرد گزارش شده از طریق برخی از ارائه‌دهندگان API.

برخی از اعضای جامعه احساس می‌کنند که متا ارتباط خود را با اکوسیستم وزن باز که قبلاً ایجاد کرده بود، از دست می‌دهد و به طور بالقوه نیازهای پلتفرم خود را بر دسترسی باز گسترده و نامحدود اولویت می‌دهد.

چشم‌انداز آینده و توصیه‌ها

انتظار قوی وجود دارد که متا از الگوی نسخه‌های قبلی پیروی کند و:

مدل‌های کوچکتر (~3 میلیارد پارامتر مناسب برای تلفن‌ها) معرفی کند.
مدل‌های متوسط (~24 میلیارد پارامتر) که می‌توانند روی لپ‌تاپ‌های سطح بالا با 64 گیگابایت + RAM اجرا شوند.
مدل استدلال اختصاصی (اشاره شده توسط متا اما هنوز منتشر نشده) ارائه دهد.
بهبودهای تکراری را در مدل‌های فعلی Scout و Maverick اعمال کند.

این تحولات با بهبود دسترسی، مقرون به صرفه بودن و قابلیت‌های خاص برنامه، به طور قابل توجهی به متخصصان سود می‌رساند.

چه تحولات آینده‌ای برای سری Llama 4 پیش‌بینی می‌شود؟

بله، پیش‌بینی می‌شود که خود میزبانی در سال آینده به طور گسترده‌ای محبوبیت پیدا کند، که ناشی از:

پیشرفت در سخت‌افزار خاص هوش مصنوعی (به عنوان مثال، AMD Strix Halo، Apple Mac Studio).
افزایش ترجیح برای حفظ حریم خصوصی، کنترل داده‌ها و کاهش وابستگی به ارائه‌دهندگان API خارجی.
بهبود مستمر در دسترس بودن و عملکرد مدل باز.

در حالی که مدل‌های فعلی Llama 4 ممکن است برای اکثر سناریوهای خود میزبانی بسیار بزرگ باشند، انواع کوچکتر آینده و روند گسترده‌تر به سمت مدل‌های کارآمدتر، خود میزبانی را به عنوان یک استراتژی فزاینده عملی برای بسیاری از سازمان‌ها قرار می‌دهد.

آیا انتظار می‌رود خود میزبانی مدل‌های زبانی بزرگ (LLM) با مدل‌هایی مانند Llama 4 افزایش یابد؟

توصیه‌های اجماعی عبارتند از:

شک و تردید در مورد محک: فقط به محک‌های منتشر شده تکیه نکنید. ارزیابی‌های خود را برای برنامه‌های خاص، به ویژه برای وظایف مربوط به بینایی، انجام دهید.
برنامه‌ریزی سخت‌افزاری: برای خود میزبانی، APUهای آینده را نسبت به پردازنده‌های گرافیکی سنتی با توجه به نیازهای پهنای باند حافظه در نظر بگیرید، یا گزینه‌های API ابری را ارزیابی کنید.
بررسی مجوز: قبل از استقرار در تولید، شرایط را به دقت بررسی کنید.
واقع‌گرایی پنجره زمینه: در مورد قابلیت استفاده از طول‌های زمینه ادعا شده با توجه به محدودیت‌های سخت‌افزاری واقع‌بین باشید.
منتظر انواع کوچکتر باشید: اگر محدودیت‌های منابع نگران‌کننده است، در نظر داشته باشید که منتظر انواع بالقوه کوچکتر Llama 4 باشید که ممکن است عملکرد و عملی بودن استقرار را بهتر متعادل کنند.
آگاهی از سوگیری: استراتژی‌هایی را برای کاهش سوگیری‌های بالقوه ناشی از ترکیب داده‌های آموزشی پیاده‌سازی کنید.

برای اکثر تیم‌های توسعه برنامه، شروع با دسترسی API برای ارزیابی قابلیت‌ها برای موارد استفاده خاص احتمالاً عملی‌ترین رویکرد است تا زمانی که نسخه‌های کوچکتر و در دسترس‌تر در دسترس قرار گیرند.

هنگام بررسی Llama 4، متخصصان هوش مصنوعی چه توصیه‌های عملی را باید در نظر بگیرند؟

https://gradientflow.com/llama-4-what-you-need-to-know/