بررسی اجمالی مدل و مشخصات
خانواده Llama 4 جدیدترین نسل مدلهای هوش مصنوعی متا (Meta) است. نسخه اولیه شامل دو مدل اصلی است:
- Llama 4 Scout: یک مدل با مجموع 109 میلیارد پارامتر که از معماری Mixture-of-Experts (MoE) با 16 متخصص استفاده میکند و 17 میلیارد پارامتر را در هر توکن فعال میکند. این مدل دارای یک پنجره زمینه 10 میلیون توکنی است و روی یک پردازنده گرافیکی H100 قرار میگیرد.
- Llama 4 Maverick: یک مدل با مجموع 400 میلیارد پارامتر با 128 متخصص که 17 میلیارد پارامتر را در هر توکن فعال میکند. این مدل دارای یک پنجره زمینه 1 میلیون توکنی است.
هر دو مدل چندوجهی هستند و ورودیهای متن و تصویر را میپذیرند در حالی که فقط خروجیهای متنی ارائه میدهند. برش دانش آنها آگوست 2024 است.
متا همچنین پیشنمایشی از Llama 4 Behemoth، یک مدل بسیار بزرگتر (~2T مجموع پارامترها، 16 متخصص با 288B پارامتر فعال) که هنوز در حال آموزش است، ارائه داد که به آموزش Scout و Maverick از طریق تقطیر کمک کرد.
استدلال: متا به طور واضح به یک "مدل استدلال Llama" آینده در صفحه "به زودی" اشاره کرده است. این نشان میدهد که نسخه فعلی بر جنبههای دیگر (چندوجهی بودن، عملکرد کلی، طول زمینه) تمرکز دارد و نه بر قابلیتهای استدلال.
معماری Mixture-of-Experts (MoE) که در Llama 4 استفاده شده چیست؟
Llama 4 با اتخاذ Mixture-of-Experts (MoE) یک تغییر معماری قابل توجه را معرفی میکند. به جای فعال کردن تمام پارامترها برای هر توکن:
- این مدل شامل شبکههای فرعی "متخصص" کوچکتر متعددی است.
- یک مکانیسم مسیریابی زیرمجموعه کوچکی از متخصصان را برای پردازش هر توکن انتخاب میکند.
- فقط 17 میلیارد پارامتر در هر توکن فعال هستند، علیرغم شمارش بسیار بیشتر پارامترهای کل.
- این امر هزینه محاسباتی را در مقایسه با مدلهای متراکم با قابلیت مشابه کاهش میدهد.
MoE مزایای کارایی را در حین حفظ عملکرد بالا، به ویژه برای استدلال پیچیده و وظایف چندوجهی فراهم میکند. با این حال، کل مدل هنوز باید در حافظه بارگیری شود، که مدلهای MoE را از نظر حافظه فشرده میکند.
مدلهای Llama 4 چگونه چندوجهی هستند؟
هر دو مدل Llama 4 Scout و Maverick "به طور ذاتی چندوجهی" هستند، که با "ادغام اولیه" ساخته شدهاند تا ورودیهای متن و تصویر را از ابتدا به طور مشترک پردازش کنند تا اینکه قابلیتهای بینایی را بعداً اضافه کنند. این با رویکردهایی که قابلیتهای بینایی را به مدلهای فقط متنی موجود اضافه میکنند، مغایرت دارد.
آنها میتوانند به طور موثر وظایفی مانند خواندن نمودارها، دیاگرامها و استخراج اطلاعات از تصاویر را انجام دهند، و عملکرد قوی در محکهای درک تصویر مانند DocVQA و ChartQA نشان میدهند. با این حال، آنها فقط خروجیهای متنی تولید میکنند و نمیتوانند تصویر تولید کنند.
عملکرد و محکها
بر اساس محکهای منتشر شده توسط متا:
- Llama 4 Scout: از مدلهای قبلی Llama بهتر عمل میکند و به خوبی با مدلهای هم اندازه مانند Gemini 2.0 Flash-Lite، Gemma 3 27B و Mistral 3.1 24B، به ویژه در وظایف چندوجهی رقابت میکند.
- Llama 4 Maverick: نتایج قوی در برابر مدلهایی مانند Gemini 2.0 Flash، DeepSeek v3.1 و حتی GPT-4o در چندین محک استدلال، دانش و چندوجهی نشان میدهد. این مدل نمرات بسیار بالایی را در MMLU Pro و GPQA Diamond نشان میدهد.
با این حال، سردرگمی در مورد یک "نسخه چت آزمایشی" از Maverick وجود داشت که امتیاز ELO بسیار بالایی (1417) در LMArena کسب کرد. متا توضیح داد که این همان نسخه منتشر شده نیست، که منجر به انتقاداتی در مورد شفافیت محک شد.
ما تمایل داریم جدول امتیازات Chatbot Arena را زیر نظر داشته باشیم و بر اساس این رتبهبندی، به نظر میرسد Llama 4 در برابر مدلهای برتر جایگاه خود را حفظ میکند. با این حال، آزمایشهای اولیه کاربر عملکرد متفاوتی را در پلتفرمها و وظایف مختلف نشان داد. به طور خاص، برخی از آزمایشهای خارجی (به عنوان مثال، در محک کدنویسی aider) نشان داد که Maverick عملکرد ضعیفی (16٪) دارد، که به طور قابل توجهی کمتر از رقبا است.
اجماع جامعه این است که مقایسههای مستقیم و دقیق بین Llama 4 و جدیدترین مدلها (مانند Gemini 2.5 Pro یا جدیدترین پیشنهادات OpenAI) هنوز ناقص است و متخصصان باید ارزیابیهای هدفمندی را متناسب با حوزههای کاربردی خود انجام دهند.
آیا محکهای فعلی برای ارزیابی قابلیتهای Llama 4 کافی هستند؟
اجماع گستردهای وجود دارد که محکهای فعلی، به ویژه برای وظایف بینایی-زبانی، محدودیتهای قابل توجهی دارند:
- بسیاری از محکها فقط قابلیتهای اساسی مانند OCR یا شناسایی ویژگیهای ساده تصویر را آزمایش میکنند.
- آنها اغلب نمیتوانند درک عمیقتر بصری یا استدلال پیچیده در مورد دادههای بصری را ارزیابی کنند.
- میتواند شکاف قابل توجهی بین عملکرد محک و اثربخشی دنیای واقعی وجود داشته باشد.
متخصصان باید در مورد تکیه صرف بر محکهای منتشر شده محتاط باشند و باید ارزیابیهای خود را برای موارد استفاده خاص انجام دهند تا اینکه فرض کنند برتری محک مستقیماً به عملکرد برنامه ترجمه میشود.
پنجرهی زمینه و کاربرد عملی
در حالی که روی کاغذ چشمگیر است، پنجره زمینه 10M توکنی با چالشهای عملی قابل توجهی روبرو است:
- نیازمندیهای سختافزاری: مستندات متا نشان میدهد که اجرای حتی 1.4 میلیون توکن به 8x پردازنده گرافیکی H100 با دقت bf16 نیاز دارد.
- محدودیتهای ارائهدهنده: ارائهدهندگان API اولیه زمینه را به اندازههای بسیار کوچکتر محدود کردند (به عنوان مثال، 128K، 328K).
- شکافهای ارزیابی: ارزیابیهای جامع کیفیت بازیابی و استدلال در کل پنجره زمینه محدود است، با آزمایشهایی که عمدتاً بر بازیابی ساده سوزن در انبار کاه متمرکز هستند.
- تخریب عملکرد: آزمایشهای اولیه کاربر روی اعلانهای طولانی گاهی اوقات نتایج ضعیف یا خراب به همراه داشت.
زمینه گسترده احتمالاً از طریق پیشرفتهای معماری مانند iRoPE (پیشرفتی نسبت به رمزگذاری موقعیتی RoPE) به دست میآید، اما استفاده کامل از این قابلیت به منابع محاسباتی قابل توجهی نیاز دارد که ممکن است برای اکثر تیمهای برنامههای هوش مصنوعی از نظر هزینه بازدارنده باشد.
متخصصان چگونه باید اعلانها را برای برنامههای مبتنی بر Llama 4 ساختاربندی کنند؟
متا توصیه میکند که اعلانها را برای تطبیق با قصد کاربر سفارشی کنید، مانند:
- پشتیبانی از مکالمه معمولی، بیان احساسات یا شوخطبعی بدون تحمیل سفت و سخت رسمیت.
- اجتناب از موعظه یا سخنرانی بیش از حد به کاربران.
- اجازه دادن به انعطافپذیری برای اتخاذ لحن یا دیدگاه خاص بر اساس درخواستهای کاربر.
- تمرکز بر رسیدگی به قصد واقعی پشت پرسشها به جای بیفایده بیطرف بودن.
برنامهها باید به گونهای طراحی شوند که به استقلال کاربر احترام بگذارند و در عین حال محافظهای مناسب را برای زمینه خاص پیادهسازی کنند. این نشان دهنده تغییری به سمت تعاملات طبیعیتر و همسو با کاربر در مقایسه با رویکردهای قبلی است.
یکی از ابزارهای مورد علاقه ما – BAML – با اعلانها به عنوان توابع رفتار میکند و در بین توسعهدهندگانی که برنامههای هوش مصنوعی میسازند محبوب شده است. جالب خواهد بود که واکنشهای اولیه به Llama 4 را از کاربران BAML ببینیم.
ملاحظات سختافزاری و استقرار
این مدلها نیازمندیهای سختافزاری قابل توجهی دارند که آنها را فراتر از پردازندههای گرافیکی مصرفکننده قرار میدهد:
Llama 4 Scout (109B):
- یک نسخه کوانتیزه شده 4 بیتی به ~55-60 گیگابایت VRAM فقط برای وزنها، به اضافه سربار کش KV نیاز دارد.
- میتواند روی یک H100 (80 گیگابایتی) یا چند پردازنده گرافیکی سطح بالا اجرا شود.
- سیستمهای High-RAM مانند Mac Studios ممکن است نسخههای کوانتیزه شده را مدیریت کنند (تقریباً 64 گیگابایت + برای 3 بیتی، 96 گیگابایت + برای 4 بیتی، 128 گیگابایت + برای 8 بیتی).
- عملکرد در سختافزار مصرفکننده ممکن است محدود باشد (به عنوان مثال، ~47 توکن/ثانیه گزارش شده در یک M3 Ultra با کوانتیزاسیون 4 بیتی).
Llama 4 Maverick (400B):
- به استنتاج توزیع شده در سراسر شتابدهندههای قدرتمند متعدد نیاز دارد.
- استقرار محلی برای افراد و اکثر سازمانها غیرممکن است.
دیدگاه اجماعی این است که مدلهای کوچکتر آینده (~24 میلیارد پارامتر) یک "نقطه شیرین" را نشان میدهند که عملکرد و الزامات منابع را برای محیطهای توسعه معمولی متعادل میکند.
آیا پردازندههای گرافیکی (GPU) هنوز برای اجرای مدلهای بزرگ MoE مانند Llama 4 بهینه هستند؟
لزومی ندارد. شواهد رو به رشدی وجود دارد که نشان میدهد پردازندههای گرافیکی سنتی با محدودیتهای قابل توجهی برای ارائه مدلهای بزرگ MoE روبرو هستند:
- پردازندههای گرافیکی اغلب فاقد پهنای باند حافظه کافی برای استنتاج مقرون به صرفه مدلهای بزرگ هستند.
- سختافزار نوظهور متمرکز بر هوش مصنوعی مانند APUهای Strix Halo AMD و Mac Studios با حافظه یکپارچه اپل ممکن است ادغام حافظه بهتری ارائه دهند.
- APUها با معماریهای حافظه یکپارچه میتوانند برای حجم کاری استنتاج مقرون به صرفهتر باشند.
این نشان دهنده یک تغییر بالقوه الگوی سختافزاری دور از استقرارهای سنتی متمرکز بر GPU به سمت سختافزار هوش مصنوعی تخصصیتر برای استنتاج LLM کارآمد است.
هزینه استنتاج تخمینی برای مدلهای Llama 4 چقدر است؟
متا تخمین میزند که Maverick میتواند با 0.19 تا 0.49 دلار در هر میلیون توکن (با استفاده از نسبت ورودی/خروجی ترکیبی 3:1) با استنتاج و بهینهسازی توزیع شده ارائه شود. این به عنوان مقرون به صرفهتر از GPT-4o (4.38 دلار/Mtok) اما بالاتر از برخی جایگزینها مانند Gemini 2.0 Flash (0.17 دلار/Mtok) قرار دارد.
قیمتگذاری اولیه API از ارائهدهندگانی مانند Groq Scout را تقریباً 0.11/0.34 دلار در هر میلیون توکن ورودی/خروجی فهرست کرد. هزینههای واقعی بسته به ارائهدهنده و الگوهای استفاده خاص متفاوت خواهد بود.
محدودیتها و سوگیریها
علیرغم پیشرفتهایشان، مدلهای Llama 4 دارای چندین محدودیت مهم هستند:
- محدودیتهای اساسی LLM: آنها از طریق پیشبینی توکن به جای استدلال واقعی عمل میکنند و نمیتوانند تحقیقات اصلی انجام دهند یا مناقشاتی را که نیاز به شواهد تجربی دارند حل کنند.
- محدودیتهای بینایی: در حالی که آنها میتوانند تصاویر را پردازش کنند، درک آنها بر ویژگیهای اساسی، استخراج متن و وظایف شناسایی ساده به جای درک عمیقتر بصری متمرکز است.
- محدودیت قانون هوش مصنوعی اتحادیه اروپا: متا استفاده از قابلیتهای بینایی را در اتحادیه اروپا به دلیل نگرانیهای نظارتی محدود میکند.
- سوگیریهای داده آموزشی: مانند سایر LLMها، خروجیها الگوهای موجود در دادههای آموزشی را منعکس میکنند نه استدلال مستقل.
چه سوگیریهایی ممکن است در مجموعهدادههای آموزشی Llama 4 وجود داشته باشد؟
مدلهای Llama 4 احتمالاً سوگیریها را از دادههای آموزشی خود به ارث میبرند، که برای نسخههای قبلی Llama شامل تکیه زیاد بر ادبیات آکادمیک، رسانههای اصلی و منابعی مانند Reddit بود. این ترکیب مجموعه داده خطر تقویت سوگیریهای ایدئولوژیک، سبکی یا فرهنگی را در خروجیهای تولید شده دارد.
متخصصان باید از این سوگیریهای بالقوه آگاه باشند و در نظر داشته باشند که تنظیم دقیق، استراتژیهای کاهش خاص زمینه یا مجموعهدادههای با دقت تنظیم شده را برای برنامههای حساس پیادهسازی کنند.
مجوز و بازخورد جامعه
نه. مانند نسخههای قبلی Llama، از یک مجوز "وزن باز" سفارشی استفاده میکند که به بازرسی و بارگیری اجازه میدهد اما شامل محدودیتهای قابل توجهی است:
- استفاده تجاری در مقیاس بزرگ (>700 میلیون کاربر فعال ماهانه) نیاز به مجوز ویژه از متا دارد.
- الزام میکند که برندسازی "ساخته شده با Llama" وجود داشته باشد.
- برخی از موارد استفاده را ممنوع میکند.
- استفاده از قابلیتهای بینایی را در اتحادیه اروپا به دلیل قانون هوش مصنوعی محدود میکند.
این با مجوزهای واقعاً مجاز مانند MIT که توسط برخی از رقبا مانند DeepSeek استفاده میشود، مغایرت دارد.
آیا Llama 4 واقعاً "متنباز" است؟
دریافت آن متفاوت بوده است و چندین انتقاد وجود دارد:
- زمانبندی غیرعادی انتشار آخر هفته نشاندهنده یک پاسخ عجولانه یا "وحشتزده" به رقابت بود.
- تغییر دور از مدلهای کوچکتر و در دسترستر که موفقیت اولیه Llama را تعریف میکرد.
- الزامات حافظه بالا که کاربران خانگی و دانشگاهیان را از نظر قیمت دور میکند.
- مجوز محدودکننده در مقایسه با برخی از رقبا.
- سردرگمی در مورد امتیاز ELO LMArena و مغایرتها بین نسخههای آزمایشی و منتشر شده.
- ناامیدیهای اولیه عملکرد گزارش شده از طریق برخی از ارائهدهندگان API.
برخی از اعضای جامعه احساس میکنند که متا ارتباط خود را با اکوسیستم وزن باز که قبلاً ایجاد کرده بود، از دست میدهد و به طور بالقوه نیازهای پلتفرم خود را بر دسترسی باز گسترده و نامحدود اولویت میدهد.
چشمانداز آینده و توصیهها
انتظار قوی وجود دارد که متا از الگوی نسخههای قبلی پیروی کند و:
- مدلهای کوچکتر (~3 میلیارد پارامتر مناسب برای تلفنها) معرفی کند.
- مدلهای متوسط (~24 میلیارد پارامتر) که میتوانند روی لپتاپهای سطح بالا با 64 گیگابایت + RAM اجرا شوند.
- مدل استدلال اختصاصی (اشاره شده توسط متا اما هنوز منتشر نشده) ارائه دهد.
- بهبودهای تکراری را در مدلهای فعلی Scout و Maverick اعمال کند.
این تحولات با بهبود دسترسی، مقرون به صرفه بودن و قابلیتهای خاص برنامه، به طور قابل توجهی به متخصصان سود میرساند.
چه تحولات آیندهای برای سری Llama 4 پیشبینی میشود؟
بله، پیشبینی میشود که خود میزبانی در سال آینده به طور گستردهای محبوبیت پیدا کند، که ناشی از:
- پیشرفت در سختافزار خاص هوش مصنوعی (به عنوان مثال، AMD Strix Halo، Apple Mac Studio).
- افزایش ترجیح برای حفظ حریم خصوصی، کنترل دادهها و کاهش وابستگی به ارائهدهندگان API خارجی.
- بهبود مستمر در دسترس بودن و عملکرد مدل باز.
در حالی که مدلهای فعلی Llama 4 ممکن است برای اکثر سناریوهای خود میزبانی بسیار بزرگ باشند، انواع کوچکتر آینده و روند گستردهتر به سمت مدلهای کارآمدتر، خود میزبانی را به عنوان یک استراتژی فزاینده عملی برای بسیاری از سازمانها قرار میدهد.
آیا انتظار میرود خود میزبانی مدلهای زبانی بزرگ (LLM) با مدلهایی مانند Llama 4 افزایش یابد؟
توصیههای اجماعی عبارتند از:
- شک و تردید در مورد محک: فقط به محکهای منتشر شده تکیه نکنید. ارزیابیهای خود را برای برنامههای خاص، به ویژه برای وظایف مربوط به بینایی، انجام دهید.
- برنامهریزی سختافزاری: برای خود میزبانی، APUهای آینده را نسبت به پردازندههای گرافیکی سنتی با توجه به نیازهای پهنای باند حافظه در نظر بگیرید، یا گزینههای API ابری را ارزیابی کنید.
- بررسی مجوز: قبل از استقرار در تولید، شرایط را به دقت بررسی کنید.
- واقعگرایی پنجره زمینه: در مورد قابلیت استفاده از طولهای زمینه ادعا شده با توجه به محدودیتهای سختافزاری واقعبین باشید.
- منتظر انواع کوچکتر باشید: اگر محدودیتهای منابع نگرانکننده است، در نظر داشته باشید که منتظر انواع بالقوه کوچکتر Llama 4 باشید که ممکن است عملکرد و عملی بودن استقرار را بهتر متعادل کنند.
- آگاهی از سوگیری: استراتژیهایی را برای کاهش سوگیریهای بالقوه ناشی از ترکیب دادههای آموزشی پیادهسازی کنید.
برای اکثر تیمهای توسعه برنامه، شروع با دسترسی API برای ارزیابی قابلیتها برای موارد استفاده خاص احتمالاً عملیترین رویکرد است تا زمانی که نسخههای کوچکتر و در دسترستر در دسترس قرار گیرند.