اعتبار تصویر: Bryce Durbin / TechCrunch
اعتبار تصویر: Bryce Durbin / TechCrunch

مدیر متا شایعات مربوط به افزایش مصنوعی امتیازات بنچمارک Llama 4 را رد کرد

یکی از مدیران متا روز دوشنبه شایعه‌ای مبنی بر اینکه این شرکت مدل‌های هوش مصنوعی جدید خود را طوری آموزش داده است که در بنچمارک‌های خاص عملکرد خوبی داشته باشند و در عین حال ضعف‌های مدل‌ها را پنهان کنند، رد کرد.

احمد Dahle، معاون هوش مصنوعی مولد در متا، در پستی در X گفت که این "به سادگی درست نیست" که متا مدل‌های Llama 4 Maverick و Llama 4 Scout خود را روی "مجموعه تست" آموزش داده است. در بنچمارک‌های هوش مصنوعی، مجموعه‌های آزمایشی مجموعه‌هایی از داده‌ها هستند که برای ارزیابی عملکرد یک مدل پس از آموزش آن استفاده می‌شوند. آموزش بر روی یک مجموعه آزمایشی می‌تواند به طور گمراه کننده امتیازات بنچمارک یک مدل را افزایش دهد و مدل را تواناتر از آنچه واقعاً هست نشان دهد.

در طول آخر هفته، شایعه‌ای تأیید نشده مبنی بر اینکه متا به طور مصنوعی نتایج بنچمارک مدل‌های جدید خود را افزایش داده است، در X و Reddit منتشر شد. به نظر می‌رسد این شایعه از پستی در یک سایت رسانه اجتماعی چینی از کاربری که ادعا می‌کرد در اعتراض به شیوه‌های بنچمارک‌گیری شرکت از متا استعفا داده است، نشأت گرفته باشد.

گزارش‌هایی مبنی بر اینکه Maverick و Scout در برخی از وظایف ضعیف عمل می‌کنند، به این شایعه دامن زد، همانطور که تصمیم متا برای استفاده از یک نسخه آزمایشی و منتشر نشده از Maverick برای دستیابی به امتیازات بهتر در بنچمارک LM Arena بود. محققان در X تفاوت‌های شدیدی را در رفتار Maverick قابل دانلود عمومی در مقایسه با مدل میزبانی شده در LM Arena مشاهده کرده‌اند.

Al-Dahle اذعان داشت که برخی از کاربران "کیفیت مختلطی" را از Maverick و Scout در بین ارائه دهندگان مختلف ابری که میزبان مدل‌ها هستند، مشاهده می‌کنند.

Al-Dahle گفت: "از آنجایی که ما به محض آماده شدن مدل‌ها را رها کردیم، انتظار داریم چند روز طول بکشد تا همه پیاده‌سازی‌های عمومی شماره‌گیری شوند." "ما به کار خود از طریق رفع اشکالات و شرکای جذب‌کننده ادامه خواهیم داد."