یکی از مدیران متا روز دوشنبه شایعهای مبنی بر اینکه این شرکت مدلهای هوش مصنوعی جدید خود را طوری آموزش داده است که در بنچمارکهای خاص عملکرد خوبی داشته باشند و در عین حال ضعفهای مدلها را پنهان کنند، رد کرد.
احمد Dahle، معاون هوش مصنوعی مولد در متا، در پستی در X گفت که این "به سادگی درست نیست" که متا مدلهای Llama 4 Maverick و Llama 4 Scout خود را روی "مجموعه تست" آموزش داده است. در بنچمارکهای هوش مصنوعی، مجموعههای آزمایشی مجموعههایی از دادهها هستند که برای ارزیابی عملکرد یک مدل پس از آموزش آن استفاده میشوند. آموزش بر روی یک مجموعه آزمایشی میتواند به طور گمراه کننده امتیازات بنچمارک یک مدل را افزایش دهد و مدل را تواناتر از آنچه واقعاً هست نشان دهد.
در طول آخر هفته، شایعهای تأیید نشده مبنی بر اینکه متا به طور مصنوعی نتایج بنچمارک مدلهای جدید خود را افزایش داده است، در X و Reddit منتشر شد. به نظر میرسد این شایعه از پستی در یک سایت رسانه اجتماعی چینی از کاربری که ادعا میکرد در اعتراض به شیوههای بنچمارکگیری شرکت از متا استعفا داده است، نشأت گرفته باشد.
گزارشهایی مبنی بر اینکه Maverick و Scout در برخی از وظایف ضعیف عمل میکنند، به این شایعه دامن زد، همانطور که تصمیم متا برای استفاده از یک نسخه آزمایشی و منتشر نشده از Maverick برای دستیابی به امتیازات بهتر در بنچمارک LM Arena بود. محققان در X تفاوتهای شدیدی را در رفتار Maverick قابل دانلود عمومی در مقایسه با مدل میزبانی شده در LM Arena مشاهده کردهاند.
Al-Dahle اذعان داشت که برخی از کاربران "کیفیت مختلطی" را از Maverick و Scout در بین ارائه دهندگان مختلف ابری که میزبان مدلها هستند، مشاهده میکنند.
Al-Dahle گفت: "از آنجایی که ما به محض آماده شدن مدلها را رها کردیم، انتظار داریم چند روز طول بکشد تا همه پیادهسازیهای عمومی شمارهگیری شوند." "ما به کار خود از طریق رفع اشکالات و شرکای جذبکننده ادامه خواهیم داد."