وبلاگ سایمون ویلیسون - قالب مقاله

به نظر من، یک ارزیابی موفق معیارهای زیر را دارد. فرض کنید، در حال حاضر سیستم A را داریم و ممکن است آن را تغییر دهیم تا سیستم B را به دست آوریم:

  • اگر A به طور قابل توجهی بهتر از B از نظر یک داور ماهر انسانی عمل کند، ارزیابی باید نمره بسیار بالاتری به A نسبت به B بدهد.
  • اگر A و B عملکرد مشابهی داشته باشند، نمرات ارزیابی آنها باید مشابه باشد.

هر زمان که یک جفت سیستم A و B با این معیارها مغایرت داشته باشند، این نشانه ای است که ارزیابی "اشتباه" است و باید آن را تغییر دهیم تا A و B را به درستی رتبه بندی کند.

بخش بندی تصویر با استفاده از جمینی 2.5 - 18 آوریل 2025

GPT-4.1: سه مدل جدید با ورودی یک میلیون توکنی از OpenAI، از جمله ارزان ترین مدل آنها تا کنون - 14 آوریل 2025

CaMeL یک جهت جدید امیدوارکننده برای کاهش حملات تزریق دستور ارائه می دهد - 11 آوریل 2025