یک تیم از محققان هوش مصنوعی در استارتاپ METR معیار جدیدی را برای سنجش قابلیتهای سیستمهای هوش مصنوعی بر اساس تواناییهای انسانی پیشنهاد میکنند. آنها مقالهای را در سرور پیشچاپ arXiv منتشر کردهاند که در آن معیار جدید خود را با عنوان «افق زمانی انجام وظیفه» (TCTH) توصیف کردهاند.
مدلهای زبانی بزرگ (LLM) مانند GPT-2 با هر تکرار جدید در تولید نتایج قابل اعتماد بهتر میشوند. در این مطالعه جدید، تیم کالیفرنیایی خاطرنشان کرد که این مدلها هنوز به گونهای توصیف میشوند که برای توصیف کامل قابلیتهای یک سیستم کافی نیستند. به همین دلیل، آنها معیاری را برای سنجش قابلیتها به گونهای ارائه کردهاند که میتواند در زمینههای مختلفی مانند نوشتن برنامههای رایانهای یا تولید مراحل مورد نیاز برای انجام یک وظیفه مورد استفاده قرار گیرد.
با استفاده از TCTH، وظایف را میتوان با آزمایش آنها در برابر انسانها سنجید. به عنوان مثال، محققان دریافتند که نسخههای اولیه LLM در انجام هر یک از وظایف خاصی که به متخصصان انسانی داده شده بود، با شکست مواجه شدند، در حالی که انسانها میتوانستند آنها را در یک دقیقه انجام دهند. در مقابل، آخرین نسخه Claude 3.7 Sonnet میتواند 50 درصد از وظایف خاصی را که به طور متوسط 59 دقیقه طول میکشید تا انسانها به انجام برسانند، با موفقیت انجام دهد.
با تنظیم لیستی از وظایف و سپس مشاهده مدت زمانی که طول میکشد تا یک انسان آنها را انجام دهد، میتوان از این معیار جدید برای توسعه یک معیار برای اندازهگیری میزان موفقیت مدلهای هوش مصنوعی استفاده کرد. آنها پیشنهاد میکنند که چنین معیارهایی باید بر اساس نرخ موفقیت 50 درصدی باشد، زیرا تا کنون نشان داده شده است که در تجزیه و تحلیل توزیع دادهها قویترین است.
تیم تحقیقاتی به عنوان بخشی از کار خود با معیار جدید، دریافت که مدلهای هوش مصنوعی در انجام وظایف طولانی مانند برنامهنویسی، انجام تکالیف امنیت سایبری، تکالیف استدلال عمومی و یادگیری ماشین به طور چشمگیری در حال پیشرفت هستند. این پیشرفت نشان میدهد که به زودی میتوان از آنها برای انجام تکالیف عمدهای مانند کشف شیمیایی یا حتی پروژههای کامل مهندسی استفاده کرد.
اطلاعات بیشتر: Thomas Kwa et al, Measuring AI Ability to Complete Long Tasks, arXiv (2025). DOI: 10.48550/arxiv.2503.14499