روش‌شناسی ما برای سنجش افق زمانی عامل هوش مصنوعی. اعتبار: آرشیو (2025). DOI: 10.48550/arxiv.2503.14499
روش‌شناسی ما برای سنجش افق زمانی عامل هوش مصنوعی. اعتبار: آرشیو (2025). DOI: 10.48550/arxiv.2503.14499

معیار جدیدی برای سنجش قابلیت‌های سیستم‌های هوش مصنوعی بر اساس توانایی‌های انسانی

یک تیم از محققان هوش مصنوعی در استارتاپ METR معیار جدیدی را برای سنجش قابلیت‌های سیستم‌های هوش مصنوعی بر اساس توانایی‌های انسانی پیشنهاد می‌کنند. آن‌ها مقاله‌ای را در سرور پیش‌چاپ arXiv منتشر کرده‌اند که در آن معیار جدید خود را با عنوان «افق زمانی انجام وظیفه» (TCTH) توصیف کرده‌اند.

مدل‌های زبانی بزرگ (LLM) مانند GPT-2 با هر تکرار جدید در تولید نتایج قابل اعتماد بهتر می‌شوند. در این مطالعه جدید، تیم کالیفرنیایی خاطرنشان کرد که این مدل‌ها هنوز به گونه‌ای توصیف می‌شوند که برای توصیف کامل قابلیت‌های یک سیستم کافی نیستند. به همین دلیل، آن‌ها معیاری را برای سنجش قابلیت‌ها به گونه‌ای ارائه کرده‌اند که می‌تواند در زمینه‌های مختلفی مانند نوشتن برنامه‌های رایانه‌ای یا تولید مراحل مورد نیاز برای انجام یک وظیفه مورد استفاده قرار گیرد.

با استفاده از TCTH، وظایف را می‌توان با آزمایش آن‌ها در برابر انسان‌ها سنجید. به عنوان مثال، محققان دریافتند که نسخه‌های اولیه LLM در انجام هر یک از وظایف خاصی که به متخصصان انسانی داده شده بود، با شکست مواجه شدند، در حالی که انسان‌ها می‌توانستند آن‌ها را در یک دقیقه انجام دهند. در مقابل، آخرین نسخه Claude 3.7 Sonnet می‌تواند 50 درصد از وظایف خاصی را که به طور متوسط 59 دقیقه طول می‌کشید تا انسان‌ها به انجام برسانند، با موفقیت انجام دهد.

مدت زمان وظایف (اندازه‌گیری شده بر اساس مدت زمانی که متخصصان انسانی صرف می‌کنند) که عوامل مدل مرزی خودمختار عمومی می‌توانند با قابلیت اطمینان 50٪ به انجام برسانند، تقریباً هر 7 ماه یک بار در 6 سال گذشته دو برابر شده است.
مدت زمان وظایف (اندازه‌گیری شده بر اساس مدت زمانی که متخصصان انسانی صرف می‌کنند) که عوامل مدل مرزی خودمختار عمومی می‌توانند با قابلیت اطمینان 50٪ به انجام برسانند، تقریباً هر 7 ماه یک بار در 6 سال گذشته دو برابر شده است.

با تنظیم لیستی از وظایف و سپس مشاهده مدت زمانی که طول می‌کشد تا یک انسان آن‌ها را انجام دهد، می‌توان از این معیار جدید برای توسعه یک برای اندازه‌گیری میزان موفقیت مدل‌های هوش مصنوعی استفاده کرد. آن‌ها پیشنهاد می‌کنند که چنین معیارهایی باید بر اساس نرخ موفقیت 50 درصدی باشد، زیرا تا کنون نشان داده شده است که در تجزیه و تحلیل توزیع داده‌ها قوی‌ترین است.

تیم تحقیقاتی به عنوان بخشی از کار خود با معیار جدید، دریافت که مدل‌های هوش مصنوعی در انجام وظایف طولانی مانند برنامه‌نویسی، انجام تکالیف امنیت سایبری، تکالیف استدلال عمومی و به طور چشمگیری در حال پیشرفت هستند. این پیشرفت نشان می‌دهد که به زودی می‌توان از آن‌ها برای انجام تکالیف عمده‌ای مانند کشف شیمیایی یا حتی پروژه‌های کامل مهندسی استفاده کرد.

اطلاعات بیشتر: Thomas Kwa et al, Measuring AI Ability to Complete Long Tasks, arXiv (2025). DOI: 10.48550/arxiv.2503.14499