ورونیکا اولینیک / گتی ایمجز
ورونیکا اولینیک / گتی ایمجز

با شکستن تمام بنچمارک‌ها توسط مدل‌های هوش مصنوعی، زمان ارزیابی انسانی فرا رسیده است

مرز جدید تحقیقات هوش مصنوعی، دخالت بیشتر انسان‌ها در ارزیابی کیفیت مدل‌ها است.

هوش مصنوعی (AI) به طور سنتی از طریق آزمون‌های دقت خودکار در وظایفی که برای تقریب دانش انسانی طراحی شده‌اند، پیشرفت کرده است.

آزمون‌های معیار (بنچمارک) با دقت طراحی شده مانند معیار ارزیابی درک عمومی زبان (GLUE)، مجموعه داده درک زبان چندوظیفه‌ای عظیم (MMLU) و «آخرین آزمون بشریت» (Humanity's Last Exam)، از مجموعه‌های بزرگی از سوالات برای امتیازدهی به میزان دانش یک مدل زبان بزرگ (LLM) در مورد موضوعات مختلف استفاده کرده‌اند.

با این حال، این آزمون‌ها به عنوان معیاری برای ارزش برنامه‌های هوش مصنوعی مولد، به طور فزاینده‌ای ناکافی هستند. به چیز دیگری نیاز است و این ممکن است ارزیابی انسانی‌تر از خروجی هوش مصنوعی باشد.

همچنین بخوانید: Anthropic می‌گوید: هوش مصنوعی به بن‌بست نرسیده، بلکه برای بنچمارک‌ها بیش از حد هوشمند شده است

این دیدگاه مدتی است که در این صنعت مطرح شده است. مایکل گرستن‌هابر، رئیس فناوری‌های API در Anthropic، سازنده خانواده مدل‌های زبانی بزرگ Claude، در جریان کنفرانس بلومبرگ درباره هوش مصنوعی در نوامبر گفت: «ما بنچمارک‌ها را اشباع کرده‌ایم.»

نیاز به حضور انسان‌ها «در چرخه» هنگام ارزیابی مدل‌های هوش مصنوعی در مقالات علمی نیز در حال ظهور است.

در مقاله‌ای که این هفته در The New England Journal of Medicine توسط محققان چندین موسسه، از جمله مرکز پزشکی Beth Israel Deaconess بوستون منتشر شد، نویسنده اصلی آدام رودمن و همکارانش استدلال می‌کنند که «وقتی صحبت از بنچمارک‌ها می‌شود، انسان‌ها تنها راه حل هستند.»

آنها می‌نویسند که بنچمارک‌های سنتی در زمینه هوش مصنوعی پزشکی، مانند MedQA که در MIT ایجاد شده است، «اشباع شده‌اند»، به این معنی که مدل‌های هوش مصنوعی به راحتی چنین آزمون‌هایی را با موفقیت پشت سر می‌گذارند اما با آنچه واقعاً در عمل بالینی اهمیت دارد، مرتبط نیستند. آنها می‌نویسند: «کار خود ما نشان می‌دهد که چگونه بنچمارک‌های دشوار به سرعت در برابر سیستم‌های استنتاجی مانند OpenAI o1 در حال سقوط هستند.»

رودمن و تیمش طرفدار تطبیق روش‌های کلاسیک آموزش پزشکان انسانی، مانند ایفای نقش با انسان‌ها هستند. آنها می‌نویسند: «مطالعات تعامل انسان و کامپیوتر بسیار کندتر از حتی ارزیابی‌های بنچمارک با قضاوت انسانی هستند، اما با قدرتمندتر شدن سیستم‌ها، اهمیت آنها حتی بیشتر خواهد شد.»

همچنین: بنچمارک 'آخرین آزمون بشریت' مدل‌های برتر هوش مصنوعی را به چالش می‌کشد - آیا شما می‌توانید بهتر عمل کنید؟

نظارت انسانی بر توسعه هوش مصنوعی، یکی از ارکان اصلی پیشرفت در هوش مصنوعی مولد بوده است. توسعه ChatGPT در سال ۲۰۲۲ به طور گسترده از «یادگیری تقویتی با بازخورد انسانی» (reinforcement learning by human feedback) استفاده کرد. این رویکرد شامل مراحل متعددی است که در آن انسان‌ها خروجی مدل‌های هوش مصنوعی را درجه‌بندی می‌کنند تا آن خروجی را به سمت هدف مورد نظر شکل دهند.

با این حال، اکنون OpenAI، سازنده ChatGPT و سایر توسعه‌دهندگان مدل‌های به اصطلاح پیشگام (frontier models)، انسان‌ها را در رتبه‌بندی و ارزیابی کارهای خود دخیل می‌کنند.

گوگل در رونمایی از مدل متن‌باز خود Gemma 3 در این ماه، به جای امتیازات بنچمارک خودکار، بر رتبه‌بندی‌های ارزیاب‌های انسانی تأکید کرد تا برتری این مدل را اثبات کند.

مقایسه امتیازات ELO برای Gemma 3
گوگل

گوگل حتی Gemma 3 را با استفاده از امتیازات به اصطلاح ELO برای توانایی کلی، در ردیف ورزشکاران برتر قرار داد.

همچنین: گوگل ادعا می‌کند Gemma 3 با استفاده از تنها یک GPU به ۹۸٪ دقت DeepSeek می‌رسد

به طور مشابه، زمانی که OpenAI آخرین مدل پیشرفته خود، GPT-4.5 را در فوریه رونمایی کرد، نه تنها بر نتایج بنچمارک‌های خودکار مانند SimpleQA، بلکه بر احساس بازبینان انسانی در مورد خروجی مدل نیز تأکید کرد.

OpenAI می‌گوید «معیارهای ترجیح انسانی» راهی برای سنجش «درصد پرس‌وجوهایی است که در آن آزمایش‌کنندگان GPT-4.5 را به GPT-4o ترجیح داده‌اند». این شرکت ادعا می‌کند که GPT-4.5 در نتیجه «ضریب احساسی» بیشتری دارد، اگرچه مشخص نکرده است که به چه نحوی.

رتبه‌بندی ارزیابی انسانی GPT-4.5
OpenAI

حتی با ساخته شدن بنچمارک‌های جدید برای جایگزینی بنچمارک‌هایی که ظاهراً اشباع شده‌اند، به نظر می‌رسد طراحان بنچمارک، مشارکت انسانی را به عنوان یک عنصر اصلی در نظر می‌گیرند.

در دسامبر، مدل «مینی» GPT-o3 از OpenAI اولین مدل زبان بزرگی شد که توانست امتیاز انسانی را در آزمون استدلال انتزاعی به نام مجموعه داده انتزاع و استدلال برای هوش مصنوعی عمومی (ARC-AGI) شکست دهد.

این هفته، فرانسوا شوله (François Chollet)، مخترع ARC-AGI و دانشمند واحد هوش مصنوعی گوگل، نسخه جدید و چالش‌برانگیزتری به نام ARC-AGI 2 را رونمایی کرد. در حالی که نسخه اصلی برای سنجش توانایی انسانی با آزمایش کارگران Amazon Mechanical Turk امتیازدهی می‌شد، شوله این بار مشارکت انسانی واضح‌تری داشت.

شوله در پست وبلاگ خود می‌نویسد: «برای اطمینان از کالیبراسیون دشواری برای انسان، ما یک مطالعه زنده در سن دیگو در اوایل سال ۲۰۲۵ با مشارکت بیش از ۴۰۰ نفر از عموم مردم انجام دادیم. شرکت‌کنندگان بر روی وظایف کاندیدای ARC-AGI-2 آزمایش شدند و به ما این امکان را دادند تا مشخص کنیم کدام مسائل می‌توانند به طور مداوم توسط حداقل دو نفر در دو تلاش یا کمتر حل شوند. این داده‌های دست اول، یک معیار محکم برای عملکرد انسانی فراهم می‌کند و همراه با مقاله ARC-AGI-2 منتشر خواهد شد.»

این کمی شبیه ترکیبی از بنچمارک‌گیری خودکار با فلش‌ماب‌های بازیگوش هنر پرفورمنس چند سال پیش است.

این نوع ادغام توسعه مدل هوش مصنوعی با مشارکت انسانی نشان می‌دهد که فضای زیادی برای گسترش آموزش، توسعه، مهندسی و آزمایش مدل هوش مصنوعی با دخالت انسانی متمرکزتر و بیشتر در چرخه وجود دارد.

حتی شوله نیز در این مرحله نمی‌تواند بگوید که آیا همه اینها به هوش مصنوعی عمومی (artificial general intelligence) منجر خواهد شد یا خیر.

داستان‌های بیشتری درباره هوش مصنوعی می‌خواهید؟ در خبرنامه هفتگی ما، Innovation، ثبت‌نام کنید.