هوش مصنوعی (AI) به طور سنتی از طریق آزمونهای دقت خودکار در وظایفی که برای تقریب دانش انسانی طراحی شدهاند، پیشرفت کرده است.
آزمونهای معیار (بنچمارک) با دقت طراحی شده مانند معیار ارزیابی درک عمومی زبان (GLUE)، مجموعه داده درک زبان چندوظیفهای عظیم (MMLU) و «آخرین آزمون بشریت» (Humanity's Last Exam)، از مجموعههای بزرگی از سوالات برای امتیازدهی به میزان دانش یک مدل زبان بزرگ (LLM) در مورد موضوعات مختلف استفاده کردهاند.
با این حال، این آزمونها به عنوان معیاری برای ارزش برنامههای هوش مصنوعی مولد، به طور فزایندهای ناکافی هستند. به چیز دیگری نیاز است و این ممکن است ارزیابی انسانیتر از خروجی هوش مصنوعی باشد.
همچنین بخوانید: Anthropic میگوید: هوش مصنوعی به بنبست نرسیده، بلکه برای بنچمارکها بیش از حد هوشمند شده است
این دیدگاه مدتی است که در این صنعت مطرح شده است. مایکل گرستنهابر، رئیس فناوریهای API در Anthropic، سازنده خانواده مدلهای زبانی بزرگ Claude، در جریان کنفرانس بلومبرگ درباره هوش مصنوعی در نوامبر گفت: «ما بنچمارکها را اشباع کردهایم.»
نیاز به حضور انسانها «در چرخه» هنگام ارزیابی مدلهای هوش مصنوعی در مقالات علمی نیز در حال ظهور است.
در مقالهای که این هفته در The New England Journal of Medicine توسط محققان چندین موسسه، از جمله مرکز پزشکی Beth Israel Deaconess بوستون منتشر شد، نویسنده اصلی آدام رودمن و همکارانش استدلال میکنند که «وقتی صحبت از بنچمارکها میشود، انسانها تنها راه حل هستند.»
آنها مینویسند که بنچمارکهای سنتی در زمینه هوش مصنوعی پزشکی، مانند MedQA که در MIT ایجاد شده است، «اشباع شدهاند»، به این معنی که مدلهای هوش مصنوعی به راحتی چنین آزمونهایی را با موفقیت پشت سر میگذارند اما با آنچه واقعاً در عمل بالینی اهمیت دارد، مرتبط نیستند. آنها مینویسند: «کار خود ما نشان میدهد که چگونه بنچمارکهای دشوار به سرعت در برابر سیستمهای استنتاجی مانند OpenAI o1 در حال سقوط هستند.»
رودمن و تیمش طرفدار تطبیق روشهای کلاسیک آموزش پزشکان انسانی، مانند ایفای نقش با انسانها هستند. آنها مینویسند: «مطالعات تعامل انسان و کامپیوتر بسیار کندتر از حتی ارزیابیهای بنچمارک با قضاوت انسانی هستند، اما با قدرتمندتر شدن سیستمها، اهمیت آنها حتی بیشتر خواهد شد.»
نظارت انسانی بر توسعه هوش مصنوعی، یکی از ارکان اصلی پیشرفت در هوش مصنوعی مولد بوده است. توسعه ChatGPT در سال ۲۰۲۲ به طور گسترده از «یادگیری تقویتی با بازخورد انسانی» (reinforcement learning by human feedback) استفاده کرد. این رویکرد شامل مراحل متعددی است که در آن انسانها خروجی مدلهای هوش مصنوعی را درجهبندی میکنند تا آن خروجی را به سمت هدف مورد نظر شکل دهند.
با این حال، اکنون OpenAI، سازنده ChatGPT و سایر توسعهدهندگان مدلهای به اصطلاح پیشگام (frontier models)، انسانها را در رتبهبندی و ارزیابی کارهای خود دخیل میکنند.
گوگل در رونمایی از مدل متنباز خود Gemma 3 در این ماه، به جای امتیازات بنچمارک خودکار، بر رتبهبندیهای ارزیابهای انسانی تأکید کرد تا برتری این مدل را اثبات کند.
گوگل حتی Gemma 3 را با استفاده از امتیازات به اصطلاح ELO برای توانایی کلی، در ردیف ورزشکاران برتر قرار داد.
همچنین: گوگل ادعا میکند Gemma 3 با استفاده از تنها یک GPU به ۹۸٪ دقت DeepSeek میرسد
به طور مشابه، زمانی که OpenAI آخرین مدل پیشرفته خود، GPT-4.5 را در فوریه رونمایی کرد، نه تنها بر نتایج بنچمارکهای خودکار مانند SimpleQA، بلکه بر احساس بازبینان انسانی در مورد خروجی مدل نیز تأکید کرد.
OpenAI میگوید «معیارهای ترجیح انسانی» راهی برای سنجش «درصد پرسوجوهایی است که در آن آزمایشکنندگان GPT-4.5 را به GPT-4o ترجیح دادهاند». این شرکت ادعا میکند که GPT-4.5 در نتیجه «ضریب احساسی» بیشتری دارد، اگرچه مشخص نکرده است که به چه نحوی.
حتی با ساخته شدن بنچمارکهای جدید برای جایگزینی بنچمارکهایی که ظاهراً اشباع شدهاند، به نظر میرسد طراحان بنچمارک، مشارکت انسانی را به عنوان یک عنصر اصلی در نظر میگیرند.
در دسامبر، مدل «مینی» GPT-o3 از OpenAI اولین مدل زبان بزرگی شد که توانست امتیاز انسانی را در آزمون استدلال انتزاعی به نام مجموعه داده انتزاع و استدلال برای هوش مصنوعی عمومی (ARC-AGI) شکست دهد.
این هفته، فرانسوا شوله (François Chollet)، مخترع ARC-AGI و دانشمند واحد هوش مصنوعی گوگل، نسخه جدید و چالشبرانگیزتری به نام ARC-AGI 2 را رونمایی کرد. در حالی که نسخه اصلی برای سنجش توانایی انسانی با آزمایش کارگران Amazon Mechanical Turk امتیازدهی میشد، شوله این بار مشارکت انسانی واضحتری داشت.
شوله در پست وبلاگ خود مینویسد: «برای اطمینان از کالیبراسیون دشواری برای انسان، ما یک مطالعه زنده در سن دیگو در اوایل سال ۲۰۲۵ با مشارکت بیش از ۴۰۰ نفر از عموم مردم انجام دادیم. شرکتکنندگان بر روی وظایف کاندیدای ARC-AGI-2 آزمایش شدند و به ما این امکان را دادند تا مشخص کنیم کدام مسائل میتوانند به طور مداوم توسط حداقل دو نفر در دو تلاش یا کمتر حل شوند. این دادههای دست اول، یک معیار محکم برای عملکرد انسانی فراهم میکند و همراه با مقاله ARC-AGI-2 منتشر خواهد شد.»
این کمی شبیه ترکیبی از بنچمارکگیری خودکار با فلشمابهای بازیگوش هنر پرفورمنس چند سال پیش است.
این نوع ادغام توسعه مدل هوش مصنوعی با مشارکت انسانی نشان میدهد که فضای زیادی برای گسترش آموزش، توسعه، مهندسی و آزمایش مدل هوش مصنوعی با دخالت انسانی متمرکزتر و بیشتر در چرخه وجود دارد.
حتی شوله نیز در این مرحله نمیتواند بگوید که آیا همه اینها به هوش مصنوعی عمومی (artificial general intelligence) منجر خواهد شد یا خیر.
داستانهای بیشتری درباره هوش مصنوعی میخواهید؟ در خبرنامه هفتگی ما، Innovation، ثبتنام کنید.