منبع باز BrowseComp OpenAI: معیار جدیدی برای سنجش توانایی مرور وب توسط عوامل هوش مصنوعی

با وجود پیشرفت‌ها در مدل‌های زبانی بزرگ (LLM)، عوامل هوش مصنوعی هنوز با محدودیت‌های قابل توجهی در هنگام پیمایش در وب باز برای بازیابی اطلاعات پیچیده روبرو هستند. در حالی که بسیاری از مدل‌ها در معیارهای دانش ثابت عالی عمل می‌کنند، اغلب در هنگام واگذاری یافتن حقایق ظریف و وابسته به زمینه در منابع متعدد، عملکرد ضعیفی دارند. بیشتر معیارهای موجود، یادآوری یک مدل از دانش به راحتی قابل دسترسی را ارزیابی می‌کنند، که پیچیدگی کارهای مرور در دنیای واقعی را منعکس نمی‌کند. در مقابل، عواملی که در تنظیمات کاربردی کار می‌کنند—چه کمک به تحقیق، خلاصه‌سازی سیاست یا بررسی ادعاها—به پشتکار، استدلال ساختاریافته و توانایی انطباق پویای استراتژی‌های جستجوی خود نیاز دارند. این قابلیت‌ها در سیستم‌های هوش مصنوعی فعلی توسعه نیافته باقی مانده‌اند.

منبع باز BrowseComp OpenAI: معیاری از 1266 وظیفه جستجوی اطلاعات

برای ارزیابی بهتر این قابلیت‌ها، OpenAI BrowseComp را منتشر کرده است، معیاری که برای ارزیابی توانایی عوامل در مرور مداوم وب و بازیابی اطلاعاتی که یافتن آنها دشوار است، طراحی شده است. این معیار شامل 1266 مسئله جستجوی واقعیت است که هر کدام پاسخ کوتاه و واضحی دارند. حل این وظایف اغلب مستلزم پیمایش در چندین صفحه وب، تطبیق اطلاعات متنوع و فیلتر کردن سیگنال‌های مرتبط از نویز است.

این معیار از این ایده الهام گرفته شده است که همانطور که مسابقات برنامه نویسی به عنوان تست های متمرکز برای عوامل کدنویسی عمل می کنند، BrowseComp یک ارزیابی محدود اما در عین حال آشکار از عوامل مرور وب ارائه می دهد. این معیار عمداً از وظایف با اهداف کاربری مبهم یا خروجی های طولانی مدت اجتناب می کند و در عوض بر شایستگی های اصلی دقت، استدلال و استقامت تمرکز می کند.

BrowseComp با استفاده از یک روش طراحی سوال معکوس ایجاد شده است: با شروع یک واقعیت خاص و قابل تأیید، آنها سؤالی را طراحی کردند که برای پنهان کردن پاسخ از طریق پیچیدگی و محدودیت طراحی شده بود. مربیان انسانی اطمینان حاصل کردند که سؤالات را نمی توان از طریق جستجوی سطحی حل کرد و هم قابلیت های بازیابی و هم استدلال را به چالش می کشد. علاوه بر این، سؤالات بررسی شدند تا اطمینان حاصل شود که به راحتی توسط GPT-4، OpenAI o1 یا مدل های قبلی دارای قابلیت مرور قابل حل نیستند.

طراحی سوال BrowseComp
روش طراحی سوال معکوس مورد استفاده برای ایجاد وظایف BrowseComp.

این مجموعه داده طیف گسترده‌ای از حوزه‌ها را در بر می‌گیرد—از جمله علم، تاریخ، هنر، ورزش و سرگرمی—و برای ارتقای تنوع موضوعی متعادل شده است. هر کار به گونه‌ای فرموله شده است که پاسخ صحیح یک رشته کوتاه است که ارزیابی را ساده می‌کند و ابهام را کاهش می‌دهد. عملکرد انسان نیز ارزیابی شد و به مربیان انسانی دو ساعت در هر کار داده شد. اکثر آنها در حل اکثر وظایف ناکام ماندند که نشان دهنده دشواری آنها است.

ارزیابی مدل و یافته‌ها

OpenAI چندین مدل را در BrowseComp ارزیابی کرد، از جمله GPT-4o (با و بدون مرور)، GPT-4.5، OpenAI o1 و Deep Research—مدلی که به طور خاص برای رسیدگی به وظایف مرور مداوم آموزش داده شده است. نتایج نشان می‌دهد که مدل‌های بدون جستجوی پیشرفته یا استراتژی‌های استدلال عملکرد ضعیفی دارند: GPT-4o بدون مرور به دقت 0.6٪ دست یافت و با فعال کردن مرور، تنها 1.9٪. GPT-4.5 نمره پایینی مشابهی را به دست آورد. OpenAI o1، با استدلال بهبود یافته اما بدون مرور، عملکرد متوسط ​​بهتری با 9.9٪ داشت.

Deep Research از همه مدل‌های دیگر بهتر عمل کرد و به دقت 51.5٪ دست یافت. معماری و آموزش آن بر جستجوی تکراری، ترکیب شواهد و ناوبری تطبیقی ​​تأکید دارد. عملکرد با چندین آزمایش در هر سوال و استراتژی‌های جمع‌آوری مانند انتخاب بهترین N و رای‌گیری مبتنی بر اعتماد بهبود بیشتری یافت. در حالی که Deep Research خطای کالیبراسیون بالاتری را نشان داد—اغلب در پاسخ‌های نادرست بیش از حد مطمئن بود—اغلب خروجی‌های صحیح خود را با سازگاری داخلی شناسایی کرد که نشان می‌دهد یک سیگنال اعتماد قابل استفاده است.

عملکرد مدل BrowseComp
عملکرد مدل‌های مختلف در معیار BrowseComp.

مربیان انسانی سعی کردند مشکلات معیار را بدون کمک ابزارهای هوش مصنوعی حل کنند. از 1255 کار تلاش شده، 71٪ در بازه زمانی دو ساعته غیرقابل حل علامت گذاری شدند و تنها 29٪ با موفقیت به پایان رسیدند. در میان آنها، میزان توافق با پاسخ مرجع 86.4٪ بود. این نتایج بر پیچیدگی معیار تأکید می‌کند و نشان می‌دهد که مدل‌های هوش مصنوعی فعلی هنوز از سازگاری و مهارت‌های استدلال پس‌زمینه مورد نیاز برای چنین وظایفی برخوردار نیستند.

نتیجه‌گیری

BrowseComp یک معیار متمرکز، قابل تأیید و از نظر فنی چالش‌برانگیز را برای ارزیابی قابلیت‌های اصلی عوامل مرور وب معرفی می‌کند. با تغییر تأکید از یادآوری ایستا به بازیابی پویا و استدلال چند مرحله‌ای، یک چالش واقع‌گرایانه ارائه می‌دهد که به طور نزدیک با کاربردهای دنیای واقعی نوظهور همسو است. اگرچه مدل‌های فعلی، از جمله مدل‌های دارای قابلیت مرور، به طور ناهمواری عمل می‌کنند، عامل Deep Research پتانسیل معماری‌های اختصاصی را برای پر کردن این شکاف نشان می‌دهد.


BrowseComp به صورت عمومی از طریق GitHub و با جزئیات در وبلاگ رسمی OpenAI در دسترس است. مقاله را اینجا ببینید. تمام اعتبار این تحقیق به محققان این پروژه می رسد. همچنین، می‌توانید ما را در توییتر دنبال کنید و فراموش نکنید که به 85k+ ML SubReddit ما بپیوندید.