با وجود پیشرفتها در مدلهای زبانی بزرگ (LLM)، عوامل هوش مصنوعی هنوز با محدودیتهای قابل توجهی در هنگام پیمایش در وب باز برای بازیابی اطلاعات پیچیده روبرو هستند. در حالی که بسیاری از مدلها در معیارهای دانش ثابت عالی عمل میکنند، اغلب در هنگام واگذاری یافتن حقایق ظریف و وابسته به زمینه در منابع متعدد، عملکرد ضعیفی دارند. بیشتر معیارهای موجود، یادآوری یک مدل از دانش به راحتی قابل دسترسی را ارزیابی میکنند، که پیچیدگی کارهای مرور در دنیای واقعی را منعکس نمیکند. در مقابل، عواملی که در تنظیمات کاربردی کار میکنند—چه کمک به تحقیق، خلاصهسازی سیاست یا بررسی ادعاها—به پشتکار، استدلال ساختاریافته و توانایی انطباق پویای استراتژیهای جستجوی خود نیاز دارند. این قابلیتها در سیستمهای هوش مصنوعی فعلی توسعه نیافته باقی ماندهاند.
منبع باز BrowseComp OpenAI: معیاری از 1266 وظیفه جستجوی اطلاعات
برای ارزیابی بهتر این قابلیتها، OpenAI BrowseComp را منتشر کرده است، معیاری که برای ارزیابی توانایی عوامل در مرور مداوم وب و بازیابی اطلاعاتی که یافتن آنها دشوار است، طراحی شده است. این معیار شامل 1266 مسئله جستجوی واقعیت است که هر کدام پاسخ کوتاه و واضحی دارند. حل این وظایف اغلب مستلزم پیمایش در چندین صفحه وب، تطبیق اطلاعات متنوع و فیلتر کردن سیگنالهای مرتبط از نویز است.
این معیار از این ایده الهام گرفته شده است که همانطور که مسابقات برنامه نویسی به عنوان تست های متمرکز برای عوامل کدنویسی عمل می کنند، BrowseComp یک ارزیابی محدود اما در عین حال آشکار از عوامل مرور وب ارائه می دهد. این معیار عمداً از وظایف با اهداف کاربری مبهم یا خروجی های طولانی مدت اجتناب می کند و در عوض بر شایستگی های اصلی دقت، استدلال و استقامت تمرکز می کند.
BrowseComp با استفاده از یک روش طراحی سوال معکوس ایجاد شده است: با شروع یک واقعیت خاص و قابل تأیید، آنها سؤالی را طراحی کردند که برای پنهان کردن پاسخ از طریق پیچیدگی و محدودیت طراحی شده بود. مربیان انسانی اطمینان حاصل کردند که سؤالات را نمی توان از طریق جستجوی سطحی حل کرد و هم قابلیت های بازیابی و هم استدلال را به چالش می کشد. علاوه بر این، سؤالات بررسی شدند تا اطمینان حاصل شود که به راحتی توسط GPT-4، OpenAI o1 یا مدل های قبلی دارای قابلیت مرور قابل حل نیستند.
این مجموعه داده طیف گستردهای از حوزهها را در بر میگیرد—از جمله علم، تاریخ، هنر، ورزش و سرگرمی—و برای ارتقای تنوع موضوعی متعادل شده است. هر کار به گونهای فرموله شده است که پاسخ صحیح یک رشته کوتاه است که ارزیابی را ساده میکند و ابهام را کاهش میدهد. عملکرد انسان نیز ارزیابی شد و به مربیان انسانی دو ساعت در هر کار داده شد. اکثر آنها در حل اکثر وظایف ناکام ماندند که نشان دهنده دشواری آنها است.
ارزیابی مدل و یافتهها
OpenAI چندین مدل را در BrowseComp ارزیابی کرد، از جمله GPT-4o (با و بدون مرور)، GPT-4.5، OpenAI o1 و Deep Research—مدلی که به طور خاص برای رسیدگی به وظایف مرور مداوم آموزش داده شده است. نتایج نشان میدهد که مدلهای بدون جستجوی پیشرفته یا استراتژیهای استدلال عملکرد ضعیفی دارند: GPT-4o بدون مرور به دقت 0.6٪ دست یافت و با فعال کردن مرور، تنها 1.9٪. GPT-4.5 نمره پایینی مشابهی را به دست آورد. OpenAI o1، با استدلال بهبود یافته اما بدون مرور، عملکرد متوسط بهتری با 9.9٪ داشت.
Deep Research از همه مدلهای دیگر بهتر عمل کرد و به دقت 51.5٪ دست یافت. معماری و آموزش آن بر جستجوی تکراری، ترکیب شواهد و ناوبری تطبیقی تأکید دارد. عملکرد با چندین آزمایش در هر سوال و استراتژیهای جمعآوری مانند انتخاب بهترین N و رایگیری مبتنی بر اعتماد بهبود بیشتری یافت. در حالی که Deep Research خطای کالیبراسیون بالاتری را نشان داد—اغلب در پاسخهای نادرست بیش از حد مطمئن بود—اغلب خروجیهای صحیح خود را با سازگاری داخلی شناسایی کرد که نشان میدهد یک سیگنال اعتماد قابل استفاده است.
مربیان انسانی سعی کردند مشکلات معیار را بدون کمک ابزارهای هوش مصنوعی حل کنند. از 1255 کار تلاش شده، 71٪ در بازه زمانی دو ساعته غیرقابل حل علامت گذاری شدند و تنها 29٪ با موفقیت به پایان رسیدند. در میان آنها، میزان توافق با پاسخ مرجع 86.4٪ بود. این نتایج بر پیچیدگی معیار تأکید میکند و نشان میدهد که مدلهای هوش مصنوعی فعلی هنوز از سازگاری و مهارتهای استدلال پسزمینه مورد نیاز برای چنین وظایفی برخوردار نیستند.
نتیجهگیری
BrowseComp یک معیار متمرکز، قابل تأیید و از نظر فنی چالشبرانگیز را برای ارزیابی قابلیتهای اصلی عوامل مرور وب معرفی میکند. با تغییر تأکید از یادآوری ایستا به بازیابی پویا و استدلال چند مرحلهای، یک چالش واقعگرایانه ارائه میدهد که به طور نزدیک با کاربردهای دنیای واقعی نوظهور همسو است. اگرچه مدلهای فعلی، از جمله مدلهای دارای قابلیت مرور، به طور ناهمواری عمل میکنند، عامل Deep Research پتانسیل معماریهای اختصاصی را برای پر کردن این شکاف نشان میدهد.
BrowseComp به صورت عمومی از طریق GitHub و با جزئیات در وبلاگ رسمی OpenAI در دسترس است. مقاله را اینجا ببینید. تمام اعتبار این تحقیق به محققان این پروژه می رسد. همچنین، میتوانید ما را در توییتر دنبال کنید و فراموش نکنید که به 85k+ ML SubReddit ما بپیوندید.