تصویری از شکست Deepseek در برابر OpenAI
تصویری از شکست Deepseek در برابر OpenAI

OpenAI در بنچمارک جدید استدلال گوگل، Deepseek را با اختلاف شگفت‌انگیزی شکست داد

BIG-Bench که در سال 2021 به عنوان یک بنچمارک جهانی برای آزمایش مدل‌های زبانی بزرگ توسعه یافت، با دستیابی مدل‌های فعلی به دقت بیش از 90 درصد، به محدودیت‌های خود رسیده است. در پاسخ، Google DeepMind، BIG-Bench Extra Hard (BBEH) را معرفی کرده است که ضعف‌های اساسی را حتی در پیشرفته‌ترین مدل‌های هوش مصنوعی نشان می‌دهد.

BBEH بر اساس نسخه قبلی خود، BIG-Bench Hard (BBH)، با جایگزینی هر یک از 23 وظیفه اصلی با نسخه‌های بسیار چالش‌برانگیزتر ساخته شده است. این وظایف جدید به طیف گسترده‌تری از توانایی‌های استدلال نیاز دارند و به طور متوسط شش برابر طولانی‌تر از وظایف BBH هستند. این افزایش پیچیدگی در پاسخ‌های مدل‌های هوش مصنوعی منعکس می‌شود، که معمولاً هفت برابر طولانی‌تر از پاسخ‌های BBH هستند.

بنچمارک جدید، قابلیت‌های استدلال اضافی را آزمایش می‌کند، از جمله مدیریت و استدلال در وابستگی‌های متنی بسیار طولانی، یادگیری مفاهیم جدید، تمایز بین اطلاعات مرتبط و نامربوط و یافتن خطاها در زنجیره‌های استدلال از پیش تعریف شده.

دو مثال، پیچیدگی بنچمارک را برجسته می‌کنند. در وظیفه "استدلال فضایی"، یک عامل در یک ساختار هندسی حرکت می‌کند و اشیاء را در موقعیت‌های مختلف مشاهده می‌کند. مدل‌ها باید مکان اشیاء را ردیابی کرده و در مورد روابط آنها نتیجه‌گیری کنند.

آزمایش "ویژگی‌های شیء" مجموعه‌ای از اشیاء با ویژگی‌های مختلف (رنگ، اندازه، منشاء، بو و جنس) را ارائه می‌دهد که دچار تغییراتی می‌شوند. مدل‌ها باید تمام ویژگی‌های شیء را در هر به‌روزرسانی ردیابی کنند، از جمله سناریوهای دشواری مانند گم شدن یک شیء نامشخص با ویژگی‌های خاص.

o3 mini با اختلاف غیرمنتظره‌ای R1 را شکست داد

Google DeepMind هم مدل‌های هدف کلی مانند Gemini 2.0 Flash و GPT-4o و هم مدل‌های استدلال تخصصی مانند o3-mini (high) و DeepSeek R1 را آزمایش کرد. نتایج، محدودیت‌های قابل توجهی را آشکار کرد: بهترین مدل هدف کلی (Gemini 2.0 Flash) تنها به دقت متوسط 9.8 درصد دست یافت، در حالی که بهترین مدل استدلال (o3-mini high) تنها به دقت متوسط 44.8 درصد رسید. GPT-4.5 هنوز آزمایش نشده است.

این تحلیل، تفاوت‌های مورد انتظار بین مدل‌های استدلال عمومی و تخصصی را نشان داد. مدل‌های تخصصی به ویژه در مسائل رسمی شامل شمارش، برنامه‌ریزی، محاسبات و ساختارهای داده عملکرد خوبی داشتند. با این حال، برتری آنها در وظایفی که نیاز به عقل سلیم، شوخ‌طبعی، کنایه و درک علّی داشتند، کاهش یافت یا ناپدید شد.

نمای کلی بنچمارک BBEH
تصویر: Google Deepmind

به طور خاص، o3-mini (high) شرکت OpenAI به طور قابل توجهی از DeepSeek R1 که بسیار مورد بحث قرار گرفته بود، بهتر عمل کرد. مدل چینی با چندین بنچمارک مشکل داشت، از جمله شکست کامل در آزمایش "ویژگی‌های شیء". محققان این موضوع را عمدتاً به از دست دادن ردیابی مدل در هنگام عدم توانایی در حل مسئله در طول خروجی مؤثر آن نسبت می‌دهند. R1 تنها به دقت متوسط 6.8 درصد دست یافت و سه درصد از Gemini 2.0 Flash عقب‌تر بود.

بینش‌های عملکرد و پیامدهای آینده

این تحقیق نشان داد که مدل‌های استدلال تخصصی با افزایش طول متن و پیچیدگی تفکر، مزایای بیشتری نسبت به مدل‌های عمومی کسب می‌کنند. به طور مشابه، مدل‌های عمومی بزرگتر مانند Gemini 2.0 Flash هنگام برخورد با متون طولانی‌تر، مزایایی نسبت به مدل‌های کوچکتر مانند Flash-Lite نشان می‌دهند.

در حالی که LLMهای مدرن پیشرفت‌های چشمگیری داشته‌اند، BBEH نشان می‌دهد که آنها هنوز از دستیابی به توانایی استدلال عمومی فاصله زیادی دارند. محققان تأکید می‌کنند که هنوز کارهای اساسی برای پر کردن این شکاف‌ها و توسعه سیستم‌های هوش مصنوعی تطبیق‌پذیرتر مورد نیاز است.

این بنچمارک به صورت عمومی در آدرس زیر در دسترس است: https://github.com/google-deepmind/bbeh

خلاصه

  • Google DeepMind، BIG-Bench Extra Hard (BBEH) را معرفی می‌کند، یک بنچمارک جدید و به طور قابل توجهی چالش‌برانگیزتر برای مدل‌های زبانی بزرگ، زیرا مدل‌های برتر فعلی در حال حاضر به دقت بیش از 90 درصد با BIG-Bench و BIG-Bench Hard دست می‌یابند.
  • آزمایش‌ها با مدل‌های مختلف، ضعف‌های آشکاری را نشان می‌دهد: بهترین مدل هدف کلی، Gemini 2.0 Flash، تنها به دقت 9.8 درصد دست می‌یابد، در حالی که بهترین مدل استدلال، o3-mini (high)، به 44.8 درصد می‌رسد. مدل چینی DeepSeek R1 با 6.8 درصد دقت به طور شگفت‌انگیزی از Gemini 2.0 Flash عقب‌تر است و اصلاً نمی‌تواند برخی از وظایف را حل کند.
  • مدل‌های استدلال تخصصی مانند o3-mini به ویژه در مسائل رسمی از مدل‌های عمومی بهتر عمل می‌کنند. برای وظایفی که نیاز به عقل سلیم، شوخ‌طبعی و درک علّی دارند، برتری آنها کمتر است.

منبع: Arxiv