تصویر تولید شده توسط ChatGPT
تصویر تولید شده توسط ChatGPT

آیا مدل‌های o1 مسئله استدلال انسانی را حل کرده‌اند؟

شرکت OpenAI با انتشار مدل‌های o1 خود، موجی در جامعه هوش مصنوعی به راه انداخت. اکنون که این هیجان فروکش کرده است، احساس می‌کنم زمان مناسبی است تا نظرات خود را در مورد توانایی‌های استدلال مدل‌های زبانی بزرگ (LLM) به اشتراک بگذارم، به خصوص به عنوان کسی که بخش قابل توجهی از تحقیقات خود را صرف بررسی توانایی‌های آن‌ها در وظایف استدلال ترکیبی کرده‌ام. این همچنین فرصتی است برای پرداختن به بسیاری از سؤالات و نگرانی‌های مربوط به "ایمان و سرنوشت" که در طول سال گذشته دریافت کرده‌ام، مانند: آیا مدل‌های زبانی بزرگ واقعاً استدلال می‌کنند؟ آیا ما به هوش مصنوعی عمومی (AGI) دست یافته‌ایم؟ آیا آن‌ها واقعاً نمی‌توانند مسائل حسابی ساده را حل کنند؟

هیاهوی پیرامون مدل‌های o1، با نام رمز "توت فرنگی"، از ماه اوت در حال افزایش بوده و ناشی از شایعات و گمانه‌زنی‌های رسانه‌ای است. پنجشنبه گذشته، توییتر با جشن گرفتن افزایش عملکرد o1 در چندین وظیفه استدلال توسط کارمندان OpenAI روشن شد. رسانه‌ها با تیترهایی مبنی بر اینکه "استدلال شبیه به انسان" اساساً یک مسئله حل شده در مدل‌های زبانی بزرگ (LLM) است، به این هیجان دامن زدند.

بدون شک، o1 فوق‌العاده قدرتمند و متمایز از هر مدل دیگری است. انتشار این مدل‌ها یک دستاورد باورنکردنی توسط OpenAI است و مشاهده جهش قابل توجه در امتیازهای Elo در ChatBotArena در مقایسه با پیشرفت‌های تدریجی سایر بازیگران اصلی، شگفت‌آور است. ChatBotArena همچنان پلتفرم پیشرو برای ارزیابی مدل‌ها در وظایف زنده و دنیای واقعی است، جایی که شرکت‌ها نمی‌توانند به راحتی...