شرکت OpenAI با انتشار مدلهای o1 خود، موجی در جامعه هوش مصنوعی به راه انداخت. اکنون که این هیجان فروکش کرده است، احساس میکنم زمان مناسبی است تا نظرات خود را در مورد تواناییهای استدلال مدلهای زبانی بزرگ (LLM) به اشتراک بگذارم، به خصوص به عنوان کسی که بخش قابل توجهی از تحقیقات خود را صرف بررسی تواناییهای آنها در وظایف استدلال ترکیبی کردهام. این همچنین فرصتی است برای پرداختن به بسیاری از سؤالات و نگرانیهای مربوط به "ایمان و سرنوشت" که در طول سال گذشته دریافت کردهام، مانند: آیا مدلهای زبانی بزرگ واقعاً استدلال میکنند؟ آیا ما به هوش مصنوعی عمومی (AGI) دست یافتهایم؟ آیا آنها واقعاً نمیتوانند مسائل حسابی ساده را حل کنند؟
هیاهوی پیرامون مدلهای o1، با نام رمز "توت فرنگی"، از ماه اوت در حال افزایش بوده و ناشی از شایعات و گمانهزنیهای رسانهای است. پنجشنبه گذشته، توییتر با جشن گرفتن افزایش عملکرد o1 در چندین وظیفه استدلال توسط کارمندان OpenAI روشن شد. رسانهها با تیترهایی مبنی بر اینکه "استدلال شبیه به انسان" اساساً یک مسئله حل شده در مدلهای زبانی بزرگ (LLM) است، به این هیجان دامن زدند.
بدون شک، o1 فوقالعاده قدرتمند و متمایز از هر مدل دیگری است. انتشار این مدلها یک دستاورد باورنکردنی توسط OpenAI است و مشاهده جهش قابل توجه در امتیازهای Elo در ChatBotArena در مقایسه با پیشرفتهای تدریجی سایر بازیگران اصلی، شگفتآور است. ChatBotArena همچنان پلتفرم پیشرو برای ارزیابی مدلها در وظایف زنده و دنیای واقعی است، جایی که شرکتها نمیتوانند به راحتی...