ایکسایآی، سازنده مدل هوش مصنوعی که توسط ایلان ماسک رهبری میشود، جدیدترین خانواده مدلهای خود، گروک-3 را رونمایی کرد.
بر اساس بنچمارکها، گروک-3 از چندین مدل رقیب بهتر عمل میکند و همچنین اولین مدلی است که در Chatbot Arena، پلتفرمی برای مقایسه و ارزیابی مدلهای هوش مصنوعی، امتیاز بالای 1400 را کسب میکند.
گروک-3 همچنین قابلیتهای استدلال (تفکر) و یک ویژگی تحقیقاتی عمیق به نام DeepSearch ارائه میدهد.
آندری کارپاتی، بنیانگذار Eureka Labs، که زمانی بخشی از OpenAI و تسلا نیز بود، دسترسی زودهنگام به گروک-3 را دریافت کرد.
او پستی را در X به اشتراک گذاشت و تجربه خود را شرح داد. وی فاش کرد که این مدل در کارهای پیچیده، مانند ایجاد یک شبکه شش ضلعی برای بازی تختهای محبوب Settlers of Catan، عملکرد خوبی داشته است.
او گفت: "تعداد کمی از مدلها این کار را به طور قابل اعتماد درست انجام میدهند. مدلهای برتر تفکر OpenAI (به عنوان مثال o1-pro، با قیمت 200 دلار در ماه) نیز این کار را انجام میدهند، اما همه DeepSeek-R1، Gemini 2.0 Flash Thinking و Claude این کار را نمیکنند."
کارپاتی همچنین مقاله فنی GPT-2 OpenAI را برای تخمین تعداد فلاپهای مورد نیاز برای آموزش مدل بارگذاری کرد. او فاش کرد که در حالی که گروک-3 و GPT-4o در این کار شکست خوردند، گروک-3، با تفکر (استدلال)، آن را "عالی" حل کرد و حتی o1 Pro OpenAI نیز در این کار شکست خورد.
او افزود: "برداشت کلی من در اینجا این است که این مدل تقریباً در حد توانایی o1-pro است و از DeepSeek-R1 جلوتر است، اگرچه، البته، ما به ارزیابیهای واقعی و عینی برای بررسی نیاز داریم."
کارپاتی همچنین قابلیتهای DeepSearch گروک-3 را آزمایش کرد، که آن را با تحقیقات عمیق Perplexity قابل مقایسه یافت، اما هنوز در سطح ارائه شده توسط OpenAI نیست. او دریافت که این مدل آدرسهای اینترنتی را توهم میکند که وجود ندارند و حقایق نادرست را بدون ارائه استناد گزارش میدهد.
او افزود: "وقتی از آن خواستم گزارشی در مورد آزمایشگاههای بزرگ LLM و میزان کل بودجه و تخمین تعداد کارکنان آنها تهیه کند، 12 آزمایشگاه بزرگ را فهرست کرد اما خودش (xAI) را نه."
پس از استفاده از این مدل برای حدود 2 ساعت، او در پایان گفت: "احساس گروک 3 + تفکر تقریباً در قلمرو پیشرفتهترین مدلهای OpenAI (o1-pro، 200 دلار در ماه) و کمی بهتر از DeepSeek-R1 و Gemini 2.0 Flash Thinking است."
افراد دیگری مانند لکس فریدمن، که او نیز دسترسی زودهنگام به این مدل را دریافت کرد، در پستی در X گفت: "ذهن من منفجر شده است، مدل بسیار چشمگیر است."