آندری کارپاتی
آندری کارپاتی

گروک-3 در استدلال از دیپ‌سیک-آر1 پیشی گرفت و به اندازه او1 پرو اوپن‌ای‌آی توانمند است: کارپاتی

ایکس‌ای‌آی، سازنده مدل هوش مصنوعی که توسط ایلان ماسک رهبری می‌شود، جدیدترین خانواده مدل‌های خود، گروک-3 را رونمایی کرد.

بر اساس بنچمارک‌ها، گروک-3 از چندین مدل رقیب بهتر عمل می‌کند و همچنین اولین مدلی است که در Chatbot Arena، پلتفرمی برای مقایسه و ارزیابی مدل‌های هوش مصنوعی، امتیاز بالای 1400 را کسب می‌کند.

گروک-3 همچنین قابلیت‌های استدلال (تفکر) و یک ویژگی تحقیقاتی عمیق به نام DeepSearch ارائه می‌دهد.

آندری کارپاتی، بنیانگذار Eureka Labs، که زمانی بخشی از OpenAI و تسلا نیز بود، دسترسی زودهنگام به گروک-3 را دریافت کرد.

او پستی را در X به اشتراک گذاشت و تجربه خود را شرح داد. وی فاش کرد که این مدل در کارهای پیچیده، مانند ایجاد یک شبکه شش ضلعی برای بازی تخته‌ای محبوب Settlers of Catan، عملکرد خوبی داشته است.

او گفت: "تعداد کمی از مدل‌ها این کار را به طور قابل اعتماد درست انجام می‌دهند. مدل‌های برتر تفکر OpenAI (به عنوان مثال o1-pro، با قیمت 200 دلار در ماه) نیز این کار را انجام می‌دهند، اما همه DeepSeek-R1، Gemini 2.0 Flash Thinking و Claude این کار را نمی‌کنند."

کارپاتی همچنین مقاله فنی GPT-2 OpenAI را برای تخمین تعداد فلاپ‌های مورد نیاز برای آموزش مدل بارگذاری کرد. او فاش کرد که در حالی که گروک-3 و GPT-4o در این کار شکست خوردند، گروک-3، با تفکر (استدلال)، آن را "عالی" حل کرد و حتی o1 Pro OpenAI نیز در این کار شکست خورد.

او افزود: "برداشت کلی من در اینجا این است که این مدل تقریباً در حد توانایی o1-pro است و از DeepSeek-R1 جلوتر است، اگرچه، البته، ما به ارزیابی‌های واقعی و عینی برای بررسی نیاز داریم."

کارپاتی همچنین قابلیت‌های DeepSearch گروک-3 را آزمایش کرد، که آن را با تحقیقات عمیق Perplexity قابل مقایسه یافت، اما هنوز در سطح ارائه شده توسط OpenAI نیست. او دریافت که این مدل آدرس‌های اینترنتی را توهم می‌کند که وجود ندارند و حقایق نادرست را بدون ارائه استناد گزارش می‌دهد.

او افزود: "وقتی از آن خواستم گزارشی در مورد آزمایشگاه‌های بزرگ LLM و میزان کل بودجه و تخمین تعداد کارکنان آنها تهیه کند، 12 آزمایشگاه بزرگ را فهرست کرد اما خودش (xAI) را نه."

پس از استفاده از این مدل برای حدود 2 ساعت، او در پایان گفت: "احساس گروک 3 + تفکر تقریباً در قلمرو پیشرفته‌ترین مدل‌های OpenAI (o1-pro، 200 دلار در ماه) و کمی بهتر از DeepSeek-R1 و Gemini 2.0 Flash Thinking است."

افراد دیگری مانند لکس فریدمن، که او نیز دسترسی زودهنگام به این مدل را دریافت کرد، در پستی در X گفت: "ذهن من منفجر شده است، مدل بسیار چشمگیر است."