منبع تصویر: گوگل
منبع تصویر: گوگل

جمینی ۲.۵ در صدر جدول رده‌بندی هوش مصنوعی قرار گرفت

به علاوه: OpenAI تولید تصویر بومی را به GPT-4o و Sora اضافه کرد

گوگل به لطف انتشار مدل قدرتمند جدید خود، Gemini 2.5 Pro، دوباره در صدر رتبه‌بندی‌های هوش مصنوعی قرار گرفته است – این مدل در معیارهای مربوط به استدلال، ریاضیات، علوم و کدنویسی برتری دارد.

اما با توجه به اینکه هوش مصنوعی با سرعتی سرسام‌آور به تکامل خود ادامه می‌دهد و رقبایی مانند OpenAI در حال آماده‌سازی مدل‌های بعدی خود هستند، گوگل تا چه زمانی می‌تواند این جایگاه را حفظ کند؟

آخرین تحولات

گوگل

جمینی ۲.۵ پرو گوگل در صدر جدول رده‌بندی هوش مصنوعی قرار گرفت

خلاصه: گوگل به تازگی خانواده جدیدی از مدل‌های هوش مصنوعی با قابلیت استدلال داخلی به نام Gemini 2.5 را معرفی کرد، که با انتشار Gemini 2.5 Pro Experimental آغاز می‌شود. این مدل در معیارهای کلیدی صدرنشین است و هوشمندترین مدل این شرکت تا به امروز محسوب می‌شود.

جزئیات:

  • مدل ۲.۵ پرو در رتبه اول جدول رده‌بندی LMArena قرار گرفته و قابلیت‌های استدلال پیشرفته و در سطح بهترین‌های جهان (SOTA) را در وظایف ریاضی، علوم و کدنویسی به نمایش می‌گذارد.
  • در زمینه کدنویسی، ۲.۵ پرو امتیاز ۶۳.۸٪ در SWE-Bench Verified و ۶۸.۶٪ در Aider Polyglot کسب کرده است – با نقاط قوت ویژه در برنامه‌های وب و کاربردهای کدنویسی مبتنی بر عامل (agentic).
  • این مدل با پنجره زمینه ۱ میلیون توکنی عرضه می‌شود، اما گوگل به زودی قصد دارد این مقدار را به ۲ میلیون توکن افزایش دهد تا پردازش کل مخازن کد و مجموعه داده‌های عظیم امکان‌پذیر شود.
  • این مدل هم‌اکنون در Google AI Studio و اپلیکیشن Gemini برای مشترکین پیشرفته (Advanced) در دسترس است و قیمت‌گذاری API آن در هفته‌های آینده اعلام خواهد شد.

اهمیت موضوع: در حالی که آزمایشگاه‌های بزرگ هوش مصنوعی در حال پیشبرد قابلیت استدلال هستند، گوگل «تفکر» را به یک ویژگی استاندارد تبدیل کرده است، نه یک قابلیت ویژه و پولی. این غول فناوری با وجود نداشتن هیاهوی OpenAI، به ارائه مدل‌های پیشرفته (SOTA) ادامه می‌دهد – اما با توجه به سرعت بالای پیشرفت هوش مصنوعی (و با در نظر گرفتن GPT-5 و مدل‌های دیگر در راه)، باید دید این رتبه جدید تا چه زمانی دوام خواهد آورد.

تولید تصویر با GPT-4o توسط OpenAI
منبع تصویر: OpenAI

OpenAI

OpenAI تولید تصویر را به GPT-4o و Sora اضافه کرد

خلاصه: OpenAI قابلیت تولید تصویر را در مدل GPT-4o و مولد ویدیوی Sora خود منتشر کرد. این شرکت از سیستم‌های جداگانه متن و تصویر به یک رویکرد کاملاً یکپارچه روی آورده است تا از طریق ChatGPT، تصاویر بصری دقیق‌تر و آگاه‌تر به زمینه تولید کند.

جزئیات:

  • GPT-4o تصاویر را به عنوان بخشی از درک چندوجهی (multimodal) خود در نظر می‌گیرد که امکان رندر دقیق‌تر متن و آگاهی بهتر از زمینه را فراهم می‌کند.
  • این به‌روزرسانی در تولید محتوایی مانند منوها، نمودارها و اینفوگرافیک‌ها با متن خوانا برتری دارد و یکی از ضعف‌های عمده مدل‌های قبلی را برطرف می‌کند.
  • کاربران همچنین می‌توانند تصاویر را با زبان طبیعی ویرایش کنند و مدل قادر است سازگاری بین تکرارها را حفظ کرده و ۱۰ تا ۲۰ شیء را در دستورات (prompts) مدیریت کند.
  • این قابلیت جدید جایگزین DALL-E 3 به عنوان مولد تصویر پیش‌فرض ChatGPT برای کاربران رایگان، پلاس، پرو و تیم می‌شود و به زودی برای کاربران سازمانی (Enterprise) و آموزشی (Edu) نیز عرضه خواهد شد.

اهمیت موضوع: مدل DALL-E شرکت OpenAI از سایر مولدهای تصویر عقب مانده بود، اما به نظر می‌رسد این به‌روزرسانی مورد انتظار تصویر بومی ارزش صبر کردن را داشته است. با قابلیت تولید متن طولانی، مهارت‌های طراحی رابط کاربری/تجربه کاربری (UI/UX) و ویرایش با زبان طبیعی، تولید محتوای بصری با این نسل جدید مدل‌ها وارد عصر کاملاً جدیدی می‌شود.

پیچ‌دک‌های LTX Studio
منبع تصویر: LTX Studio

آموزش هوش مصنوعی

تبدیل مفاهیم به ارائه‌های معرفی ایده (Pitch Decks) آماده تولید

خلاصه: در این آموزش، یاد خواهید گرفت که چگونه استوری‌بوردها، ویدیوها و پیچ‌دک‌های کامل و حرفه‌ای را تنها با استفاده از دستورات متنی ساده و در عرض چند دقیقه – بدون نیاز به هیچ تجربه‌ای در زمینه طراحی – ایجاد کنید.

گام به گام:

  1. به LTX Studio بروید، روی Start with a concept کلیک کنید و یک دستور ساده مانند "تبلیغ ۳۰ ثانیه‌ای برای [نام محصول]" با جزئیات مکان و شخصیت وارد کنید.
  2. تنظیمات پروژه (نسبت تصویر و سبک) را سفارشی کنید و عناصر صحنه را با استفاده از کنترل‌های چهره و پر کردن مولد (generative fill) ویرایش کنید.
  3. فریم‌های ثابت را با ویرایشگر حرکت (Motion Editor) به ویدیو تبدیل کنید و برای بهبود اثر خود، موسیقی متن یا صداگذاری اضافه کنید.
  4. پروژه تمام شده خود را به صورت ویدیو، بسته ویرایشی یا یک پیچ‌دک حرفه‌ای خروجی بگیرید.
سرور هوش مصنوعی اپل
منبع تصویر: Reve / The Rundown

اپل

سرمایه‌گذاری میلیارد دلاری اپل روی سخت‌افزار هوش مصنوعی انویدیا

خلاصه: گزارش شده است که اپل در حال ثبت سفارش عظیم ۱ میلیارد دلاری برای سرورهای پیشرفته انویدیا است و با شرکت‌های Dell و Super Micro Computer برای راه‌اندازی اولین زیرساخت هوش مصنوعی مولد خود همکاری می‌کند – این اقدام نشان‌دهنده تغییر بزرگی در استراتژی هوش مصنوعی این شرکت در بحبوحه مشکلات سیری (Siri) است.

جزئیات:

  • آنادا باروا، تحلیلگر Loop Capital، گزارش داد که این خرید شامل تقریباً ۲۵۰ سیستم GB300 NVL72 انویدیا است که هزینه هر سرور بین ۳.۷ تا ۴ میلیون دلار است.
  • گفته می‌شود هر دو شرکت Dell Technologies و Super Micro Computer به عنوان شرکای کلیدی سرور در ساخت خوشه هوش مصنوعی بزرگ مقیاس جدید اپل عمل خواهند کرد.
  • در حالی که گزارش‌های قبلی حاکی از آن بود که اپل در حال توسعه تراشه‌های هوش مصنوعی خود است، این خرید ممکن است پاسخی به پیشرفت کندتر از حد انتظار در آن زمینه باشد.
  • این اقدام همچنین پس از ناکامی‌های اپل در توسعه هوش مصنوعی، از جمله تأخیر در به‌روزرسانی برنامه‌ریزی شده سیری مبتنی بر هوش مصنوعی و تجدید ساختار داخلی صورت می‌گیرد.

اهمیت موضوع: پس از اینکه اپل در حاشیه رقابت مراکز داده هوش مصنوعی باقی مانده بود در حالی که رقبا پیشتاز بودند، به نظر می‌رسد این شرکت در حال پذیرش این واقعیت است که برای رقابت به قدرت محاسباتی جدی نیاز دارد – و باید برای رفع برخی از مشکلاتی که در حال حاضر پیشرفت هوش مصنوعی داخلی آن را با مشکل مواجه کرده است، به خارج از شرکت نگاه کند. اما زمان در حال گذر است و پیشرفت هوش مصنوعی کند نمی‌شود.

اخبار کوتاه

OpenAI اعلام کرد به‌روزرسانی‌های جدیدی برای حالت صدای پیشرفته (Advanced Voice Mode) خود ارائه کرده است که شامل ارتقاء شخصیت و وقفه‌های کمتر برای مکالمات طبیعی‌تر می‌شود.

Figure AI تحقیقات و دموهای جدیدی از ربات انسان‌نمای Figure 02 خود منتشر کرد که به راه رفتن طبیعی شبیه انسان دست یافته و سال‌ها آموزش شبیه‌سازی شده را تنها در چند ساعت انجام می‌دهد.

H&M با ۳۰ مدل برای ایجاد دوقلوهای دیجیتال مبتنی بر هوش مصنوعی برای کمپین‌های تبلیغاتی همکاری می‌کند. مدل‌ها حقوق مالکیت را حفظ کرده و بر اساس میزان استفاده، غرامت دریافت می‌کنند.

ByteDance مدل InfiniteYou را منتشر کرد، یک مولد پرتره هوش مصنوعی منبع باز که پرتره‌های سازگار با دقت چهره بهبود یافته و پایبندی به دستورات (prompt adherence) تولید می‌کند.

Synthesia یک برنامه سهام ۱ میلیون دلاری برای بازیگرانی که شباهت آن‌ها به عنوان آواتارهای هوش مصنوعی نمایش داده می‌شود، راه‌اندازی کرد و اولین شرکتی شد که به اجراکنندگانی که در آموزش هوش مصنوعی مشارکت دارند، سهام ارائه می‌دهد.

Otter AI از سه عامل هوش مصنوعی برای جلسات (AI Meeting Agents) رونمایی کرد: یک عامل جلسه فعال‌شونده با صدا، یک عامل فروش برای مربیگری حین تماس، و یک عامل SDR (نماینده توسعه فروش) برای دموهای محصول خودکار.

Perplexity حالت‌های پاسخ جدیدی اضافه کرد که جستجوها در حوزه‌های خاص (verticals) را با موجودیت‌هایی مانند تصاویر، ویدیوها و کارت‌هایی با تراکنش‌های تجاری داخلی بهبود می‌بخشد.