گوگل به لطف انتشار مدل قدرتمند جدید خود، Gemini 2.5 Pro، دوباره در صدر رتبهبندیهای هوش مصنوعی قرار گرفته است – این مدل در معیارهای مربوط به استدلال، ریاضیات، علوم و کدنویسی برتری دارد.
اما با توجه به اینکه هوش مصنوعی با سرعتی سرسامآور به تکامل خود ادامه میدهد و رقبایی مانند OpenAI در حال آمادهسازی مدلهای بعدی خود هستند، گوگل تا چه زمانی میتواند این جایگاه را حفظ کند؟
آخرین تحولات
گوگل
جمینی ۲.۵ پرو گوگل در صدر جدول ردهبندی هوش مصنوعی قرار گرفت
خلاصه: گوگل به تازگی خانواده جدیدی از مدلهای هوش مصنوعی با قابلیت استدلال داخلی به نام Gemini 2.5 را معرفی کرد، که با انتشار Gemini 2.5 Pro Experimental آغاز میشود. این مدل در معیارهای کلیدی صدرنشین است و هوشمندترین مدل این شرکت تا به امروز محسوب میشود.
جزئیات:
- مدل ۲.۵ پرو در رتبه اول جدول ردهبندی LMArena قرار گرفته و قابلیتهای استدلال پیشرفته و در سطح بهترینهای جهان (SOTA) را در وظایف ریاضی، علوم و کدنویسی به نمایش میگذارد.
- در زمینه کدنویسی، ۲.۵ پرو امتیاز ۶۳.۸٪ در SWE-Bench Verified و ۶۸.۶٪ در Aider Polyglot کسب کرده است – با نقاط قوت ویژه در برنامههای وب و کاربردهای کدنویسی مبتنی بر عامل (agentic).
- این مدل با پنجره زمینه ۱ میلیون توکنی عرضه میشود، اما گوگل به زودی قصد دارد این مقدار را به ۲ میلیون توکن افزایش دهد تا پردازش کل مخازن کد و مجموعه دادههای عظیم امکانپذیر شود.
- این مدل هماکنون در Google AI Studio و اپلیکیشن Gemini برای مشترکین پیشرفته (Advanced) در دسترس است و قیمتگذاری API آن در هفتههای آینده اعلام خواهد شد.
اهمیت موضوع: در حالی که آزمایشگاههای بزرگ هوش مصنوعی در حال پیشبرد قابلیت استدلال هستند، گوگل «تفکر» را به یک ویژگی استاندارد تبدیل کرده است، نه یک قابلیت ویژه و پولی. این غول فناوری با وجود نداشتن هیاهوی OpenAI، به ارائه مدلهای پیشرفته (SOTA) ادامه میدهد – اما با توجه به سرعت بالای پیشرفت هوش مصنوعی (و با در نظر گرفتن GPT-5 و مدلهای دیگر در راه)، باید دید این رتبه جدید تا چه زمانی دوام خواهد آورد.
OpenAI
OpenAI تولید تصویر را به GPT-4o و Sora اضافه کرد
خلاصه: OpenAI قابلیت تولید تصویر را در مدل GPT-4o و مولد ویدیوی Sora خود منتشر کرد. این شرکت از سیستمهای جداگانه متن و تصویر به یک رویکرد کاملاً یکپارچه روی آورده است تا از طریق ChatGPT، تصاویر بصری دقیقتر و آگاهتر به زمینه تولید کند.
جزئیات:
- GPT-4o تصاویر را به عنوان بخشی از درک چندوجهی (multimodal) خود در نظر میگیرد که امکان رندر دقیقتر متن و آگاهی بهتر از زمینه را فراهم میکند.
- این بهروزرسانی در تولید محتوایی مانند منوها، نمودارها و اینفوگرافیکها با متن خوانا برتری دارد و یکی از ضعفهای عمده مدلهای قبلی را برطرف میکند.
- کاربران همچنین میتوانند تصاویر را با زبان طبیعی ویرایش کنند و مدل قادر است سازگاری بین تکرارها را حفظ کرده و ۱۰ تا ۲۰ شیء را در دستورات (prompts) مدیریت کند.
- این قابلیت جدید جایگزین DALL-E 3 به عنوان مولد تصویر پیشفرض ChatGPT برای کاربران رایگان، پلاس، پرو و تیم میشود و به زودی برای کاربران سازمانی (Enterprise) و آموزشی (Edu) نیز عرضه خواهد شد.
اهمیت موضوع: مدل DALL-E شرکت OpenAI از سایر مولدهای تصویر عقب مانده بود، اما به نظر میرسد این بهروزرسانی مورد انتظار تصویر بومی ارزش صبر کردن را داشته است. با قابلیت تولید متن طولانی، مهارتهای طراحی رابط کاربری/تجربه کاربری (UI/UX) و ویرایش با زبان طبیعی، تولید محتوای بصری با این نسل جدید مدلها وارد عصر کاملاً جدیدی میشود.
آموزش هوش مصنوعی
تبدیل مفاهیم به ارائههای معرفی ایده (Pitch Decks) آماده تولید
خلاصه: در این آموزش، یاد خواهید گرفت که چگونه استوریبوردها، ویدیوها و پیچدکهای کامل و حرفهای را تنها با استفاده از دستورات متنی ساده و در عرض چند دقیقه – بدون نیاز به هیچ تجربهای در زمینه طراحی – ایجاد کنید.
گام به گام:
- به LTX Studio بروید، روی Start with a concept کلیک کنید و یک دستور ساده مانند "تبلیغ ۳۰ ثانیهای برای [نام محصول]" با جزئیات مکان و شخصیت وارد کنید.
- تنظیمات پروژه (نسبت تصویر و سبک) را سفارشی کنید و عناصر صحنه را با استفاده از کنترلهای چهره و پر کردن مولد (generative fill) ویرایش کنید.
- فریمهای ثابت را با ویرایشگر حرکت (Motion Editor) به ویدیو تبدیل کنید و برای بهبود اثر خود، موسیقی متن یا صداگذاری اضافه کنید.
- پروژه تمام شده خود را به صورت ویدیو، بسته ویرایشی یا یک پیچدک حرفهای خروجی بگیرید.
اپل
سرمایهگذاری میلیارد دلاری اپل روی سختافزار هوش مصنوعی انویدیا
خلاصه: گزارش شده است که اپل در حال ثبت سفارش عظیم ۱ میلیارد دلاری برای سرورهای پیشرفته انویدیا است و با شرکتهای Dell و Super Micro Computer برای راهاندازی اولین زیرساخت هوش مصنوعی مولد خود همکاری میکند – این اقدام نشاندهنده تغییر بزرگی در استراتژی هوش مصنوعی این شرکت در بحبوحه مشکلات سیری (Siri) است.
جزئیات:
- آنادا باروا، تحلیلگر Loop Capital، گزارش داد که این خرید شامل تقریباً ۲۵۰ سیستم GB300 NVL72 انویدیا است که هزینه هر سرور بین ۳.۷ تا ۴ میلیون دلار است.
- گفته میشود هر دو شرکت Dell Technologies و Super Micro Computer به عنوان شرکای کلیدی سرور در ساخت خوشه هوش مصنوعی بزرگ مقیاس جدید اپل عمل خواهند کرد.
- در حالی که گزارشهای قبلی حاکی از آن بود که اپل در حال توسعه تراشههای هوش مصنوعی خود است، این خرید ممکن است پاسخی به پیشرفت کندتر از حد انتظار در آن زمینه باشد.
- این اقدام همچنین پس از ناکامیهای اپل در توسعه هوش مصنوعی، از جمله تأخیر در بهروزرسانی برنامهریزی شده سیری مبتنی بر هوش مصنوعی و تجدید ساختار داخلی صورت میگیرد.
اهمیت موضوع: پس از اینکه اپل در حاشیه رقابت مراکز داده هوش مصنوعی باقی مانده بود در حالی که رقبا پیشتاز بودند، به نظر میرسد این شرکت در حال پذیرش این واقعیت است که برای رقابت به قدرت محاسباتی جدی نیاز دارد – و باید برای رفع برخی از مشکلاتی که در حال حاضر پیشرفت هوش مصنوعی داخلی آن را با مشکل مواجه کرده است، به خارج از شرکت نگاه کند. اما زمان در حال گذر است و پیشرفت هوش مصنوعی کند نمیشود.
اخبار کوتاه
OpenAI اعلام کرد بهروزرسانیهای جدیدی برای حالت صدای پیشرفته (Advanced Voice Mode) خود ارائه کرده است که شامل ارتقاء شخصیت و وقفههای کمتر برای مکالمات طبیعیتر میشود.
Figure AI تحقیقات و دموهای جدیدی از ربات انساننمای Figure 02 خود منتشر کرد که به راه رفتن طبیعی شبیه انسان دست یافته و سالها آموزش شبیهسازی شده را تنها در چند ساعت انجام میدهد.
H&M با ۳۰ مدل برای ایجاد دوقلوهای دیجیتال مبتنی بر هوش مصنوعی برای کمپینهای تبلیغاتی همکاری میکند. مدلها حقوق مالکیت را حفظ کرده و بر اساس میزان استفاده، غرامت دریافت میکنند.
ByteDance مدل InfiniteYou را منتشر کرد، یک مولد پرتره هوش مصنوعی منبع باز که پرترههای سازگار با دقت چهره بهبود یافته و پایبندی به دستورات (prompt adherence) تولید میکند.
Synthesia یک برنامه سهام ۱ میلیون دلاری برای بازیگرانی که شباهت آنها به عنوان آواتارهای هوش مصنوعی نمایش داده میشود، راهاندازی کرد و اولین شرکتی شد که به اجراکنندگانی که در آموزش هوش مصنوعی مشارکت دارند، سهام ارائه میدهد.
Otter AI از سه عامل هوش مصنوعی برای جلسات (AI Meeting Agents) رونمایی کرد: یک عامل جلسه فعالشونده با صدا، یک عامل فروش برای مربیگری حین تماس، و یک عامل SDR (نماینده توسعه فروش) برای دموهای محصول خودکار.
Perplexity حالتهای پاسخ جدیدی اضافه کرد که جستجوها در حوزههای خاص (verticals) را با موجودیتهایی مانند تصاویر، ویدیوها و کارتهایی با تراکنشهای تجاری داخلی بهبود میبخشد.