منبع تصویر: Ideogram
منبع تصویر: Ideogram

تولید تصویر با هوش مصنوعی دوباره ارتقا می‌یابد

به‌علاوه: BMW و علی‌بابا خودروهای مجهز به هوش مصنوعی را عرضه می‌کنند

صبح بخیر، علاقه‌مندان به هوش مصنوعی. یک مدل پیشرفته دیگر تبدیل متن به تصویر منتشر شد — اما به نظر می‌رسد تنها چیزی که ذهن همه را مشغول کرده، تبدیل تصاویر به انیمه‌های سبک گیبلی است.

بین عرضه نسخه ۳.۰ ایده‌گرام، قابلیت‌های ویروسی تولید تصویر GPT-4o و معرفی Reve، خلاقیت هوش مصنوعی در این هفته به سطح کاملاً جدیدی رسیده است.

آخرین تحولات

ایده‌گرام (IDEOGRAM)

مدل تصویر پیشرفته ۳.۰ ایده‌گرام

خلاصه: استارت‌آپ تولید تصویر ایده‌گرام به تازگی نسخه ۳.۰ مدل هوش مصنوعی خود را منتشر کرده است که بهبودهای عمده‌ای در فوتورئالیسم، رندر متن و ثبات سبک ارائه می‌دهد — در حالی که در ارزیابی‌های انسانی از رقبا بهتر عمل کرده است.

جزئیات:

  • ایده‌گرام ۳.۰ قابلیت‌های جدید رندر متن و طراحی گرافیکی را به ارمغان می‌آورد و امکان ایجاد دقیق طرح‌بندی‌های پیچیده، لوگوها و تایپوگرافی را فراهم می‌کند.
  • در آزمایش‌ها، این مدل به طور قابل توجهی از مدل‌های پیشرو تبدیل متن به تصویر، از جمله Imagen 3 گوگل، Flux Pro 1.1 و Recraft V3 عملکرد بهتری داشته است.
  • ویژگی جدید «ارجاعات سبک» (Style References) به کاربران اجازه می‌دهد تا حداکثر سه تصویر را برای هدایت زیبایی‌شناسی محتوای تولید شده آپلود کنند، در کنار کتابخانه‌ای از ۴.۳ میلیارد پیش‌تنظیم.
  • این مدل اکنون در پلتفرم ایده‌گرام و برنامه iOS آن در دسترس است و همه ویژگی‌ها برای کاربران رایگان قابل دسترسی هستند.

چرا اهمیت دارد: مدل جدید ایده‌گرام بسیار چشمگیر است، اما زمان عرضه آن با توجه به هیجان پیرامون قابلیت‌های تصویری 4o از OpenAI، کمی نامناسب به نظر می‌رسد. آنچه از عرضه‌های این هفته ایده‌گرام، OpenAI و Reve مشخص شده این است که طراحی گرافیکی و تولید دقیق متن تقریباً به طور کامل برای این موج از مدل‌های هوش مصنوعی حل شده است.

همکاری BMW و علی‌بابا برای هوش مصنوعی در خودرو
منبع تصویر: Alibaba

BMW و علی‌بابا

BMW و علی‌بابا خودروهای مجهز به هوش مصنوعی را عرضه می‌کنند

خلاصه: غول فناوری چینی علی‌بابا و خودروساز BMW اعلام کردند که یک اتحاد استراتژیک برای توسعه هوش مصنوعی پیشرفته داخل خودرو، متناسب با بازار چین، ایجاد کرده‌اند. این همکاری، فناوری پیشرفته کابین خودرو را از سال ۲۰۲۶ به مدل‌های BMW خواهد آورد.

جزئیات:

  • این مشارکت بر روی یک دستیار هوش مصنوعی جدید داخل خودرو متمرکز است که توسط مدل Qwen علی‌بابا قدرت گرفته و دارای تشخیص صدای پیشرفته و درک متنی است.
  • این دستیار شامل اطلاعات لحظه‌ای در مورد رستوران‌ها، در دسترس بودن پارکینگ و مدیریت ترافیک خواهد بود و از دستورات طبیعی به جای رابط‌های لمسی استفاده می‌کند.
  • BMW همچنین قصد دارد دو عامل هوش مصنوعی را عرضه کند: Car Genius برای تشخیص عیب خودرو و Travel Companion برای توصیه‌های شخصی و برنامه‌ریزی سفر.
  • این سیستم همچنین شامل ورودی‌های چندوجهی مانند تشخیص ژست، ردیابی چشم و آگاهی از وضعیت بدن برای تجربیات رانندگی بصری‌تر خواهد بود.

چرا اهمیت دارد: BMW در خط مقدم هوش مصنوعی و رباتیک قرار داشته است و تنها مسئله زمان بود تا سیستم‌های پیشرفته هوش مصنوعی در خودروهای جدید ادغام شوند. در حالی که تسلا، با مشارکت داخلی xAI، همچنان یک رقیب قوی است، سایر خودروسازان نیز در حال برداشتن گام‌های استراتژیک برای پیشرو بودن در عصر هوش مصنوعی هستند.

رابط کاربری ایجاد Gem در Google Gemini

آموزش هوش مصنوعی

ایجاد دستیاران مطالعه سفارشی برای هر موضوع

خلاصه: در این آموزش یاد خواهید گرفت که چگونه از ویژگی Gems گوگل Gemini برای ایجاد دستیاران هوش مصنوعی شخصی‌سازی شده برای موضوعات خاص، کمک به تکالیف و تحقیقات پروژه‌ها استفاده کنید — کاملاً رایگان.

گام به گام:

  1. به Google Gemini مراجعه کنید، روی نماد Gem (الماس) در نوار کناری سمت چپ کلیک کنید، سپس "New Gem" را انتخاب کنید.
  2. Gem خود را به طور مشخص نامگذاری کنید (مثلاً «حل‌کننده مسائل فیزیک») و دستورالعمل‌های دقیقی در مورد چگونگی کمک آن به موضوع خود بنویسید.
  3. مطالب درسی مانند یادداشت‌ها، فصل‌های کتاب درسی یا راهنماهای مطالعه را به بخش Knowledge اضافه کنید.
  4. Gem خود را با سوالات نمونه آزمایش کنید و دستورالعمل‌های آن را تا زمانی که به درستی پاسخ دهد، اصلاح کنید.

نکته حرفه‌ای: می‌توانید به جای یک دستیار عمومی، چندین Gem برای مقالات مختلف ایجاد کنید؛ این کار هر دستیار را روی یک موضوع خاص متمرکز نگه می‌دارد.

نمایش قابلیت‌های مدل Qwen2.5-Omni-7B علی‌بابا
منبع تصویر: Alibaba

علی‌بابا

هوش مصنوعی چند حسی علی‌بابا برای موبایل

خلاصه: علی‌بابا مدل Qwen2.5-Omni-7B را منتشر کرد، یک هوش مصنوعی چندوجهی جدید که قادر به پردازش همزمان متن، تصویر، صدا و ویدیو است و در عین حال به اندازه‌ای کارآمد است که مستقیماً روی سخت‌افزار مصرف‌کننده مانند گوشی‌های هوشمند و لپ‌تاپ‌ها اجرا شود.

جزئیات:

  • این مدل از یک سیستم جدید "Thinker-Talker" برای پردازش لحظه‌ای در میان مُدالیته‌ها (متن، صدا، تصویر، ویدیو) با خروجی‌های متنی و گفتاری استفاده می‌کند.
  • عملکرد قوی در درک و تولید گفتار نشان می‌دهد و در آزمایش‌های بنچمارک از مدل‌های صوتی تخصصی بهتر عمل می‌کند.
  • علی‌بابا می‌گوید Omni-7B می‌تواند به طور کارآمد روی تلفن‌ها و لپ‌تاپ‌ها اجرا شود و برنامه‌های کاربردی دنیای واقعی مانند توصیفات صوتی لحظه‌ای برای کاربران کم‌بینا را امکان‌پذیر می‌سازد.
  • این مدل بلافاصله در Hugging Face و GitHub در دسترس است و علی‌بابا آن را به عنوان پایه‌ای برای توسعه عامل‌های هوش مصنوعی عملی معرفی کرده است.

چرا اهمیت دارد: عصر مدل‌های همه‌کاره تقریباً فرا رسیده است و سیستم‌های omni قرار است تجربیات و دسته‌های کاملاً جدیدی از برنامه‌ها را باز کنند. هوشی که بتواند پیچیدگی کامل محیط‌های انسانی را درک کند و به آن پاسخ دهد - در حالی که منبع‌باز و به راحتی قابل دسترس است - ترکیبی قدرتمند است.

اخبار کوتاه

ابزارهای هوش مصنوعی پرطرفدار

سایر اخبار هوش مصنوعی امروز

OpenAI اعلام کرد که پروتکل متن باز Model Context Protocol از Anthropic را اتخاذ خواهد کرد که به ChatGPT و سایر محصولات امکان ادغام با داده‌ها و نرم‌افزارهای خارجی را می‌دهد.

Microsoft 365 Copilot از Researcher و Analyst رونمایی کرد، دو عامل هوش مصنوعی جدید که برای انجام وظایف کاری با تحقیق و تحلیل داده‌ها به طور مستقیم در گردش کار کاربران طراحی شده‌اند.

یک قاضی فدرال درخواست ناشر موسیقی UMG برای جلوگیری از استفاده Anthropic از متن ترانه‌ها برای آموزش Claude را رد کرد و گفت که این ادعا نتوانسته «آسیب جبران‌ناپذیر» را نشان دهد.

xAI اعلام کرد که چت‌بات Grok اکنون مستقیماً در برنامه پیام‌رسان تلگرام ادغام شده است و بدون هزینه اضافی برای کاربران Premium در دسترس است.

آمازون ویژگی خرید جدید مبتنی بر هوش مصنوعی به نام «Interests» را راه‌اندازی کرد که به طور خودکار فروشگاه آن را اسکن می‌کند تا کاربران را در مورد محصولات جدید بر اساس درخواست‌های زبان طبیعی مطلع سازد.

Midjourney در جلسه هفتگی Office Hours خود فاش کرد که انتظار می‌رود مدل جدید و مورد انتظار V7 آن در روز دوشنبه، ۳۱ مارس عرضه شود.

دولت ایالات متحده بیش از ۵۰ نهاد فناوری چینی را به لیست سیاه صادراتی اضافه کرد و شرکت‌هایی را هدف قرار داد که در حال توسعه هوش مصنوعی پیشرفته، ابررایانش و فناوری کوانتومی هستند.