هفته گذشته در هوش مصنوعی #۳۰۵ - جمینای ۲.۵، تصاویر در چت‌جی‌پی‌تی، هونیوان T1

تصویر تبلیغاتی مدل جمینای ۲.۵ گوگل — جمینای ۲.۵ (Gemini 2.5) اینجاست، و یک هیولای واقعی است.

اخبار برتر

گوگل جمینای ۲.۵، نسل جدیدی از مدل‌های استدلال هوش مصنوعی، را معرفی کرده است که اولین نسخه آن جمینای ۲.۵ پرو آزمایشی (Gemini 2.5 Pro Experimental) است. این مدل هوش مصنوعی استدلال چندوجهی که در Google AI Studio و اپلیکیشن جمینای در دسترس است، به عنوان هوشمندترین مدل گوگل تا به امروز معرفی شده است. این مدل از قدرت محاسباتی و زمان بیشتری برای بررسی واقعیت و استدلال در مورد مسائل قبل از ارائه پاسخ استفاده می‌کند؛ تکنیکی که در وظایف ریاضی و کدنویسی مفید واقع شده است. جمینای ۲.۵ پرو در بنچمارک‌ها از چندین مدل پیشرو هوش مصنوعی بهتر عمل کرده و در ایجاد برنامه‌های وب جذاب بصری و برنامه‌های کدنویسی برتری داشته است. با این حال، در آزمون توانایی‌های توسعه نرم‌افزار، عملکرد پایین‌تری نسبت به Claude 3.7 Sonnet از Anthropic داشته است. این مدل می‌تواند تقریباً ۷۵۰,۰۰۰ کلمه را به طور همزمان پردازش کند و برنامه‌هایی برای دو برابر کردن این ظرفیت در آینده نزدیک وجود دارد.

اوپن‌ای‌آی (OpenAI) یک ویژگی جدید تولید تصویر به نام «تصاویر در چت‌جی‌پی‌تی» (Images in ChatGPT) را در پلتفرم چت‌جی‌پی‌تی خود ادغام کرده است. این ویژگی که توسط مدل GPT-4o پشتیبانی می‌شود، به کاربران اجازه می‌دهد تا تصاویر را در خود چت تولید کنند و در تمام سطوح اشتراک در دسترس است. مدل جدید پیشرفت‌های قابل توجهی در «اتصال» (binding) - توانایی تولیدکنندگان تصویر هوش مصنوعی در حفظ روابط صحیح بین ویژگی‌ها و اشیاء - و همچنین رندر متن ارائه می‌دهد که تولید متن منسجم بدون غلط املایی روی تصویر را آسان‌تر می‌کند. این سیستم از یک رویکرد خودرگرسیو (autoregressive) استفاده می‌کند و تصاویر را به صورت متوالی از چپ به راست و از بالا به پایین تولید می‌کند که ممکن است به بهبود رندر متن و قابلیت‌های اتصال آن کمک کند. علیرغم اینکه تولید تصاویر زمان بیشتری می‌برد، اوپن‌ای‌آی معتقد است که کیفیت و قابلیت‌های افزایش‌یافته، زمان انتظار اضافی را توجیه می‌کند.

تنسنت (Tencent) مدل هوش مصنوعی استدلال هونیوان T1 (Hunyuan T1) خود را راه‌اندازی کرده است که از یادگیری تقویتی در مقیاس بزرگ، مشابه مدل استدلال R1 دیپ‌سیک (DeepSeek)، استفاده می‌کند. مدل T1 در بنچمارک Massive Multitask Language Understanding (MMLU) Pro امتیاز ۸۷.۲ را کسب کرد که از ۸۴ امتیاز DeepSeek-R1 پیشی گرفت اما از ۸۹.۳ امتیاز o1 اوپن‌ای‌آی کمتر بود. مدل T1 همچنین در سایر بنچمارک‌ها، از جمله آزمون ریاضیات دعوتی آمریکا (AIME) 2024 و مجموعه ارزیابی C-Eval برای قابلیت‌های زبان چینی، عملکرد خوبی داشت. از نظر قیمت‌گذاری، T1 برای هر ۱ میلیون توکن ورودی ۱ یوان و برای هر میلیون توکن خروجی ۴ یوان هزینه دریافت می‌کند که با قیمت‌گذاری DeepSeek رقابتی است. مدل T1 تنسنت از معماری ترکیبی استفاده می‌کند که ترکیبی از ترانسفورمر (Transformer) گوگل و مامبا (Mamba) است که بنا بر گزارش‌ها با کاهش استفاده از حافظه، هزینه‌های آموزش و استنتاج را کاهش می‌دهد.

یک قاضی فدرال اجازه داده است که شکایت مربوط به حق کپی‌رایت توسط روزنامه نیویورک تایمز علیه اوپن‌ای‌آی ادامه یابد. در این شکایت ادعا شده است که اوپن‌ای‌آی بدون اجازه یا پرداخت هزینه، از محتوای این روزنامه برای آموزش سرویس هوش مصنوعی خود، چت‌جی‌پی‌تی، بهره‌برداری کرده است. نیویورک تایمز، به همراه سایر ناشران، استدلال می‌کنند که اوپن‌ای‌آی با استفاده از مقالات آن‌ها به عنوان منبع قابل توجهی از متن دارای حق کپی‌رایت، قوانین کپی‌رایت را نقض کرده است. با این حال، اوپن‌ای‌آی معتقد است که جمع‌آوری داده‌های انبوه آن تحت دکترین حقوقی «استفاده منصفانه» محافظت می‌شود که اجازه می‌دهد در موارد خاصی از مطالب بدون اجازه استفاده مجدد شود. این پرونده که هنوز تاریخ محاکمه‌ای برای آن تعیین نشده است، می‌تواند پیامدهای قابل توجهی هم برای صنعت خبر و هم برای آینده ابزارهای هوش مصنوعی داشته باشد.

نمونه‌ای از تصویر تولید شده توسط هوش مصنوعی Reve Image — تصویر تولید شده توسط Reve Image 1.0.

یک تاکسی خودران Pony.ai در حال رانندگی در منطقه آزمایشی رانندگی خودران سطح بالا پکن — پکن، چین - ۱۱ ژوئیه: یک روبوتاکسی که توسط Pony.ai اداره می‌شود، در جاده منطقه آزمایشی رانندگی خودران سطح بالا پکن در ۱۱ ژوئیه ۲۰۲۴ در پکن، چین در حال رانندگی است. (عکس از جیا تیانیونگ/سرویس خبری چین/VCG از طریق Getty Images)

تصویر مفهومی یک ربات در حال آموختن از طریق تعامل با محیط — مفهوم یادگیری تقویتی برای ربات‌ها.

یک دست رباتیک در حال نوشتن روی یک صفحه کلید، نمادی از استفاده هوش مصنوعی در ایجاد محتوا — نگرانی‌ها در مورد محتوای تولید شده توسط هوش مصنوعی.

تصویر مفهومی نشان دهنده ادغام هوش مصنوعی در صنایع مختلف — تحلیل تأثیر هوش مصنوعی بر صنایع مختلف.

سایر اخبار

مولد تصویر جدید Reve غول‌های هنر هوش مصنوعی MidJourney و Flux را با قیمت یک پنی برای هر تصویر شکست می‌دهد - Reve Image 1.0، یک مولد تصویر هوش مصنوعی مقرون به صرفه، در پایبندی به دستور (prompt adherence) و کیفیت بصری برتری دارد و جایگزینی مقرون به صرفه برای ابزارهای معتبری مانند MidJourney و Flux ارائه می‌دهد، اگرچه فاقد برخی ویژگی‌های ویرایش پیشرفته است.

گوگل در حال عرضه ویژگی‌های ویدیویی هوش مصنوعی بلادرنگ جمینای است - گوگل شروع به پیاده‌سازی ویژگی‌های ویدیویی هوش مصنوعی بلادرنگ جمینای برای برخی از مشترکین Google One AI Premium کرده است که به هوش مصنوعی اجازه می‌دهد صفحه نمایش و فیدهای دوربین را تفسیر کرده و به سوالات به صورت بلادرنگ پاسخ دهد.

علی‌بابا Qwen2.5 Omni را منتشر کرد، حالت‌های صوتی و تصویری را به Qwen Chat اضافه کرد - مدل Qwen2.5-Omni-7B علی‌بابا قابلیت‌های چندوجهی پیشرفته‌ای را معرفی می‌کند که چت صوتی و تصویری بلادرنگ را در Qwen Chat امکان‌پذیر می‌سازد و تحت مجوز Apache 2.0 منبع باز است.

Ideogram نسخه ۳.۰ سیستم تولید تصویر هوش مصنوعی خود را ارائه می‌دهد - نسخه ۳.۰ Ideogram تولید تصویر هوش مصنوعی را با یک سیستم مرجع سبک، بهبود کیفیت تصویر و ابزارهای ویرایش جدید ارتقا می‌دهد و آن را به عنوان پیشرو در فوتورئالیسم و ایجاد تصویر حرفه‌ای معرفی می‌کند.

DeepSeek V3-0324 در صدر مدل‌های هوش مصنوعی غیر استدلالی در اولویت منبع باز قرار گرفت - دستاورد DeepSeek V3-0324 به عنوان برترین مدل هوش مصنوعی غیر استدلالی، بر رقابت فزاینده راهکارهای هوش مصنوعی منبع باز در برابر سیستم‌های اختصاصی در کاربردهای بلادرنگ تأکید می‌کند.

اوپن‌ای‌آی استاندارد رقیب خود Anthropic را برای اتصال مدل‌های هوش مصنوعی به داده‌ها اتخاذ می‌کند - اوپن‌ای‌آی قصد دارد پروتکل زمینه مدل (MCP) Anthropic را در محصولات خود ادغام کند تا توانایی مدل‌های هوش مصنوعی در دسترسی و استفاده از داده‌ها از منابع مختلف را افزایش دهد و پاسخ‌های بهتر و پشتیبانی از برنامه‌های کاربردی گسترده‌تر را تقویت کند.

Pony.ai در بحبوحه رقابت خودروهای خودران، عرضه اولیه سهام در آمریکا با ارزش‌گذاری ۸.۵ میلیارد دلار را بررسی می‌کند - Pony.ai عرضه اولیه سهام در ایالات متحده با ارزش ۸.۵ میلیارد دلار را بررسی می‌کند که نشان‌دهنده افزایش فعالیت مالی و چشم‌انداز رقابتی در صنعت خودروهای خودران، در میان چالش‌هایی مانند موانع نظارتی و بلوغ فناوری است.

اوپن‌ای‌آی برنامه جایزه شناسایی باگ با پاداش تا ۲۰,۰۰۰ دلار راه‌اندازی کرد - اوپن‌ای‌آی یک برنامه جایزه شناسایی باگ (bug bounty) را معرفی کرد که برای شناسایی آسیب‌پذیری‌ها پاداش‌هایی تا سقف ۲۰,۰۰۰ دلار ارائه می‌دهد و نشان‌دهنده تعهد به امنیت و توسعه اخلاقی هوش مصنوعی در پاسخ به نگرانی‌های فزاینده در مورد ایمنی سیستم‌های هوش مصنوعی است.

Stability AI، مالک Stable Diffusion، ۱۰ درصد از نیروی کار خود را کاهش می‌دهد - Stability AI، خالق Stable Diffusion، به دلیل فشارهای مالی و نیاز به تجدید ساختار، کاهش ۱۰ درصدی نیروی کار خود را اعلام کرد که نشان‌دهنده چالش‌ها در بازار رقابتی هوش مصنوعی علیرغم کمک‌های فناورانه آن است.

سافت‌بنک دور تأمین مالی ۱۰۵ میلیون دلاری در استارتاپ رانندگی خودران بریتانیایی Wayve را رهبری می‌کند - Wayve Technologies در دور تأمین مالی سری C به رهبری سافت‌بنک، ۱۰۵ میلیون دلار جذب کرد که بر پتانسیل رویکرد منحصر به فرد یادگیری عمیق سرتاسری آن برای وسایل نقلیه خودران تأکید می‌کند و بخش خودروهای خودران بریتانیا را تقویت می‌کند.

آمازون در بحبوحه تب هوش مصنوعی در فناوری، تا ۴ میلیارد دلار در استارتاپ هوش مصنوعی Anthropic سرمایه‌گذاری می‌کند - آمازون متعهد به سرمایه‌گذاری تا ۴ میلیارد دلار در Anthropic شد، دسترسی زودهنگام به فناوری آن را به دست آورد و از تراشه‌های AWS Trainium و Inferentia استفاده کرد که نشان‌دهنده یک مشارکت استراتژیک قابل توجه در چشم‌انداز رقابتی هوش مصنوعی است.

پژوهشگران دانشگاه پرینستون و گوگل دیپ‌مایند RoboNinja را پیشنهاد می‌کنند: یک عامل هوش مصنوعی برای یادگیری تقویتی تجسم‌یافته با استفاده از فضاهای عمل مبتنی بر متن - RoboNinja یک روش جدید است که فضاهای عمل مبتنی بر متن را برای یادگیری تقویتی تجسم‌یافته (ERL) ادغام می‌کند و با استفاده از دستورالعمل‌های زبان طبیعی، به عاملان هوش مصنوعی اجازه می‌دهد تا وظایف پیچیده را به طور مؤثرتری یاد بگیرند و انجام دهند.

بهبود مدل‌های انتشار با یادگیری تقویتی: بینش‌هایی از DDPO v2 گوگل - DDPO v2 گوگل با ادغام یادگیری تقویتی، مدل‌های انتشار را بهبود می‌بخشد و با بهینه‌سازی فرایند تولید بر اساس بازخورد، کیفیت و انسجام تصویر را افزایش می‌دهد.

پژوهشگران یک آسیب‌پذیری حیاتی را کشف کردند که می‌تواند مدل‌های زبانی بزرگ را به خطر بیندازد - یک آسیب‌پذیری حیاتی جدید کشف شده است که به مهاجمان اجازه می‌دهد با دستکاری ورودی‌ها، مدل‌های زبانی بزرگ را فریب دهند تا پاسخ‌های نادرست یا مخرب تولید کنند و نگرانی‌های امنیتی قابل توجهی را برای برنامه‌های کاربردی هوش مصنوعی ایجاد می‌کند.

با Mixtral 8x22B میسترال آشنا شوید: یک مدل انقلابی ترکیب پراکنده متخصصان (SMoE) - مدل Mixtral 8x22B میسترال از معماری ترکیب پراکنده متخصصان (SMoE) استفاده می‌کند که به آن امکان می‌دهد تا پارامترهای بیشتری را در حین حفظ کارایی محاسباتی مدیریت کند و عملکرد پیشرفته‌ای را در وظایف مختلف ارائه دهد.

به نظر می‌رسد Google News با مشکل هرزنامه هوش مصنوعی مواجه است - گزارش شده است که Google News با هجوم محتوای هرزنامه تولید شده توسط هوش مصنوعی دست و پنجه نرم می‌کند که چالش حفظ کیفیت و اعتبار اطلاعات در پلتفرم‌های خبری را برجسته می‌کند.

فناوری شبیه‌سازی صدای OpenAI به دلیل نگرانی‌های ایمنی «به طور گسترده منتشر نخواهد شد» - OpenAI اعلام کرده است که به دلیل نگرانی‌های بالقوه در مورد سوءاستفاده و انتشار اطلاعات نادرست، فناوری پیشرفته شبیه‌سازی صدای خود را به طور گسترده منتشر نخواهد کرد و بر نیاز به اقدامات ایمنی قوی در توسعه هوش مصنوعی تأکید می‌کند.

اکثریت آمریکایی‌ها در نظرسنجی جدید می‌گویند هوش مصنوعی بزرگترین خطر برای بشریت است - یک نظرسنجی جدید نشان می‌دهد که اکثریت آمریکایی‌ها هوش مصنوعی را بزرگترین تهدید برای بشریت می‌دانند که نشان‌دهنده نگرانی گسترده عمومی در مورد پیامدهای بالقوه فناوری هوش مصنوعی است.

مایکروسافت و گوگل می‌گویند هکرهای تحت حمایت چین از ابزارهای هوش مصنوعی برای بهبود حملات خود استفاده کرده‌اند - گزارش‌های مایکروسافت و گوگل نشان می‌دهد که گروه‌های هکری تحت حمایت دولت چین از ابزارهای هوش مصنوعی برای افزایش پیچیدگی و اثربخشی حملات سایبری خود استفاده می‌کنند.

انقلاب هوش مصنوعی در حال حاضر در حال از دست دادن قدرت است - این مقاله استدلال می‌کند که هیجان اولیه پیرامون انقلاب هوش مصنوعی ممکن است در حال کاهش باشد، زیرا چالش‌های عملی پیاده‌سازی، نگرانی‌های اخلاقی و موانع نظارتی تأثیر کامل فناوری هوش مصنوعی را کند می‌کنند.

https://lastweekin.ai/p/last-week-in-ai-305-gemini-25-images