هفته گذشته در هوش مصنوعی شماره 307 - GPT 4.1، o3، o4-mini، Gemini 2.5 Flash، Veo 2

مدل‌های هوش مصنوعی GPT-4.1 جدید OpenAI بر روی کدنویسی تمرکز دارند، OpenAI یک جفت مدل استدلال هوش مصنوعی، o3 و o4-mini را راه‌اندازی می‌کند، جدیدترین مدل Gemini AI گوگل بر کارایی و موارد دیگر تمرکز دارد!

هوش خانواده GPT-4.1 بر اساس تاخیر
هوش خانواده GPT-4.1 بر اساس تاخیر

اخبار مهم

OpenAI خانواده جدیدی از مدل‌های هوش مصنوعی، GPT-4.1 را راه‌اندازی کرده است که شامل GPT-4.1، GPT-4.1 mini و GPT-4.1 nano می‌شود. این مدل‌ها برای برتری در کدنویسی و پیروی از دستورالعمل‌ها طراحی شده‌اند، با پنجره زمینه 1 میلیون توکنی، که به آن‌ها امکان می‌دهد تقریباً 750000 کلمه را به طور همزمان پردازش کنند. این مدل‌ها بخشی از جاه‌طلبی OpenAI برای ایجاد مدل‌های کدنویسی هوش مصنوعی هستند که قادر به انجام وظایف پیچیده مهندسی نرم‌افزار، از جمله برنامه‌نویسی کل برنامه‌ها به صورت end-to-end هستند. مدل‌های GPT-4.1 برای استفاده در دنیای واقعی بهینه شده‌اند، با پیشرفت‌هایی در زمینه‌هایی مانند کدنویسی فرانت‌اند، رعایت قالب و استفاده مداوم از ابزار. با این حال، OpenAI اذعان می‌کند که با افزایش تعداد توکن‌های ورودی، قابلیت اطمینان مدل‌ها کاهش می‌یابد و اغلب به درخواست‌های خاص‌تر و صریح‌تری نیاز دارند.

OpenAI دو مدل استدلال هوش مصنوعی جدید، o3 و o4-mini را راه‌اندازی کرده است که برای مکث و بررسی سوالات قبل از پاسخ دادن طراحی شده‌اند. مدل o3 به عنوان پیشرفته‌ترین مدل استدلال OpenAI معرفی شده است که در آزمایش‌هایی که قابلیت‌های ریاضی، کدنویسی، استدلال، علوم و درک بصری را اندازه‌گیری می‌کنند، از مدل‌های قبلی بهتر عمل می‌کند. مدل o4-mini تعادلی بین قیمت، سرعت و عملکرد ارائه می‌دهد. هر دو مدل می‌توانند با استفاده از ابزارهایی در ChatGPT مانند مرور وب، اجرای کد پایتون، پردازش تصویر و تولید تصویر، پاسخ ایجاد کنند. این مدل‌ها، همراه با نوعی از o4-mini به نام "o4-mini-high"، اکنون برای مشترکین طرح‌های Pro، Plus و Team OpenAI در دسترس هستند. راه‌اندازی این مدل‌ها بخشی از تلاش‌های OpenAI برای رقابت با سایر غول‌های فناوری در مسابقه جهانی هوش مصنوعی است.

گوگل قصد دارد مدل هوش مصنوعی جدید خود، Gemini 2.5 Flash را در پلتفرم توسعه هوش مصنوعی خود، Vertex AI، راه‌اندازی کند. این مدل برای کارایی و محاسبات پویا طراحی شده است و به توسعه دهندگان اجازه می‌دهد زمان پردازش را بر اساس پیچیدگی پرس و جوها تنظیم کنند. Gemini 2.5 Flash یک مدل استدلال است، شبیه به o3-mini OpenAI و R1 DeepSeek، که برای پاسخ دادن به سؤالات زمان بیشتری صرف می‌کند زیرا خود را بررسی می‌کند. این برای برنامه‌های کاربردی با حجم بالا و بلادرنگ مانند خدمات مشتری و تجزیه اسناد ایده‌آل است. گوگل همچنین قصد دارد مدل‌های Gemini مانند 2.5 Flash را از سه ماهه سوم به محیط‌های داخلی بیاورد و این مدل‌ها در Google Distributed Cloud (GDC) با همکاری Nvidia در دسترس خواهند بود.

گوگل Veo 2، یک مدل هوش مصنوعی پیشرفته تبدیل متن به ویدیو را به مشترکین Gemini Advanced خود معرفی کرده است. این مدل هوش مصنوعی قادر است ویدیوهای هشت ثانیه ای با وضوح بالا را با کیفیت 720p از یک متن تولید کند، با محدودیت ماهانه در تعداد ویدیوهایی که می توان ایجاد کرد. این ویدیوها که با فرمت MP4 خروجی داده می شوند، می توانند مستقیماً از دستگاه های تلفن همراه در TikTok و YouTube آپلود شوند. گوگل ادعا می کند که Veo 2 درک بهتری از فیزیک دنیای واقعی و حرکت انسان دارد که منجر به صحنه های واقعی تر و حرکات روان تر شخصیت می شود. در کنار Veo 2، گوگل همچنین Whisk Animate، ابزاری که تصاویر را به ویدیو تبدیل می کند، به مشترکین Google One AI Premium ارائه می دهد.

Google Ironwood TPU
Google Ironwood TPU

ابزارها

مدل‌های ترجمه خودکار گفتار Meta Massive به 100 زبان

گوگل پشته نرم افزاری Google Cloud Hypercomputer را در دسترس قرار داد

گوگل Ironwood TPU را فاش کرد - 6 برابر سریعتر از TPU v5e

محققان آلمانی چارچوبی را برای ادغام و تجزیه و تحلیل داده‌های علمی از 12 پایگاه داده ایجاد کرده‌اند و به سرعت 300 برابر سریع‌تر از ابزارهای موجود دست یافته‌اند.

توسعه‌دهندگان یک مدل متنی باز رایگان ایجاد کردند که به شما امکان می‌دهد 3 بعدی را مدل‌سازی کنید (همچنین به 3DGS سریع‌تر مراجعه کنید، یک کتابخانه CUDA جدید برای آموزش سریع 3D Gaussians).

با کمک هوش مصنوعی، یک هنرمند 30 سال وقت صرف ساختن کتابچه راهنمای کامپیوتر باستانی را به پایان رساند.

تجارت

Databricks نرم افزار مدل‌های زبان بزرگ MosaicML را با 1.3 میلیارد دلار خریداری می‌کند. خریداران، مراقب باشید.

همکاری IBM و Meta هوش مصنوعی منبع باز را برای شرکت‌ها منتشر می‌کند

آمازون در سال 2024 بیش از 12 میلیارد دلار برای هوش مصنوعی مولد سرمایه‌گذاری خواهد کرد.

بنیاد موزیلا یک شرکت هوش مصنوعی را راه‌اندازی می‌کند که «جایگزین‌های منبع باز و قابل اعتماد برای هوش مصنوعی متمرکز» می‌سازد (به پیاده‌سازی در C++ نیز مراجعه کنید).

دستیار یادگیری شخصی مبتنی بر هوش مصنوعی Khan Academy، Khanmigo، اکنون برای عموم در دسترس است.

تحلیلگران شرکت‌های نرم‌افزاری را برای کسب مزیت در رقابت تسلیحاتی هوش مصنوعی فشار می‌دهند.

مشتریان خدمات وب آمازون (AWS) اکنون می‌توانند از NVIDIA NIM microservices با Amazon SageMaker، سرویس یادگیری ماشین AWS، استفاده کنند. NVIDIA NIM microservices یک روش ساده و استاندارد شده برای استقرار مدل‌های هوش مصنوعی تولیدی در هر کجا ارائه می‌دهد.

شرکت‌ها از اتوماسیون برای افزایش سرعت و دامنه تلاش‌های بازاریابی خود استفاده می‌کنند، اما نظارت انسانی هنوز برای اطمینان از نتایج موفق حیاتی است.

تحقیق

بهبود هوش مصنوعی با آزمایش‌های فکر کردن.

تأثیر LLMها بر خلاقیت افراد: یافته‌ها نشان می‌دهد که LLMها ممکن است به طور متناقضی خلاقیت را هم تضعیف و هم تسهیل کنند. در حالی که LLMها ممکن است به طور موثر در ایجاد ایده‌های جدید کمک کنند، در عین حال ممکن است با کاهش درگیری شناختی و ترویج تکیه بیش از حد به پیشنهادات LLM، درک افراد از خلاقیت را کاهش دهند.

مطالعه نشان می‌دهد که الگوریتم‌های یادگیری عمیق قادر به طراحی داروهای جدید با موفقیت هستند.

ایجاد تصویر یک رویداد با استفاده از هوش مصنوعی: با استفاده از داده‌های رویداد عمومی، محققان دانشگاه کیوتو توانستند تصویری یکپارچه از یک رویداد را بدون نیاز به برچسب‌گذاری زمان‌بر ایجاد کنند.

موسیقی با قدرت ذهن: محققان Neurocrine Biosciences سیستمی توسعه داده‌اند که از فعالیت مغزی برای ساخت موسیقی استفاده می‌کند و امکان ایجاد بیان هنری نوآورانه را فراهم می‌سازد. این فناوری با نظارت بر فعالیت مغز یک فرد در حالی که به اصوات مختلف گوش می‌دهد و سپس استفاده از این داده‌ها برای تولید آهنگ‌ها، پتانسیل جدیدی را در موسیقی ایجاد می‌کند.

سیاست

وزارت دادگستری از OpenAI و NVIDIA در مورد تسلط بالقوه هوش مصنوعی پرس و جو می‌کند.

سایمون کولینز، وزیر امنیت سایبری و دولت بریتانیا، می‌گوید که هوش مصنوعی یک مسئله هم «فردا» و هم «اکنون» است و با تهدید فزاینده سوء استفاده از فناوری‌های جدید، امنیت آنلاین در حال تکامل است.

رگولاتورهای آژانس‌ها و بانک‌های ایالات متحده می‌خواهند قوانین جدید هوش مصنوعی را ایجاد کنند و به دنبال رویکردی متحد برای مدیریت ریسک در میان نگرانی‌ها در مورد استفاده نادرست از هوش مصنوعی هستند.

موسسه ملی استانداردها و فناوری NIST به‌روزرسانی پیش‌نویس نقشه راه امنیت هوش مصنوعی را برای دریافت نظرات عمومی منتشر کرد.

دفتر مدیریت و بودجه کاخ سفید (OMB) اخیراً فرمی را منتشر کرده است که آژانس‌های فدرال را موظف می‌کند تا در مورد نحوه استفاده خود از هوش مصنوعی توضیح دهند.

اتحادیه اروپا قانون هوش مصنوعی را برای پذیرش نهایی تصویب کرد.

بیش از یک دوجین قانون‌گذار در سنا و مجلس نمایندگان از دولت بایدن خواستند تا برای اطمینان از توسعه و استقرار مسئولانه هوش مصنوعی، اقدامات بیشتری انجام دهد.

آلمان متعهد به سرمایه‌گذاری بیشتر در توسعه هوش مصنوعی شد