هفته گذشته در هوش مصنوعی #303 - رباتیک جمنای، جما 3، CSM-1B

مدل‌های هوش مصنوعی جدید گوگل دیپ‌مایند به ربات‌ها کمک می‌کنند تا وظایف فیزیکی را انجام دهند، گوگل جما 3 را قدرتمندترین مدل هوش مصنوعی می‌نامد که می‌توانید روی یک GPU اجرا کنید، و موارد دیگر!

ربات انجام دهنده کارها
رباتی که وظایف فیزیکی را انجام می دهد.

اخبار برتر

گوگل دیپ‌مایند دو مدل هوش مصنوعی جدید به نام‌های رباتیک جمنای (Gemini Robotics) و رباتیک جمنای-ای‌آر (Gemini Robotics-ER) را معرفی می‌کند که هدف آن‌ها افزایش توانایی‌های ربات‌ها در انجام وظایف دنیای واقعی است. رباتیک جمنای که بر اساس مدل هوش مصنوعی پرچمدار گوگل، جمنای 2.0 ساخته شده است، یک مدل دیداری-زبانی-عملی است که می‌تواند شرایط جدید را درک کرده و با آن‌ها سازگار شود، حتی بدون آموزش قبلی. این مدل، عمومیت، تعامل و مهارت ربات‌ها را بهبود می‌بخشد و آن‌ها را قادر می‌سازد تا وظایف فیزیکی دقیق را انجام داده و تعامل بهتری با محیط خود داشته باشند. رباتیک جمنای-ای‌آر یک مدل زبان بصری پیشرفته است که به ربات‌ها کمک می‌کند تا محیط‌های پیچیده و پویا را درک کنند و به آن‌ها در انجام وظایفی مانند بسته‌بندی جعبه ناهار کمک می‌کند. گوگل دیپ‌مایند همچنین در حال توسعه یک رویکرد لایه‌ای برای ایمنی است و مدل‌های رباتیک جمنای-ای‌آر را برای ارزیابی ایمنی اقدامات بالقوه در سناریوهای معین آموزش می‌دهد.

گوگل از انتشار جما 3 (Gemma 3)، نسخه به‌روز شده مدل‌های هوش مصنوعی باز خود خبر داده است که ادعا می‌کند "بهترین مدل تک شتاب‌دهنده جهان" است. این مدل برای توسعه‌دهندگانی طراحی شده است که برنامه‌های هوش مصنوعی را ایجاد می‌کنند که می‌توانند روی پلتفرم‌های مختلف، از تلفن‌ها گرفته تا ایستگاه‌های کاری، اجرا شوند و از بیش از 35 زبان پشتیبانی می‌کند. این مدل می‌تواند متن، تصاویر و ویدیوهای کوتاه را تجزیه و تحلیل کند و برای اجرا روی پردازنده‌های گرافیکی Nvidia و سخت‌افزار اختصاصی هوش مصنوعی بهینه شده است. این شرکت همچنان به ترویج جما با اعتبارات Google Cloud و برنامه آکادمیک جما 3 ادامه می‌دهد که به محققان دانشگاهی 10000 دلار اعتبار برای تسریع تحقیقات خود ارائه می‌دهد.

به گزارش نیویورک تایمز، گوگل 14 درصد سهام استارت‌آپ هوش مصنوعی آنتروپیک را در اختیار دارد. با وجود این سرمایه‌گذاری قابل توجه، گوگل هیچ کنترلی بر این شرکت ندارد و هیچ حق رای، کرسی هیئت مدیره یا حقوق ناظر را در اختیار ندارد. با این حال، گوگل قرار است 750 میلیون دلار دیگر در ماه سپتامبر از طریق بدهی قابل تبدیل، نوعی وام که می‌تواند به سهام تبدیل شود، در آنتروپیک سرمایه‌گذاری کند.

استارت‌آپ هوش مصنوعی Sesame مدل پایه خود، CSM-1B را تحت مجوز Apache 2.0 به صورت عمومی در دسترس قرار داده است. این مدل که پایه و اساس دستیار صوتی وایرال این شرکت، مایا است، یک مدل 1 میلیارد پارامتری است که "کدهای صوتی RVQ" را از ورودی‌های متنی و صوتی تولید می‌کند. RVQ یا کوانتیزاسیون برداری پسماند، روشی برای رمزگذاری صدا به توکن‌های گسسته است، تکنیکی که در SoundStream گوگل و Encodec متا نیز استفاده می‌شود. در حالی که این مدل می‌تواند صداهای مختلفی تولید کند، اما برای هیچ صدای خاص یا زبان غیر انگلیسی تنظیم نشده است. این شرکت از توسعه‌دهندگان خواسته است که از این مدل برای فعالیت‌هایی مانند تقلید صدا بدون رضایت، ایجاد محتوای گمراه‌کننده یا انجام فعالیت‌های مضر سوء استفاده نکنند. با این حال، هیچ محافظ واقعی برای جلوگیری از چنین سوء استفاده‌ای وجود ندارد.