منبع: VentureBeat ساخته شده با میدجرنی
منبع: VentureBeat ساخته شده با میدجرنی

Cosmos-Transfer1 انویدیا: آموزش ربات را به طرز عجیبی واقعی می‌کند—و این همه چیز را تغییر می‌دهد

انویدیا Cosmos-Transfer1 را منتشر کرده است، یک مدل هوش مصنوعی نوآورانه که توسعه‌دهندگان را قادر می‌سازد تا شبیه‌سازی‌های بسیار واقع‌گرایانه برای آموزش ربات‌ها و وسایل نقلیه خودران ایجاد کنند. این مدل که اکنون در Hugging Face در دسترس است، به یک چالش مداوم در توسعه هوش مصنوعی فیزیکی می‌پردازد: پر کردن شکاف بین محیط‌های آموزشی شبیه‌سازی شده و کاربردهای دنیای واقعی.

محققان انویدیا در مقاله منتشر شده همراه با این نسخه اظهار داشتند: «ما Cosmos-Transfer1 را معرفی می‌کنیم، یک مدل تولید دنیای شرطی که می‌تواند شبیه‌سازی‌های جهانی را بر اساس ورودی‌های کنترل فضایی متعدد از روش‌های مختلف مانند بخش‌بندی، عمق و لبه تولید کند. این امر تولید دنیای بسیار قابل کنترل را امکان‌پذیر می‌کند و در موارد مختلف استفاده از انتقال دنیا به دنیا، از جمله Sim2Real، کاربرد دارد.»

Cosmos-Transfer1 برخلاف مدل‌های شبیه‌سازی قبلی، یک سیستم کنترل چندوجهی تطبیقی ​​را معرفی می‌کند که به توسعه‌دهندگان اجازه می‌دهد تا ورودی‌های بصری مختلف - مانند اطلاعات عمق یا مرزهای جسم - را به طور متفاوت در بخش‌های مختلف یک صحنه وزن کنند. این پیشرفت، کنترل دقیق‌تری بر محیط‌های تولید شده را امکان‌پذیر می‌کند و به طور قابل توجهی واقع‌گرایی و سودمندی آنها را بهبود می‌بخشد.

چگونه کنترل چندوجهی تطبیقی ​​فناوری شبیه‌سازی هوش مصنوعی را متحول می‌کند

رویکردهای سنتی برای آموزش سیستم‌های هوش مصنوعی فیزیکی شامل جمع‌آوری مقادیر زیادی از داده‌های دنیای واقعی - یک فرآیند پرهزینه و زمان‌بر - یا استفاده از محیط‌های شبیه‌سازی شده است که اغلب فاقد پیچیدگی و تنوع دنیای واقعی هستند.

Cosmos-Transfer1 با اجازه دادن به توسعه‌دهندگان برای استفاده از ورودی‌های چندوجهی (مانند تصاویر تار، تشخیص لبه، نقشه‌های عمق و بخش‌بندی) برای تولید شبیه‌سازی‌های فوتورئالیستی که جنبه‌های مهم صحنه اصلی را حفظ می‌کنند در عین حال تغییرات طبیعی را اضافه می‌کنند، این معضل را حل می‌کند.

محققان توضیح می‌دهند: «در طراحی، طرح شرطی فضایی تطبیقی ​​و قابل تنظیم است. این امکان را می‌دهد که ورودی‌های شرطی مختلف را به طور متفاوت در مکان‌های فضایی مختلف وزن کرد.»

این قابلیت به ویژه در رباتیک ارزشمند است، جایی که یک توسعه‌دهنده ممکن است بخواهد کنترل دقیقی بر نحوه ظاهر و حرکت یک بازوی رباتیک داشته باشد و در عین حال آزادی خلاقانه‌تری در تولید محیط‌های پس‌زمینه متنوع داشته باشد. برای وسایل نقلیه خودران، این امکان را فراهم می‌کند تا طرح‌بندی جاده و الگوهای ترافیکی حفظ شوند در حالی که شرایط آب و هوایی، نورپردازی یا تنظیمات شهری متفاوت است.

کاربردهای هوش مصنوعی فیزیکی که می‌تواند رباتیک و رانندگی خودران را متحول کند

دکتر مینگ-یو لیو، یکی از همکاران اصلی این پروژه، توضیح داد که چرا این فناوری برای کاربردهای صنعتی مهم است.

لیو و همکارانش در این مقاله خاطرنشان می‌کنند: «یک مدل سیاست، رفتار یک سیستم هوش مصنوعی فیزیکی را هدایت می‌کند و اطمینان می‌دهد که سیستم با ایمنی و مطابق با اهداف خود عمل می‌کند. Cosmos-Transfer1 را می‌توان در مدل‌های سیاست پساآموزش داد تا اقداماتی را تولید کند و در هزینه، زمان و نیازهای داده آموزش دستی سیاست صرفه‌جویی کند.»

این فناوری قبلاً ارزش خود را در آزمایش شبیه‌سازی رباتیک نشان داده است. محققان انویدیا دریافتند که هنگام استفاده از Cosmos-Transfer1 برای بهبود داده‌های شبیه‌سازی رباتیک، این مدل به طور قابل توجهی فوتورئالیسم را با "افزودن جزئیات بیشتر صحنه و سایه‌زنی پیچیده و نورپردازی طبیعی" در حین حفظ پویایی فیزیکی حرکت ربات بهبود می‌بخشد.

برای توسعه وسایل نقلیه خودران، این مدل به توسعه‌دهندگان امکان می‌دهد تا «سودمندی موارد حاشیه‌ای دنیای واقعی را به حداکثر برسانند» و به وسایل نقلیه کمک می‌کند تا با موقعیت‌های نادر اما حیاتی بدون نیاز به مواجهه با آنها در جاده‌های واقعی کنار بیایند.

درون اکوسیستم استراتژیک هوش مصنوعی انویدیا برای کاربردهای دنیای فیزیکی

Cosmos-Transfer1 تنها یکی از اجزای پلتفرم گسترده‌تر Cosmos انویدیا است، مجموعه‌ای از مدل‌های پایه جهانی (WFMs) که به‌طور خاص برای توسعه هوش مصنوعی فیزیکی طراحی شده‌اند. این پلتفرم شامل Cosmos-Predict1 برای تولید دنیای همه‌منظوره و Cosmos-Reason1 برای استدلال عقل سلیم فیزیکی است.

این شرکت در مخزن GitHub خود اعلام می‌کند: «Nvidia Cosmos یک پلتفرم مدل پایه جهانی است که برای توسعه‌دهندگان طراحی شده است تا به توسعه‌دهندگان هوش مصنوعی فیزیکی کمک کند تا سیستم‌های هوش مصنوعی فیزیکی خود را بهتر و سریع‌تر بسازند.» این پلتفرم شامل مدل‌های از پیش آموزش‌دیده تحت مجوز مدل باز Nvidia و اسکریپت‌های آموزشی تحت مجوز Apache 2 است.

این امر انویدیا را در موقعیتی قرار می‌دهد تا از بازار رو به رشد ابزارهای هوش مصنوعی که می‌تواند توسعه سیستم خودران را تسریع کند، استفاده کند، به ویژه زمانی که صنایعی از تولید تا حمل‌ونقل سرمایه‌گذاری زیادی در رباتیک و فناوری خودران انجام می‌دهند.

تولید بلادرنگ: چگونه سخت‌افزار انویدیا به شبیه‌سازی هوش مصنوعی نسل بعدی قدرت می‌بخشد

انویدیا همچنین Cosmos-Transfer1 را به صورت بلادرنگ بر روی آخرین سخت‌افزار خود به نمایش گذاشت. محققان خاطرنشان می‌کنند: «ما علاوه بر این، یک استراتژی مقیاس‌بندی استنتاج را برای دستیابی به تولید دنیای بلادرنگ با رک Nvidia GB200 NVL72 نشان می‌دهیم.»

این تیم هنگام مقیاس‌بندی از یک تا 64 GPU تقریباً 40 برابر سرعت را افزایش داد و تولید 5 ثانیه ویدیوی با کیفیت بالا را تنها در 4.2 ثانیه امکان‌پذیر کرد - عملاً توان عملیاتی بلادرنگ.

این عملکرد در مقیاس، به یکی دیگر از چالش‌های مهم صنعت می‌پردازد: سرعت شبیه‌سازی. شبیه‌سازی سریع و واقع‌گرایانه، آزمایش سریع‌تر و چرخه‌های تکرار را امکان‌پذیر می‌کند و توسعه سیستم‌های خودران را تسریع می‌بخشد.

نوآوری منبع باز: دموکراتیک کردن هوش مصنوعی پیشرفته برای توسعه‌دهندگان در سراسر جهان

تصمیم انویدیا برای انتشار هم مدل Cosmos-Transfer1 و هم کد زیربنایی آن در GitHub، موانع را برای توسعه‌دهندگان در سراسر جهان از بین می‌برد. این انتشار عمومی به تیم‌های کوچک‌تر و محققان مستقل امکان دسترسی به فناوری شبیه‌سازی را می‌دهد که قبلاً به منابع قابل توجهی نیاز داشت.

این حرکت در استراتژی گسترده‌تر انویدیا برای ایجاد جوامع توسعه‌دهنده قوی در اطراف سخت‌افزار و نرم‌افزار خود قرار می‌گیرد. این شرکت با قرار دادن این ابزارها در دست افراد بیشتر، نفوذ خود را گسترش می‌دهد و در عین حال به طور بالقوه پیشرفت در توسعه هوش مصنوعی فیزیکی را تسریع می‌کند.

برای مهندسان رباتیک و وسایل نقلیه خودران، این ابزارهای تازه در دسترس می‌تواند چرخه‌های توسعه را از طریق محیط‌های آموزشی کارآمدتر کوتاه کند. تأثیر عملی ممکن است ابتدا در مراحل آزمایش احساس شود، جایی که توسعه‌دهندگان می‌توانند سیستم‌ها را در معرض طیف وسیع‌تری از سناریوها قبل از استقرار در دنیای واقعی قرار دهند.

در حالی که منبع باز این فناوری را در دسترس قرار می‌دهد، استفاده مؤثر از آن همچنان به تخصص و منابع محاسباتی نیاز دارد - یادآوری اینکه در توسعه هوش مصنوعی، خود کد تنها آغاز داستان است.