انویدیا Cosmos-Transfer1 را منتشر کرده است، یک مدل هوش مصنوعی نوآورانه که توسعهدهندگان را قادر میسازد تا شبیهسازیهای بسیار واقعگرایانه برای آموزش رباتها و وسایل نقلیه خودران ایجاد کنند. این مدل که اکنون در Hugging Face در دسترس است، به یک چالش مداوم در توسعه هوش مصنوعی فیزیکی میپردازد: پر کردن شکاف بین محیطهای آموزشی شبیهسازی شده و کاربردهای دنیای واقعی.
محققان انویدیا در مقاله منتشر شده همراه با این نسخه اظهار داشتند: «ما Cosmos-Transfer1 را معرفی میکنیم، یک مدل تولید دنیای شرطی که میتواند شبیهسازیهای جهانی را بر اساس ورودیهای کنترل فضایی متعدد از روشهای مختلف مانند بخشبندی، عمق و لبه تولید کند. این امر تولید دنیای بسیار قابل کنترل را امکانپذیر میکند و در موارد مختلف استفاده از انتقال دنیا به دنیا، از جمله Sim2Real، کاربرد دارد.»
Cosmos-Transfer1 برخلاف مدلهای شبیهسازی قبلی، یک سیستم کنترل چندوجهی تطبیقی را معرفی میکند که به توسعهدهندگان اجازه میدهد تا ورودیهای بصری مختلف - مانند اطلاعات عمق یا مرزهای جسم - را به طور متفاوت در بخشهای مختلف یک صحنه وزن کنند. این پیشرفت، کنترل دقیقتری بر محیطهای تولید شده را امکانپذیر میکند و به طور قابل توجهی واقعگرایی و سودمندی آنها را بهبود میبخشد.
چگونه کنترل چندوجهی تطبیقی فناوری شبیهسازی هوش مصنوعی را متحول میکند
رویکردهای سنتی برای آموزش سیستمهای هوش مصنوعی فیزیکی شامل جمعآوری مقادیر زیادی از دادههای دنیای واقعی - یک فرآیند پرهزینه و زمانبر - یا استفاده از محیطهای شبیهسازی شده است که اغلب فاقد پیچیدگی و تنوع دنیای واقعی هستند.
Cosmos-Transfer1 با اجازه دادن به توسعهدهندگان برای استفاده از ورودیهای چندوجهی (مانند تصاویر تار، تشخیص لبه، نقشههای عمق و بخشبندی) برای تولید شبیهسازیهای فوتورئالیستی که جنبههای مهم صحنه اصلی را حفظ میکنند در عین حال تغییرات طبیعی را اضافه میکنند، این معضل را حل میکند.
محققان توضیح میدهند: «در طراحی، طرح شرطی فضایی تطبیقی و قابل تنظیم است. این امکان را میدهد که ورودیهای شرطی مختلف را به طور متفاوت در مکانهای فضایی مختلف وزن کرد.»
این قابلیت به ویژه در رباتیک ارزشمند است، جایی که یک توسعهدهنده ممکن است بخواهد کنترل دقیقی بر نحوه ظاهر و حرکت یک بازوی رباتیک داشته باشد و در عین حال آزادی خلاقانهتری در تولید محیطهای پسزمینه متنوع داشته باشد. برای وسایل نقلیه خودران، این امکان را فراهم میکند تا طرحبندی جاده و الگوهای ترافیکی حفظ شوند در حالی که شرایط آب و هوایی، نورپردازی یا تنظیمات شهری متفاوت است.
کاربردهای هوش مصنوعی فیزیکی که میتواند رباتیک و رانندگی خودران را متحول کند
دکتر مینگ-یو لیو، یکی از همکاران اصلی این پروژه، توضیح داد که چرا این فناوری برای کاربردهای صنعتی مهم است.
لیو و همکارانش در این مقاله خاطرنشان میکنند: «یک مدل سیاست، رفتار یک سیستم هوش مصنوعی فیزیکی را هدایت میکند و اطمینان میدهد که سیستم با ایمنی و مطابق با اهداف خود عمل میکند. Cosmos-Transfer1 را میتوان در مدلهای سیاست پساآموزش داد تا اقداماتی را تولید کند و در هزینه، زمان و نیازهای داده آموزش دستی سیاست صرفهجویی کند.»
این فناوری قبلاً ارزش خود را در آزمایش شبیهسازی رباتیک نشان داده است. محققان انویدیا دریافتند که هنگام استفاده از Cosmos-Transfer1 برای بهبود دادههای شبیهسازی رباتیک، این مدل به طور قابل توجهی فوتورئالیسم را با "افزودن جزئیات بیشتر صحنه و سایهزنی پیچیده و نورپردازی طبیعی" در حین حفظ پویایی فیزیکی حرکت ربات بهبود میبخشد.
برای توسعه وسایل نقلیه خودران، این مدل به توسعهدهندگان امکان میدهد تا «سودمندی موارد حاشیهای دنیای واقعی را به حداکثر برسانند» و به وسایل نقلیه کمک میکند تا با موقعیتهای نادر اما حیاتی بدون نیاز به مواجهه با آنها در جادههای واقعی کنار بیایند.
درون اکوسیستم استراتژیک هوش مصنوعی انویدیا برای کاربردهای دنیای فیزیکی
Cosmos-Transfer1 تنها یکی از اجزای پلتفرم گستردهتر Cosmos انویدیا است، مجموعهای از مدلهای پایه جهانی (WFMs) که بهطور خاص برای توسعه هوش مصنوعی فیزیکی طراحی شدهاند. این پلتفرم شامل Cosmos-Predict1 برای تولید دنیای همهمنظوره و Cosmos-Reason1 برای استدلال عقل سلیم فیزیکی است.
این شرکت در مخزن GitHub خود اعلام میکند: «Nvidia Cosmos یک پلتفرم مدل پایه جهانی است که برای توسعهدهندگان طراحی شده است تا به توسعهدهندگان هوش مصنوعی فیزیکی کمک کند تا سیستمهای هوش مصنوعی فیزیکی خود را بهتر و سریعتر بسازند.» این پلتفرم شامل مدلهای از پیش آموزشدیده تحت مجوز مدل باز Nvidia و اسکریپتهای آموزشی تحت مجوز Apache 2 است.
این امر انویدیا را در موقعیتی قرار میدهد تا از بازار رو به رشد ابزارهای هوش مصنوعی که میتواند توسعه سیستم خودران را تسریع کند، استفاده کند، به ویژه زمانی که صنایعی از تولید تا حملونقل سرمایهگذاری زیادی در رباتیک و فناوری خودران انجام میدهند.
تولید بلادرنگ: چگونه سختافزار انویدیا به شبیهسازی هوش مصنوعی نسل بعدی قدرت میبخشد
انویدیا همچنین Cosmos-Transfer1 را به صورت بلادرنگ بر روی آخرین سختافزار خود به نمایش گذاشت. محققان خاطرنشان میکنند: «ما علاوه بر این، یک استراتژی مقیاسبندی استنتاج را برای دستیابی به تولید دنیای بلادرنگ با رک Nvidia GB200 NVL72 نشان میدهیم.»
این تیم هنگام مقیاسبندی از یک تا 64 GPU تقریباً 40 برابر سرعت را افزایش داد و تولید 5 ثانیه ویدیوی با کیفیت بالا را تنها در 4.2 ثانیه امکانپذیر کرد - عملاً توان عملیاتی بلادرنگ.
این عملکرد در مقیاس، به یکی دیگر از چالشهای مهم صنعت میپردازد: سرعت شبیهسازی. شبیهسازی سریع و واقعگرایانه، آزمایش سریعتر و چرخههای تکرار را امکانپذیر میکند و توسعه سیستمهای خودران را تسریع میبخشد.
نوآوری منبع باز: دموکراتیک کردن هوش مصنوعی پیشرفته برای توسعهدهندگان در سراسر جهان
تصمیم انویدیا برای انتشار هم مدل Cosmos-Transfer1 و هم کد زیربنایی آن در GitHub، موانع را برای توسعهدهندگان در سراسر جهان از بین میبرد. این انتشار عمومی به تیمهای کوچکتر و محققان مستقل امکان دسترسی به فناوری شبیهسازی را میدهد که قبلاً به منابع قابل توجهی نیاز داشت.
این حرکت در استراتژی گستردهتر انویدیا برای ایجاد جوامع توسعهدهنده قوی در اطراف سختافزار و نرمافزار خود قرار میگیرد. این شرکت با قرار دادن این ابزارها در دست افراد بیشتر، نفوذ خود را گسترش میدهد و در عین حال به طور بالقوه پیشرفت در توسعه هوش مصنوعی فیزیکی را تسریع میکند.
برای مهندسان رباتیک و وسایل نقلیه خودران، این ابزارهای تازه در دسترس میتواند چرخههای توسعه را از طریق محیطهای آموزشی کارآمدتر کوتاه کند. تأثیر عملی ممکن است ابتدا در مراحل آزمایش احساس شود، جایی که توسعهدهندگان میتوانند سیستمها را در معرض طیف وسیعتری از سناریوها قبل از استقرار در دنیای واقعی قرار دهند.
در حالی که منبع باز این فناوری را در دسترس قرار میدهد، استفاده مؤثر از آن همچنان به تخصص و منابع محاسباتی نیاز دارد - یادآوری اینکه در توسعه هوش مصنوعی، خود کد تنها آغاز داستان است.