انتشار MoshiVis توسط Kyutai: اولین مدل گفتار بلادرنگ متن‌باز که می‌تواند درباره تصاویر صحبت کند

هوش مصنوعی در سال‌های اخیر گام‌های مهمی برداشته است، اما ادغام تعامل گفتاری بلادرنگ با محتوای بصری همچنان یک چالش پیچیده است. سیستم‌های سنتی اغلب به اجزای جداگانه برای تشخیص فعالیت صوتی، تشخیص گفتار، گفتگوی متنی و سنتز متن به گفتار متکی هستند. این رویکرد قطعه‌بندی شده می‌تواند تأخیرهایی را ایجاد کند و ممکن است تفاوت‌های ظریف مکالمه انسانی، مانند احساسات یا صداهای غیر گفتاری را ثبت نکند. این محدودیت‌ها به ویژه در برنامه‌های کاربردی که برای کمک به افراد کم‌بینا طراحی شده‌اند، مشهود است، جایی که توصیف‌های به موقع و دقیق از صحنه‌های بصری ضروری است.

در پاسخ به این چالش‌ها، Kyutai از MoshiVis، یک مدل گفتار بینایی (VSM) متن‌باز رونمایی کرده است که تعاملات گفتاری طبیعی و بلادرنگ را درباره تصاویر امکان‌پذیر می‌کند. MoshiVis با تکیه بر کار قبلی خود با Moshi - یک مدل پایه گفتار-متن که برای گفتگوی بلادرنگ طراحی شده است - این قابلیت‌ها را برای شامل کردن ورودی‌های بصری گسترش می‌دهد. این بهبود به کاربران امکان می‌دهد تا در مکالمات روان درباره محتوای بصری شرکت کنند، که نشان‌دهنده یک پیشرفت قابل توجه در توسعه هوش مصنوعی است.

از نظر فنی، MoshiVis با ادغام ماژول‌های توجه متقابل سبک‌وزن که اطلاعات بصری را از یک رمزگذار بصری موجود به جریان نشانه گفتار Moshi وارد می‌کنند، Moshi را افزایش می‌دهد. این طراحی تضمین می‌کند که توانایی‌های مکالمه اصلی Moshi دست نخورده باقی می‌ماند، در حالی که ظرفیت پردازش و بحث در مورد ورودی‌های بصری را معرفی می‌کند. یک مکانیزم دروازه‌بانی در ماژول‌های توجه متقابل، مدل را قادر می‌سازد تا به طور انتخابی با داده‌های بصری تعامل داشته باشد و کارایی و پاسخ‌گویی را حفظ کند. قابل توجه است که MoshiVis تقریباً 7 میلی‌ثانیه تأخیر در هر مرحله استنتاج بر روی دستگاه‌های درجه مصرف‌کننده، مانند یک Mac Mini با تراشه M4 Pro، اضافه می‌کند و در نتیجه در مجموع 55 میلی‌ثانیه در هر مرحله استنتاج می‌شود. این عملکرد به خوبی زیر آستانه 80 میلی‌ثانیه برای تأخیر بلادرنگ باقی می‌ماند و تعاملات روان و طبیعی را تضمین می‌کند.

در کاربردهای عملی، MoshiVis توانایی خود را در ارائه توضیحات دقیق از صحنه‌های بصری از طریق گفتار طبیعی نشان می‌دهد. به عنوان مثال، هنگامی که تصویری از سازه‌های فلزی سبز رنگ که توسط درختان و ساختمانی با نمای بیرونی قهوه‌ای روشن احاطه شده است، ارائه می‌شود، MoshiVis بیان می‌کند:

«من دو سازه فلزی سبز رنگ با بالای توری می‌بینم و آنها توسط درختان بزرگ احاطه شده‌اند. در پس‌زمینه، می‌توانید ساختمانی را با نمای بیرونی قهوه‌ای روشن و سقف سیاه ببینید که به نظر می‌رسد از سنگ ساخته شده است.»

این قابلیت، راه‌های جدیدی را برای برنامه‌هایی مانند ارائه توضیحات صوتی برای افراد کم‌بینا، بهبود دسترسی و فعال کردن تعاملات طبیعی‌تر با اطلاعات بصری باز می‌کند. Kyutai با انتشار MoshiVis به عنوان یک پروژه متن‌باز، از جامعه تحقیقاتی و توسعه‌دهندگان دعوت می‌کند تا این فناوری را بررسی و گسترش دهند و نوآوری در مدل‌های گفتار بینایی را تقویت کنند. در دسترس بودن وزن‌های مدل، کد استنتاج و معیارهای گفتار بصری، از تلاش‌های مشترک برای اصلاح و متنوع کردن کاربردهای MoshiVis بیشتر پشتیبانی می‌کند.

در خاتمه، MoshiVis نشان‌دهنده یک پیشرفت قابل توجه در هوش مصنوعی است که درک بصری را با تعامل گفتاری بلادرنگ ادغام می‌کند. ماهیت متن‌باز آن، پذیرش و توسعه گسترده را تشویق می‌کند و راه را برای تعاملات در دسترس‌تر و طبیعی‌تر با فناوری هموار می‌کند. با ادامه تکامل هوش مصنوعی، نوآوری‌هایی مانند MoshiVis ما را به ادغام یکپارچه درک چندوجهی نزدیک‌تر می‌کند و تجربیات کاربر را در حوزه‌های مختلف افزایش می‌دهد.


برای اطلاعات بیشتر، جزئیات فنی را بررسی کنید و آن را اینجا امتحان کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد.