هوش مصنوعی در سالهای اخیر گامهای مهمی برداشته است، اما ادغام تعامل گفتاری بلادرنگ با محتوای بصری همچنان یک چالش پیچیده است. سیستمهای سنتی اغلب به اجزای جداگانه برای تشخیص فعالیت صوتی، تشخیص گفتار، گفتگوی متنی و سنتز متن به گفتار متکی هستند. این رویکرد قطعهبندی شده میتواند تأخیرهایی را ایجاد کند و ممکن است تفاوتهای ظریف مکالمه انسانی، مانند احساسات یا صداهای غیر گفتاری را ثبت نکند. این محدودیتها به ویژه در برنامههای کاربردی که برای کمک به افراد کمبینا طراحی شدهاند، مشهود است، جایی که توصیفهای به موقع و دقیق از صحنههای بصری ضروری است.
در پاسخ به این چالشها، Kyutai از MoshiVis، یک مدل گفتار بینایی (VSM) متنباز رونمایی کرده است که تعاملات گفتاری طبیعی و بلادرنگ را درباره تصاویر امکانپذیر میکند. MoshiVis با تکیه بر کار قبلی خود با Moshi - یک مدل پایه گفتار-متن که برای گفتگوی بلادرنگ طراحی شده است - این قابلیتها را برای شامل کردن ورودیهای بصری گسترش میدهد. این بهبود به کاربران امکان میدهد تا در مکالمات روان درباره محتوای بصری شرکت کنند، که نشاندهنده یک پیشرفت قابل توجه در توسعه هوش مصنوعی است.
از نظر فنی، MoshiVis با ادغام ماژولهای توجه متقابل سبکوزن که اطلاعات بصری را از یک رمزگذار بصری موجود به جریان نشانه گفتار Moshi وارد میکنند، Moshi را افزایش میدهد. این طراحی تضمین میکند که تواناییهای مکالمه اصلی Moshi دست نخورده باقی میماند، در حالی که ظرفیت پردازش و بحث در مورد ورودیهای بصری را معرفی میکند. یک مکانیزم دروازهبانی در ماژولهای توجه متقابل، مدل را قادر میسازد تا به طور انتخابی با دادههای بصری تعامل داشته باشد و کارایی و پاسخگویی را حفظ کند. قابل توجه است که MoshiVis تقریباً 7 میلیثانیه تأخیر در هر مرحله استنتاج بر روی دستگاههای درجه مصرفکننده، مانند یک Mac Mini با تراشه M4 Pro، اضافه میکند و در نتیجه در مجموع 55 میلیثانیه در هر مرحله استنتاج میشود. این عملکرد به خوبی زیر آستانه 80 میلیثانیه برای تأخیر بلادرنگ باقی میماند و تعاملات روان و طبیعی را تضمین میکند.
در کاربردهای عملی، MoshiVis توانایی خود را در ارائه توضیحات دقیق از صحنههای بصری از طریق گفتار طبیعی نشان میدهد. به عنوان مثال، هنگامی که تصویری از سازههای فلزی سبز رنگ که توسط درختان و ساختمانی با نمای بیرونی قهوهای روشن احاطه شده است، ارائه میشود، MoshiVis بیان میکند:
«من دو سازه فلزی سبز رنگ با بالای توری میبینم و آنها توسط درختان بزرگ احاطه شدهاند. در پسزمینه، میتوانید ساختمانی را با نمای بیرونی قهوهای روشن و سقف سیاه ببینید که به نظر میرسد از سنگ ساخته شده است.»
این قابلیت، راههای جدیدی را برای برنامههایی مانند ارائه توضیحات صوتی برای افراد کمبینا، بهبود دسترسی و فعال کردن تعاملات طبیعیتر با اطلاعات بصری باز میکند. Kyutai با انتشار MoshiVis به عنوان یک پروژه متنباز، از جامعه تحقیقاتی و توسعهدهندگان دعوت میکند تا این فناوری را بررسی و گسترش دهند و نوآوری در مدلهای گفتار بینایی را تقویت کنند. در دسترس بودن وزنهای مدل، کد استنتاج و معیارهای گفتار بصری، از تلاشهای مشترک برای اصلاح و متنوع کردن کاربردهای MoshiVis بیشتر پشتیبانی میکند.
در خاتمه، MoshiVis نشاندهنده یک پیشرفت قابل توجه در هوش مصنوعی است که درک بصری را با تعامل گفتاری بلادرنگ ادغام میکند. ماهیت متنباز آن، پذیرش و توسعه گسترده را تشویق میکند و راه را برای تعاملات در دسترستر و طبیعیتر با فناوری هموار میکند. با ادامه تکامل هوش مصنوعی، نوآوریهایی مانند MoshiVis ما را به ادغام یکپارچه درک چندوجهی نزدیکتر میکند و تجربیات کاربر را در حوزههای مختلف افزایش میدهد.
برای اطلاعات بیشتر، جزئیات فنی را بررسی کنید و آن را اینجا امتحان کنید. تمام اعتبار این تحقیق به محققان این پروژه میرسد.