Qwen2.5 Omni: ببینید، بشنوید، صحبت کنید، بنویسید، همه کارها را انجام دهید! مطمئن نیستم چطور آن را در آن زمان از دست دادم، اما ماه گذشته (27 مارس) Qwen اولین مدل چندوجهی خود را منتشر کرد که میتواند صدا و تصویر را علاوه بر متن و تصاویر مدیریت کند - و خروجی صدا را به عنوان یک ویژگی اصلی مدل دارد.
ما معماری Thinker-Talker را پیشنهاد میکنیم، یک مدل چندوجهی end-to-end که برای درک مدهای مختلف، از جمله متن، تصاویر، صدا و تصویر طراحی شده است، در حالی که به طور همزمان پاسخهای متنی و گفتاری طبیعی را به صورت جریانی تولید میکند. ما یک embedding موقعیتی جدید به نام TMRoPE (Time-aligned Multimodal RoPE) پیشنهاد میکنیم تا مُهرهای زمانی ورودیهای ویدیو را با صدا همگامسازی کنیم.
اینجا PDF گزارش فنی Qwen2.5-Omni قرار دارد.
تا آنجا که میتوانم بگویم، هنوز هیچکس راه آسانی برای راهاندازی آن بر روی مک ندارد (نزدیکترین گزارشی که دیدم این نظر در Hugging Face بود).
این انتشار قابل توجه است زیرا، در حالی که مجموعه نسبتاً خوبی از مدلهای LLM دیداری با وزن آزاد وجود دارد، مدلهای چندوجهی که فراتر از آن میروند هنوز بسیار نادر هستند. مانند اکثر مدلهای اخیر Qwen، Qwen2.5 Omni تحت مجوز Apache 2.0 منتشر شده است.
انتظار میرود Qwen 3 ظرف 24 ساعت آینده منتشر شود. @jianxliao یک اسکرینشات از مجموعه Hugging Face خود را ثبت کرد که قبل از پس گرفتن دوباره به طور تصادفی فاش کردند که نشان میدهد مدل جدید در اندازههای 0.6B / 1.7B / 4B / 8B / 30B در دسترس خواهد بود. من به خصوص هیجانزدهام که مدل 30B را امتحان کنم - 22-30B خود را به عنوان محدوده اندازه مورد علاقه من برای اجرای مدلها روی 64 گیگابایت M2 تثبیت کرده است، زیرا اغلب نتایج فوقالعادهای ارائه میدهد در حالی که هنوز حافظه کافی برای اجرای برنامههای دیگر به طور همزمان برای من باقی میگذارد.