انتشار Qwen2.5 Omni و Qwen 3

Qwen2.5 Omni: ببینید، بشنوید، صحبت کنید، بنویسید، همه کارها را انجام دهید! مطمئن نیستم چطور آن را در آن زمان از دست دادم، اما ماه گذشته (27 مارس) Qwen اولین مدل چندوجهی خود را منتشر کرد که می‌تواند صدا و تصویر را علاوه بر متن و تصاویر مدیریت کند - و خروجی صدا را به عنوان یک ویژگی اصلی مدل دارد.

ما معماری Thinker-Talker را پیشنهاد می‌کنیم، یک مدل چندوجهی end-to-end که برای درک مدهای مختلف، از جمله متن، تصاویر، صدا و تصویر طراحی شده است، در حالی که به طور همزمان پاسخ‌های متنی و گفتاری طبیعی را به صورت جریانی تولید می‌کند. ما یک embedding موقعیتی جدید به نام TMRoPE (Time-aligned Multimodal RoPE) پیشنهاد می‌کنیم تا مُهرهای زمانی ورودی‌های ویدیو را با صدا همگام‌سازی کنیم.

اینجا PDF گزارش فنی Qwen2.5-Omni قرار دارد.

تا آنجا که می‌توانم بگویم، هنوز هیچ‌کس راه آسانی برای راه‌اندازی آن بر روی مک ندارد (نزدیک‌ترین گزارشی که دیدم این نظر در Hugging Face بود).

این انتشار قابل توجه است زیرا، در حالی که مجموعه نسبتاً خوبی از مدل‌های LLM دیداری با وزن آزاد وجود دارد، مدل‌های چندوجهی که فراتر از آن می‌روند هنوز بسیار نادر هستند. مانند اکثر مدل‌های اخیر Qwen، Qwen2.5 Omni تحت مجوز Apache 2.0 منتشر شده است.

انتظار می‌رود Qwen 3 ظرف 24 ساعت آینده منتشر شود. @jianxliao یک اسکرین‌شات از مجموعه Hugging Face خود را ثبت کرد که قبل از پس گرفتن دوباره به طور تصادفی فاش کردند که نشان می‌دهد مدل جدید در اندازه‌های 0.6B / 1.7B / 4B / 8B / 30B در دسترس خواهد بود. من به خصوص هیجان‌زده‌ام که مدل 30B را امتحان کنم - 22-30B خود را به عنوان محدوده اندازه مورد علاقه من برای اجرای مدل‌ها روی 64 گیگابایت M2 تثبیت کرده است، زیرا اغلب نتایج فوق‌العاده‌ای ارائه می‌دهد در حالی که هنوز حافظه کافی برای اجرای برنامه‌های دیگر به طور همزمان برای من باقی می‌گذارد.