IBM دامنه دسترسی به منابع متن‌باز را گسترش می‌دهد.
IBM دامنه دسترسی به منابع متن‌باز را گسترش می‌دهد.

معرفی سری مدل‌های هوش مصنوعی گرانیت 3.3 توسط IBM

شرکت IBM از انتشار سری مدل‌های هوش مصنوعی گرانیت 3.3 خبر داد. مدل گرانیت Speech 3.3 8B، یک مدل تبدیل گفتار به متن (STT) که در تشخیص خودکار گفتار (ASR) و ترجمه خودکار گفتار (AST) سرآمد است، در کانون توجه قرار دارد.

این مدل STT بر اساس مدل زبانی بزرگ گرانیت 3.3 8B Instruct ساخته شده است و یک نسخه خواهر 2B نیز در دسترس است. این مدل دارای توانایی‌های استدلال بهبود یافته است. علاوه بر این، مدل‌های پایه آن، گرانیت 3.3 8B Base و گرانیت 3.3 2B Base نیز برای تنظیم دقیق توسط توسعه‌دهندگان در دسترس هستند.

همه مدل‌ها به صورت متن‌باز تحت مجوز آپاچی 2.0 منتشر شده‌اند.

گرانیت Speech 3.3 شامل یک رمزگذار گفتار، پروژه گفتار، یک LLM و آداپتورهای تطبیق رتبه پایین (LoRA) است.

این شرکت توضیح داد که مدل گفتار یک مدل فشرده و مقرون به صرفه صوتی به متن (و متن به متن) STT است که برای موارد استفاده سازمانی طراحی شده است. آنها اشاره کردند که گرانیت Speech 3.3 در هنگام آزمایش با مجموعه‌داده‌های عمومی قابل توجه، دقت بیشتری نسبت به رقبای مدل باز و بسته پیشرو ارائه می‌دهد.

همچنین، گرانیت Speech 3.3 8B در تست‌های محک، نرخ خطای کمتری را برای وظایف رونویسی به دست آورد.

نمودار مقایسه‌ای از معیارهای IBM در مقایسه با سایر مدل‌ها
معیارهای IBM در مقایسه با سایر مدل‌ها

این مدل همچنین ترجمه خودکار از انگلیسی به مجموعه‌ای متنوع از زبان‌ها، از جمله فرانسوی، اسپانیایی، ایتالیایی، آلمانی، پرتغالی، ژاپنی و ماندارین را ارائه می‌دهد و عملکردی همتراز با مدل‌های اختصاصی مانند GPT-4o OpenAI و Gemini 2.0 Flash Google در زبان‌های پشتیبانی شده به دست می‌آورد.

مقایسه معیارهای IBM با سایر مدل‌ها
مقایسه معیارهای IBM با سایر مدل‌ها در وظایف مختلف زبانی

برای کمک به بهبود برنامه‌های کاربردی مبتنی بر گرانیت، IBM آداپتورهای LoRA متمرکز بر تولید تقویت‌شده با بازیابی (retrieval-augmented generation) را برای گرانیت 3.2 8B Instruct منتشر کرده است که قبلاً منتشر شده بود. این آداپتورها را می‌توان در Hugging Face به عنوان بخشی از آزمایش‌های گرانیت (Granite Experiments) یافت.

IBM در بخشی از این اطلاعیه، به چندین زمینه برای بهبود اشاره کرد. در حال حاضر، رمزگذار صوتی برای مدل گفتار فقط از زبان انگلیسی پشتیبانی می‌کند، بنابراین آنها به دنبال پشتیبانی از رمزگذاری چند زبانه هستند.

این شرکت همچنین به اصلاحات دیگری مانند دستورالعمل‌های داده با داده‌های آموزشی با کیفیت بالاتر و یک ساختار واحد برای ادغام ویژگی‌های صوتی در مراحل آموزش اشاره کرد. این شرکت همچنین قصد دارد از قابلیت‌های تشخیص احساسات گفتاری (SER) پشتیبانی کند.

شرکت IBM اظهار داشت که در حال آموزش گرانیت 4.0، نسل جدیدی از مدل‌ها است که هدف آن دستیابی به دستاوردهای قابل توجه در سرعت، طول متن و ظرفیت است.