شرکت IBM از انتشار سری مدلهای هوش مصنوعی گرانیت 3.3 خبر داد. مدل گرانیت Speech 3.3 8B، یک مدل تبدیل گفتار به متن (STT) که در تشخیص خودکار گفتار (ASR) و ترجمه خودکار گفتار (AST) سرآمد است، در کانون توجه قرار دارد.
این مدل STT بر اساس مدل زبانی بزرگ گرانیت 3.3 8B Instruct ساخته شده است و یک نسخه خواهر 2B نیز در دسترس است. این مدل دارای تواناییهای استدلال بهبود یافته است. علاوه بر این، مدلهای پایه آن، گرانیت 3.3 8B Base و گرانیت 3.3 2B Base نیز برای تنظیم دقیق توسط توسعهدهندگان در دسترس هستند.
همه مدلها به صورت متنباز تحت مجوز آپاچی 2.0 منتشر شدهاند.
گرانیت Speech 3.3 شامل یک رمزگذار گفتار، پروژه گفتار، یک LLM و آداپتورهای تطبیق رتبه پایین (LoRA) است.
این شرکت توضیح داد که مدل گفتار یک مدل فشرده و مقرون به صرفه صوتی به متن (و متن به متن) STT است که برای موارد استفاده سازمانی طراحی شده است. آنها اشاره کردند که گرانیت Speech 3.3 در هنگام آزمایش با مجموعهدادههای عمومی قابل توجه، دقت بیشتری نسبت به رقبای مدل باز و بسته پیشرو ارائه میدهد.
همچنین، گرانیت Speech 3.3 8B در تستهای محک، نرخ خطای کمتری را برای وظایف رونویسی به دست آورد.
این مدل همچنین ترجمه خودکار از انگلیسی به مجموعهای متنوع از زبانها، از جمله فرانسوی، اسپانیایی، ایتالیایی، آلمانی، پرتغالی، ژاپنی و ماندارین را ارائه میدهد و عملکردی همتراز با مدلهای اختصاصی مانند GPT-4o OpenAI و Gemini 2.0 Flash Google در زبانهای پشتیبانی شده به دست میآورد.
برای کمک به بهبود برنامههای کاربردی مبتنی بر گرانیت، IBM آداپتورهای LoRA متمرکز بر تولید تقویتشده با بازیابی (retrieval-augmented generation) را برای گرانیت 3.2 8B Instruct منتشر کرده است که قبلاً منتشر شده بود. این آداپتورها را میتوان در Hugging Face به عنوان بخشی از آزمایشهای گرانیت (Granite Experiments) یافت.
IBM در بخشی از این اطلاعیه، به چندین زمینه برای بهبود اشاره کرد. در حال حاضر، رمزگذار صوتی برای مدل گفتار فقط از زبان انگلیسی پشتیبانی میکند، بنابراین آنها به دنبال پشتیبانی از رمزگذاری چند زبانه هستند.
این شرکت همچنین به اصلاحات دیگری مانند دستورالعملهای داده با دادههای آموزشی با کیفیت بالاتر و یک ساختار واحد برای ادغام ویژگیهای صوتی در مراحل آموزش اشاره کرد. این شرکت همچنین قصد دارد از قابلیتهای تشخیص احساسات گفتاری (SER) پشتیبانی کند.
شرکت IBM اظهار داشت که در حال آموزش گرانیت 4.0، نسل جدیدی از مدلها است که هدف آن دستیابی به دستاوردهای قابل توجه در سرعت، طول متن و ظرفیت است.