شرکت هوش مصنوعی Sesame مدل پایه ای را منتشر کرده است که Maya، دستیار صوتی به طرز چشمگیری واقعی را پشتیبانی می کند.
این مدل، که اندازه آن 1 میلیارد پارامتر است ("پارامترها" به اجزای منفرد مدل اشاره دارد)، تحت مجوز Apache 2.0 است، به این معنی که می توان از آن به صورت تجاری با محدودیت های کمی استفاده کرد. به گفته توضیحات Sesame در پلتفرم توسعه هوش مصنوعی Hugging Face، این مدل که CSM-1B نام دارد، "کدهای صوتی RVQ" را از ورودی های متن و صدا تولید می کند.
RVQ به "کمی سازی بردار باقیمانده" اشاره دارد، تکنیکی برای رمزگذاری صدا به نشانه های گسسته به نام کد. RVQ در تعدادی از فناوری های صوتی هوش مصنوعی اخیر، از جمله SoundStream گوگل و Encodec متا استفاده می شود.
CSM-1B از مدلی از خانواده Llama متا به عنوان ستون فقرات خود به همراه یک جزء "رمزگشا" صوتی استفاده می کند. Sesame می گوید که یک نوع تنظیم شده از CSM، Maya را تامین می کند.
Sesame در مخازن Hugging Face و GitHub CSM-1B می نویسد: "مدل منبع باز در اینجا یک مدل تولید پایه است." "این قابلیت تولید صداهای مختلف را دارد، اما روی هیچ صدای خاصی تنظیم نشده است [...] این مدل به دلیل آلودگی داده ها در داده های آموزشی، ظرفیت محدودی برای زبان های غیر انگلیسی دارد، اما احتمالاً عملکرد خوبی نخواهد داشت."
مشخص نیست که Sesame از چه داده ای برای آموزش CSM-1B استفاده کرده است. این شرکت چیزی نگفت.
شایان ذکر است که این مدل هیچ حفاظ واقعی برای صحبت کردن ندارد. Sesame یک سیستم افتخاری دارد و صرفاً از توسعه دهندگان و کاربران می خواهد که از این مدل برای تقلید صدای شخص بدون رضایت او، ایجاد محتوای گمراه کننده مانند اخبار جعلی یا شرکت در فعالیت های "مضر" یا "مخرب" استفاده نکنند.
من نسخه ی نمایشی را در Hugging Face امتحان کردم، و شبیه سازی صدای من کمتر از یک دقیقه طول کشید. از آنجا، تولید گفتار به دلخواه من آسان بود، از جمله در مورد موضوعات بحث برانگیزی مانند انتخابات و تبلیغات روسیه.
گزارش های مصرف کننده اخیراً هشدار داده اند که بسیاری از ابزارهای شبیه سازی صدای مجهز به هوش مصنوعی محبوب در بازار حفاظت های "معناداری" برای جلوگیری از تقلب یا سوء استفاده ندارند.
Sesame، که توسط Brendan Iribe، یکی از بنیانگذاران Oculus، تأسیس شد، در اواخر فوریه به دلیل فناوری دستیار خود، که نزدیک به پاکسازی قلمرو دره ناخوشایند است، وایرال شد. مایا و سایر دستیارهای Sesame، Miles، نفس می کشند و با ناروانی صحبت می کنند و می توانند هنگام صحبت کردن قطع شوند، مانند حالت صوتی OpenAI.