استارتاپ هوش مصنوعی کانادایی Cohere در سال 2019 راهاندازی شد که به طور خاص شرکتها را هدف قرار میداد، اما تحقیقات مستقل نشان داده است که تاکنون تلاش کرده است تا سهم زیادی از بازار را در میان توسعهدهندگان شخص ثالث در مقایسه با ارائهدهندگان مدل اختصاصی رقیب ایالات متحده مانند OpenAI و Anthropic به دست آورد، ناگفته نماند ظهور رقیب متنباز چینی DeepSeek.
با این حال Cohere به تقویت پیشنهادات خود ادامه میدهد: امروز، بخش تحقیقاتی غیرانتفاعی آن Cohere for AI از انتشار اولین مدل بینایی خود، Aya Vision، یک مدل هوش مصنوعی چندوجهی با وزن باز جدید که قابلیتهای زبان و بینایی را ادغام میکند و دارای تمایز پشتیبانی از ورودیها در 23 زبان مختلف است که به گفته Cohere در یک پست وبلاگ رسمی، "نیمی از جمعیت جهان" به آن صحبت میکنند، که آن را برای مخاطبان جهانی گسترده جذاب میکند.
Aya Vision برای افزایش توانایی هوش مصنوعی در تفسیر تصاویر، تولید متن و ترجمه محتوای بصری به زبان طبیعی طراحی شده است و هوش مصنوعی چند زبانه را در دسترس و مؤثرتر میکند. این امر به ویژه برای شرکتها و سازمانهایی که در بازارهای مختلف در سراسر جهان با ترجیحات زبانی متفاوت فعالیت میکنند مفید خواهد بود.
این مدل اکنون در وبسایت Cohere و در انجمنهای کد هوش مصنوعی Hugging Face و Kaggle تحت مجوز بینالمللی Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0) در دسترس است، که به محققان و توسعهدهندگان اجازه میدهد تا آزادانه از این مدل برای اهداف غیرتجاری استفاده، اصلاح و به اشتراک بگذارند، مشروط بر اینکه اسناد مناسب ارائه شود.
علاوه بر این، Aya Vision از طریق واتساپ نیز در دسترس است و به کاربران امکان میدهد مستقیماً در یک محیط آشنا با مدل تعامل داشته باشند.
متاسفانه، این امر استفاده از آن را برای شرکتها و به عنوان موتوری برای برنامههای پولی یا گردشهای کاری کسب درآمد محدود میکند.
این مدل در نسخههای 8 میلیارد و 32 میلیارد پارامتری ارائه میشود (پارامترها به تعداد تنظیمات داخلی در یک مدل هوش مصنوعی، از جمله وزنها و بایاسهای آن اشاره دارند، که معمولاً بیشتر بودن آن نشاندهنده یک مدل قدرتمندتر و با عملکرد بهتر است).
پشتیبانی از 23 زبان و شمارش
حتی اگر مدلهای هوش مصنوعی پیشرو از رقبا بتوانند متن را در چندین زبان درک کنند، گسترش این قابلیت به وظایف مبتنی بر بینایی یک چالش است.
اما Aya Vision با این امکان که کاربران میتوانند زیرنویسهای تصویر تولید کنند، به سؤالات بصری پاسخ دهند، تصاویر را ترجمه کنند و وظایف زبانی مبتنی بر متن را در مجموعهای متنوع از زبانها انجام دهند، بر این مشکل غلبه میکند:
1. انگلیسی
2. فرانسوی
3. آلمانی
4. اسپانیایی
5. ایتالیایی
6. پرتغالی
7. ژاپنی
8. کرهای
9. چینی
10. عربی
11. یونانی
12. فارسی
13. لهستانی
14. اندونزیایی
15. چکی
16. عبری
17. هندی
18. هلندی
19. رومانیایی
20. روسی
21. ترکی
22. اوکراینی
23. ویتنامی
Cohere در پست وبلاگ خود نشان داد که چگونه Aya Vision میتواند تصاویر و متن روی بستهبندی محصول را تجزیه و تحلیل کند و ترجمهها یا توضیحاتی ارائه دهد. همچنین میتواند سبکهای هنری از فرهنگهای مختلف را شناسایی و توصیف کند و به کاربران کمک کند تا از طریق درک بصری مبتنی بر هوش مصنوعی، درباره اشیاء و سنتها بیاموزند.
قابلیتهای Aya Vision پیامدهای گستردهای در زمینههای مختلف دارد:
• آموزش زبان و تحصیلات: کاربران میتوانند تصاویر را به چندین زبان ترجمه و توصیف کنند و محتوای آموزشی را در دسترستر کنند.
• حفظ فرهنگ: این مدل میتواند توضیحات دقیقی از هنر، نقاط دیدنی و آثار تاریخی تولید کند و از مستندسازی فرهنگی در زبانهای کمتر ارائه شده پشتیبانی کند.
• ابزارهای دسترسی: هوش مصنوعی مبتنی بر بینایی میتواند با ارائه توضیحات دقیق تصویر به زبان مادری خود به کاربران کمبینا کمک کند.
• ارتباطات جهانی: ترجمه چندوجهی در زمان واقعی، سازمانها و افراد را قادر میسازد تا به طور مؤثرتری در بین زبانها ارتباط برقرار کنند.
عملکرد قوی و راندمان بالا در بین معیارهای پیشرو
یکی از ویژگیهای برجسته Aya Vision، راندمان و عملکرد آن نسبت به اندازه مدل است. Aya Vision علیرغم اینکه بهطور قابلتوجهی کوچکتر از برخی از مدلهای چندوجهی پیشرو است، در چندین معیار کلیدی از جایگزینهای بسیار بزرگتر عملکرد بهتری داشته است.
• Aya Vision 8B از Llama 90B که 11 برابر بزرگتر است، بهتر عمل میکند.
• Aya Vision 32B از Qwen 72B، Llama 90B و Molmo 72B که همگی حداقل دو برابر بزرگتر هستند (یا بیشتر)، بهتر عمل میکند.
• نتایج محکزنی در AyaVisionBench و m-WildVision نشان میدهد که Aya Vision 8B به نرخ برد تا 79٪ و Aya Vision 32B به نرخ برد 72٪ در وظایف درک تصویر چند زبانه دست مییابد.
مقایسه بصری راندمان در مقابل عملکرد، مزیت Aya Vision را برجسته میکند. همانطور که در نمودار تبادل راندمان در مقابل عملکرد نشان داده شده است، Aya Vision 8B و 32B بهترین عملکرد را در کلاس خود نسبت به اندازه پارامتر خود نشان میدهند و در عین حفظ راندمان محاسباتی، از مدلهای بسیار بزرگتر عملکرد بهتری دارند.
نوآوریهای فناوری که Aya Vision را نیرو میبخشند
Cohere For AI دستاوردهای عملکرد Aya Vision را به چندین نوآوری کلیدی نسبت میدهد:
• حاشیهنویسیهای مصنوعی: این مدل از تولید دادههای مصنوعی برای افزایش آموزش در وظایف چندوجهی استفاده میکند.
• مقیاسبندی دادههای چند زبانه: با ترجمه و بازنویسی دادهها در بین زبانها، مدل درک گستردهتری از زمینههای چند زبانه به دست میآورد.
• ادغام مدل چندوجهی: تکنیکهای پیشرفته بینشهایی را از مدلهای بینایی و زبان ترکیب میکنند و عملکرد کلی را بهبود میبخشند.
این پیشرفتها به Aya Vision اجازه میدهد تا تصاویر و متن را با دقت بیشتری پردازش کند در حالی که قابلیتهای چند زبانه قوی را حفظ میکند.
نمودار بهبود عملکرد گام به گام نشان میدهد که چگونه نوآوریهای افزایشی، از جمله تنظیم دقیق مصنوعی (SFT)، ادغام مدل و مقیاسبندی، به نرخ برد بالای Aya Vision کمک کردهاند.
پیامدهای آن برای تصمیمگیرندگان سازمانی
علیرغم اینکه Aya Vision ظاهراً برای شرکتها در نظر گرفته شده است، کسبوکارها ممکن است به دلیل شرایط محدودکننده مجوز غیرتجاری آن، در استفاده زیاد از آن مشکل داشته باشند.
با این وجود، مدیران عامل، مدیران ارشد فناوری، رهبران فناوری اطلاعات و محققان هوش مصنوعی ممکن است از مدلها برای بررسی قابلیتهای چند زبانه و چندوجهی مبتنی بر هوش مصنوعی در سازمانهای خود استفاده کنند — به ویژه در تحقیق، نمونهسازی و محکزنی.
شرکتها همچنان میتوانند از آن برای تحقیق و توسعه داخلی، ارزیابی عملکرد هوش مصنوعی چند زبانه و آزمایش برنامههای چندوجهی استفاده کنند.
مدیران ارشد فناوری و تیمهای هوش مصنوعی Aya Vision را به عنوان یک مدل با وزن باز و بسیار کارآمد ارزشمند خواهند یافت که در عین نیاز به منابع محاسباتی کمتر، از جایگزینهای بسیار بزرگتر عملکرد بهتری دارد.
این امر آن را به ابزاری مفید برای محکزنی در برابر مدلهای اختصاصی، بررسی راهحلهای بالقوه مبتنی بر هوش مصنوعی و آزمایش تعاملات چندوجهی چند زبانه قبل از تعهد به یک استراتژی استقرار تجاری تبدیل میکند.
برای دانشمندان داده و محققان هوش مصنوعی، Aya Vision بسیار مفیدتر است.
ماهیت منبع باز و معیارهای دقیق آن، پایهای شفاف برای مطالعه رفتار مدل، تنظیم دقیق در تنظیمات غیرتجاری و مشارکت در پیشرفتهای هوش مصنوعی باز فراهم میکند.
Aya Vision چه برای تحقیقات داخلی، همکاریهای آکادمیک یا ارزیابیهای اخلاق هوش مصنوعی استفاده شود، به عنوان یک منبع پیشرفته برای شرکتهایی عمل میکند که به دنبال ماندن در خط مقدم هوش مصنوعی چند زبانه و چندوجهی هستند — بدون محدودیتهای مدلهای اختصاصی و منبع بسته.
تحقیق و همکاری متنباز
Aya Vision بخشی از Aya، یک ابتکار گستردهتر توسط Cohere است که بر ایجاد هوش مصنوعی و فناوریهای مرتبط چند زبانه بیشتر متمرکز است.
از زمان آغاز به کار در فوریه 2024، ابتکار Aya یک جامعه تحقیقاتی جهانی متشکل از بیش از 3000 محقق مستقل در 119 کشور را درگیر کرده است که با هم برای بهبود مدلهای هوش مصنوعی زبانی کار میکنند.
Cohere برای پیشبرد تعهد خود به علم باز، وزنهای باز را برای Aya Vision 8B و 32B در Kaggle و Hugging Face منتشر کرده است و اطمینان میدهد که محققان در سراسر جهان میتوانند به مدلها دسترسی داشته باشند و با آنها آزمایش کنند. علاوه بر این، Cohere For AI AyaVisionBenchmark را معرفی کرده است، یک مجموعه ارزیابی بینایی چند زبانه جدید که برای ارائه یک چارچوب ارزیابی دقیق برای هوش مصنوعی چندوجهی طراحی شده است.
در دسترس بودن Aya Vision به عنوان یک مدل با وزن باز، گام مهمی در ایجاد تحقیقات هوش مصنوعی چند زبانه فراگیرتر و در دسترستر است.
Aya Vision بر اساس موفقیت Aya Expanse، یکی دیگر از خانوادههای LLM از Cohere For AI که بر هوش مصنوعی چند زبانه متمرکز است، ساخته شده است. Cohere For AI با گسترش تمرکز خود به هوش مصنوعی چندوجهی، Aya Vision را به عنوان یک ابزار کلیدی برای محققان، توسعهدهندگان و کسبوکارهایی قرار میدهد که به دنبال ادغام هوش مصنوعی چند زبانه در گردشهای کاری خود هستند.
همانطور که ابتکار Aya به تکامل خود ادامه میدهد، Cohere For AI همچنین اعلام کرده است که قصد دارد در هفتههای آینده یک تلاش تحقیقاتی مشترک جدید راهاندازی کند. محققان و توسعهدهندگانی که علاقهمند به مشارکت در پیشرفتهای هوش مصنوعی چند زبانه هستند، میتوانند به جامعه علمی باز بپیوندند یا برای دریافت کمکهای مالی تحقیق درخواست دهند.
در حال حاضر، انتشار Aya Vision نشاندهنده یک جهش قابلتوجه در هوش مصنوعی چندوجهی چند زبانه است و یک راهحل با عملکرد بالا و وزن باز ارائه میدهد که سلطه مدلهای بزرگتر و منبع بسته را به چالش میکشد. Cohere For AI با در دسترس قرار دادن این پیشرفتها برای جامعه تحقیقاتی گستردهتر، به گسترش مرزهای آنچه در ارتباطات چند زبانه مبتنی بر هوش مصنوعی امکانپذیر است، ادامه میدهد.