اولین مدل بینایی Cohere، Aya Vision، با درک گسترده چند زبانه و وزن‌های باز از راه رسید — اما یک مشکل وجود دارد

استارتاپ هوش مصنوعی کانادایی Cohere در سال 2019 راه‌اندازی شد که به طور خاص شرکت‌ها را هدف قرار می‌داد، اما تحقیقات مستقل نشان داده است که تاکنون تلاش کرده است تا سهم زیادی از بازار را در میان توسعه‌دهندگان شخص ثالث در مقایسه با ارائه‌دهندگان مدل اختصاصی رقیب ایالات متحده مانند OpenAI و Anthropic به دست آورد، ناگفته نماند ظهور رقیب متن‌باز چینی DeepSeek.

با این حال Cohere به تقویت پیشنهادات خود ادامه می‌دهد: امروز، بخش تحقیقاتی غیرانتفاعی آن Cohere for AI از انتشار اولین مدل بینایی خود، Aya Vision، یک مدل هوش مصنوعی چندوجهی با وزن باز جدید که قابلیت‌های زبان و بینایی را ادغام می‌کند و دارای تمایز پشتیبانی از ورودی‌ها در 23 زبان مختلف است که به گفته Cohere در یک پست وبلاگ رسمی، "نیمی از جمعیت جهان" به آن صحبت می‌کنند، که آن را برای مخاطبان جهانی گسترده جذاب می‌کند.

Aya Vision برای افزایش توانایی هوش مصنوعی در تفسیر تصاویر، تولید متن و ترجمه محتوای بصری به زبان طبیعی طراحی شده است و هوش مصنوعی چند زبانه را در دسترس و مؤثرتر می‌کند. این امر به ویژه برای شرکت‌ها و سازمان‌هایی که در بازارهای مختلف در سراسر جهان با ترجیحات زبانی متفاوت فعالیت می‌کنند مفید خواهد بود.

این مدل اکنون در وب‌سایت Cohere و در انجمن‌های کد هوش مصنوعی Hugging Face و Kaggle تحت مجوز بین‌المللی Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0) در دسترس است، که به محققان و توسعه‌دهندگان اجازه می‌دهد تا آزادانه از این مدل برای اهداف غیرتجاری استفاده، اصلاح و به اشتراک بگذارند، مشروط بر اینکه اسناد مناسب ارائه شود.

علاوه بر این، Aya Vision از طریق واتس‌اپ نیز در دسترس است و به کاربران امکان می‌دهد مستقیماً در یک محیط آشنا با مدل تعامل داشته باشند.

متاسفانه، این امر استفاده از آن را برای شرکت‌ها و به عنوان موتوری برای برنامه‌های پولی یا گردش‌های کاری کسب درآمد محدود می‌کند.

این مدل در نسخه‌های 8 میلیارد و 32 میلیارد پارامتری ارائه می‌شود (پارامترها به تعداد تنظیمات داخلی در یک مدل هوش مصنوعی، از جمله وزن‌ها و بایاس‌های آن اشاره دارند، که معمولاً بیشتر بودن آن نشان‌دهنده یک مدل قدرتمندتر و با عملکرد بهتر است).

پشتیبانی از 23 زبان و شمارش

حتی اگر مدل‌های هوش مصنوعی پیشرو از رقبا بتوانند متن را در چندین زبان درک کنند، گسترش این قابلیت به وظایف مبتنی بر بینایی یک چالش است.

اما Aya Vision با این امکان که کاربران می‌توانند زیرنویس‌های تصویر تولید کنند، به سؤالات بصری پاسخ دهند، تصاویر را ترجمه کنند و وظایف زبانی مبتنی بر متن را در مجموعه‌ای متنوع از زبان‌ها انجام دهند، بر این مشکل غلبه می‌کند:

1. انگلیسی

2. فرانسوی

3. آلمانی

4. اسپانیایی

5. ایتالیایی

6. پرتغالی

7. ژاپنی

8. کره‌ای

9. چینی

10. عربی

11. یونانی

12. فارسی

13. لهستانی

14. اندونزیایی

15. چکی

16. عبری

17. هندی

18. هلندی

19. رومانیایی

20. روسی

21. ترکی

22. اوکراینی

23. ویتنامی

Cohere در پست وبلاگ خود نشان داد که چگونه Aya Vision می‌تواند تصاویر و متن روی بسته‌بندی محصول را تجزیه و تحلیل کند و ترجمه‌ها یا توضیحاتی ارائه دهد. همچنین می‌تواند سبک‌های هنری از فرهنگ‌های مختلف را شناسایی و توصیف کند و به کاربران کمک کند تا از طریق درک بصری مبتنی بر هوش مصنوعی، درباره اشیاء و سنت‌ها بیاموزند.

قابلیت‌های Aya Vision پیامدهای گسترده‌ای در زمینه‌های مختلف دارد:

• آموزش زبان و تحصیلات: کاربران می‌توانند تصاویر را به چندین زبان ترجمه و توصیف کنند و محتوای آموزشی را در دسترس‌تر کنند.

• حفظ فرهنگ: این مدل می‌تواند توضیحات دقیقی از هنر، نقاط دیدنی و آثار تاریخی تولید کند و از مستندسازی فرهنگی در زبان‌های کم‌تر ارائه شده پشتیبانی کند.

• ابزارهای دسترسی: هوش مصنوعی مبتنی بر بینایی می‌تواند با ارائه توضیحات دقیق تصویر به زبان مادری خود به کاربران کم‌بینا کمک کند.

• ارتباطات جهانی: ترجمه چندوجهی در زمان واقعی، سازمان‌ها و افراد را قادر می‌سازد تا به طور مؤثرتری در بین زبان‌ها ارتباط برقرار کنند.

عملکرد قوی و راندمان بالا در بین معیارهای پیشرو

یکی از ویژگی‌های برجسته Aya Vision، راندمان و عملکرد آن نسبت به اندازه مدل است. Aya Vision علی‌رغم این‌که به‌طور قابل‌توجهی کوچک‌تر از برخی از مدل‌های چندوجهی پیشرو است، در چندین معیار کلیدی از جایگزین‌های بسیار بزرگ‌تر عملکرد بهتری داشته است.

• Aya Vision 8B از Llama 90B که 11 برابر بزرگ‌تر است، بهتر عمل می‌کند.

• Aya Vision 32B از Qwen 72B، Llama 90B و Molmo 72B که همگی حداقل دو برابر بزرگ‌تر هستند (یا بیشتر)، بهتر عمل می‌کند.

• نتایج محک‌زنی در AyaVisionBench و m-WildVision نشان می‌دهد که Aya Vision 8B به نرخ برد تا 79٪ و Aya Vision 32B به نرخ برد 72٪ در وظایف درک تصویر چند زبانه دست می‌یابد.

مقایسه بصری راندمان در مقابل عملکرد، مزیت Aya Vision را برجسته می‌کند. همانطور که در نمودار تبادل راندمان در مقابل عملکرد نشان داده شده است، Aya Vision 8B و 32B بهترین عملکرد را در کلاس خود نسبت به اندازه پارامتر خود نشان می‌دهند و در عین حفظ راندمان محاسباتی، از مدل‌های بسیار بزرگ‌تر عملکرد بهتری دارند.

نوآوری‌های فناوری که Aya Vision را نیرو می‌بخشند

Cohere For AI دستاوردهای عملکرد Aya Vision را به چندین نوآوری کلیدی نسبت می‌دهد:

• حاشیه‌نویسی‌های مصنوعی: این مدل از تولید داده‌های مصنوعی برای افزایش آموزش در وظایف چندوجهی استفاده می‌کند.

• مقیاس‌بندی داده‌های چند زبانه: با ترجمه و بازنویسی داده‌ها در بین زبان‌ها، مدل درک گسترده‌تری از زمینه‌های چند زبانه به دست می‌آورد.

• ادغام مدل چندوجهی: تکنیک‌های پیشرفته بینش‌هایی را از مدل‌های بینایی و زبان ترکیب می‌کنند و عملکرد کلی را بهبود می‌بخشند.

این پیشرفت‌ها به Aya Vision اجازه می‌دهد تا تصاویر و متن را با دقت بیشتری پردازش کند در حالی که قابلیت‌های چند زبانه قوی را حفظ می‌کند.

نمودار بهبود عملکرد گام به گام نشان می‌دهد که چگونه نوآوری‌های افزایشی، از جمله تنظیم دقیق مصنوعی (SFT)، ادغام مدل و مقیاس‌بندی، به نرخ برد بالای Aya Vision کمک کرده‌اند.

پیامدهای آن برای تصمیم‌گیرندگان سازمانی

علی‌رغم اینکه Aya Vision ظاهراً برای شرکت‌ها در نظر گرفته شده است، کسب‌وکارها ممکن است به دلیل شرایط محدودکننده مجوز غیرتجاری آن، در استفاده زیاد از آن مشکل داشته باشند.

با این وجود، مدیران عامل، مدیران ارشد فناوری، رهبران فناوری اطلاعات و محققان هوش مصنوعی ممکن است از مدل‌ها برای بررسی قابلیت‌های چند زبانه و چندوجهی مبتنی بر هوش مصنوعی در سازمان‌های خود استفاده کنند — به ویژه در تحقیق، نمونه‌سازی و محک‌زنی.

شرکت‌ها همچنان می‌توانند از آن برای تحقیق و توسعه داخلی، ارزیابی عملکرد هوش مصنوعی چند زبانه و آزمایش برنامه‌های چندوجهی استفاده کنند.

مدیران ارشد فناوری و تیم‌های هوش مصنوعی Aya Vision را به عنوان یک مدل با وزن باز و بسیار کارآمد ارزشمند خواهند یافت که در عین نیاز به منابع محاسباتی کم‌تر، از جایگزین‌های بسیار بزرگ‌تر عملکرد بهتری دارد.

این امر آن را به ابزاری مفید برای محک‌زنی در برابر مدل‌های اختصاصی، بررسی راه‌حل‌های بالقوه مبتنی بر هوش مصنوعی و آزمایش تعاملات چندوجهی چند زبانه قبل از تعهد به یک استراتژی استقرار تجاری تبدیل می‌کند.

برای دانشمندان داده و محققان هوش مصنوعی، Aya Vision بسیار مفیدتر است.

ماهیت منبع باز و معیارهای دقیق آن، پایه‌ای شفاف برای مطالعه رفتار مدل، تنظیم دقیق در تنظیمات غیرتجاری و مشارکت در پیشرفت‌های هوش مصنوعی باز فراهم می‌کند.

Aya Vision چه برای تحقیقات داخلی، همکاری‌های آکادمیک یا ارزیابی‌های اخلاق هوش مصنوعی استفاده شود، به عنوان یک منبع پیشرفته برای شرکت‌هایی عمل می‌کند که به دنبال ماندن در خط مقدم هوش مصنوعی چند زبانه و چندوجهی هستند — بدون محدودیت‌های مدل‌های اختصاصی و منبع بسته.

تحقیق و همکاری متن‌باز

Aya Vision بخشی از Aya، یک ابتکار گسترده‌تر توسط Cohere است که بر ایجاد هوش مصنوعی و فناوری‌های مرتبط چند زبانه بیشتر متمرکز است.

از زمان آغاز به کار در فوریه 2024، ابتکار Aya یک جامعه تحقیقاتی جهانی متشکل از بیش از 3000 محقق مستقل در 119 کشور را درگیر کرده است که با هم برای بهبود مدل‌های هوش مصنوعی زبانی کار می‌کنند.

Cohere برای پیشبرد تعهد خود به علم باز، وزن‌های باز را برای Aya Vision 8B و 32B در Kaggle و Hugging Face منتشر کرده است و اطمینان می‌دهد که محققان در سراسر جهان می‌توانند به مدل‌ها دسترسی داشته باشند و با آن‌ها آزمایش کنند. علاوه بر این، Cohere For AI AyaVisionBenchmark را معرفی کرده است، یک مجموعه ارزیابی بینایی چند زبانه جدید که برای ارائه یک چارچوب ارزیابی دقیق برای هوش مصنوعی چندوجهی طراحی شده است.

در دسترس بودن Aya Vision به عنوان یک مدل با وزن باز، گام مهمی در ایجاد تحقیقات هوش مصنوعی چند زبانه فراگیرتر و در دسترس‌تر است.

Aya Vision بر اساس موفقیت Aya Expanse، یکی دیگر از خانواده‌های LLM از Cohere For AI که بر هوش مصنوعی چند زبانه متمرکز است، ساخته شده است. Cohere For AI با گسترش تمرکز خود به هوش مصنوعی چندوجهی، Aya Vision را به عنوان یک ابزار کلیدی برای محققان، توسعه‌دهندگان و کسب‌وکارهایی قرار می‌دهد که به دنبال ادغام هوش مصنوعی چند زبانه در گردش‌های کاری خود هستند.

همانطور که ابتکار Aya به تکامل خود ادامه می‌دهد، Cohere For AI همچنین اعلام کرده است که قصد دارد در هفته‌های آینده یک تلاش تحقیقاتی مشترک جدید راه‌اندازی کند. محققان و توسعه‌دهندگانی که علاقه‌مند به مشارکت در پیشرفت‌های هوش مصنوعی چند زبانه هستند، می‌توانند به جامعه علمی باز بپیوندند یا برای دریافت کمک‌های مالی تحقیق درخواست دهند.

در حال حاضر، انتشار Aya Vision نشان‌دهنده یک جهش قابل‌توجه در هوش مصنوعی چندوجهی چند زبانه است و یک راه‌حل با عملکرد بالا و وزن باز ارائه می‌دهد که سلطه مدل‌های بزرگ‌تر و منبع بسته را به چالش می‌کشد. Cohere For AI با در دسترس قرار دادن این پیشرفت‌ها برای جامعه تحقیقاتی گسترده‌تر، به گسترش مرزهای آنچه در ارتباطات چند زبانه مبتنی بر هوش مصنوعی امکان‌پذیر است، ادامه می‌دهد.

https://venturebeat.com/ai/coheres-first-vision-model-aya-vision-is-here-with-broad-multilingual-understanding-and-open-weights-but-theres-a-catch/