انتشار مدل Command A شرکت کوهیِر: یک مدل هوش مصنوعی ۱۱۱ میلیارد پارامتری با طول متن ۲۵۶K، پشتیبانی از ۲۳ زبان و کاهش ۵۰ درصدی هزینه برای شرکت‌ها

مدل‌های زبانی بزرگ (LLM) به طور گسترده برای هوش مصنوعی مکالمه‌ای، تولید محتوا و اتوماسیون سازمانی استفاده می‌شوند. با این حال، ایجاد تعادل بین عملکرد و کارایی محاسباتی یک چالش کلیدی در این زمینه است. بسیاری از مدل‌های پیشرفته به منابع سخت‌افزاری گسترده‌ای نیاز دارند که استفاده از آن‌ها را برای شرکت‌های کوچک‌تر غیرعملی می‌کند. تقاضا برای راهکارهای هوش مصنوعی مقرون‌به‌صرفه، محققان را به توسعه مدل‌هایی سوق داده است که عملکرد بالایی با نیازهای محاسباتی کمتری ارائه می‌دهند.

آموزش و استقرار مدل‌های هوش مصنوعی چالش‌هایی را برای محققان و کسب‌وکارها ایجاد می‌کند. مدل‌های بزرگ‌مقیاس به توان محاسباتی قابل توجهی نیاز دارند و نگهداری از آن‌ها پرهزینه است. همچنین، مدل‌های هوش مصنوعی باید وظایف چندزبانه را انجام دهند، از دقت بالای پیروی از دستورالعمل‌ها اطمینان حاصل کنند و از برنامه‌های کاربردی سازمانی مانند تجزیه و تحلیل داده‌ها، اتوماسیون و کدنویسی پشتیبانی کنند. راهکارهای فعلی بازار، اگرچه مؤثر هستند، اما اغلب به زیرساخت‌هایی فراتر از دسترس بسیاری از شرکت‌ها نیاز دارند. چالش این است که مدل‌های هوش مصنوعی را برای بازدهی پردازش بهینه کنیم، بدون اینکه دقت یا عملکرد را به خطر بیندازیم.

در حال حاضر چندین مدل هوش مصنوعی بر بازار تسلط دارند، از جمله GPT-4o و DeepSeek-V3. این مدل‌ها در پردازش و تولید زبان طبیعی برتری دارند، اما به سخت‌افزار پیشرفته‌ای نیاز دارند و گاهی اوقات برای عملکرد مؤثر به حداکثر ۳۲ پردازنده گرافیکی (GPU) نیاز دارند. در حالی که آن‌ها قابلیت‌های پیشرفته‌ای در تولید متن، پشتیبانی چندزبانه و کدنویسی ارائه می‌دهند، وابستگی‌های سخت‌افزاری آن‌ها دسترسی را محدود می‌کند. برخی از مدل‌ها نیز با دقت پیروی از دستورالعمل‌ها در سطح سازمانی و ادغام ابزارها مشکل دارند. کسب‌وکارها به راهکارهای هوش مصنوعی نیاز دارند که عملکرد رقابتی را حفظ کنند و در عین حال هزینه‌های زیرساخت و استقرار را به حداقل برسانند. این تقاضا، تلاش‌ها برای بهینه‌سازی مدل‌های زبانی برای عملکرد با حداقل نیازهای سخت‌افزاری را هدایت کرده است.

محققان شرکت کوهیِر مدل Command A را معرفی کردند، یک مدل هوش مصنوعی با عملکرد بالا که به طور خاص برای برنامه‌های کاربردی سازمانی که نیاز به حداکثر کارایی دارند طراحی شده است. برخلاف مدل‌های مرسوم که به منابع محاسباتی زیادی نیاز دارند، Command A تنها بر روی دو پردازنده گرافیکی (GPU) کار می‌کند و در عین حال عملکرد رقابتی را حفظ می‌کند. این مدل از ۱۱۱ میلیارد پارامتر تشکیل شده است و از طول متن ۲۵۶K پشتیبانی می‌کند، که آن را برای برنامه‌های کاربردی سازمانی که شامل پردازش اسناد طولانی هستند، مناسب می‌سازد. توانایی آن در رسیدگی کارآمد به وظایف عامل‌محور و چندزبانه حیاتی برای کسب‌وکار، آن را از مدل‌های قبلی متمایز می‌کند. این مدل برای ارائه تولید متن با کیفیت بالا و در عین حال کاهش هزینه‌های عملیاتی بهینه شده است، که آن را به یک جایگزین مقرون‌به‌صرفه برای کسب‌وکارهایی تبدیل می‌کند که قصد دارند از هوش مصنوعی برای برنامه‌های کاربردی مختلف استفاده کنند.

فناوری زیربنایی Command A حول یک معماری ترانسفورمر بهینه شده ساختار یافته است که شامل سه لایه توجه پنجره کشویی است که هر کدام دارای اندازه پنجره ۴۰۹۶ توکن هستند. این مکانیسم مدل‌سازی زمینه محلی را افزایش می‌دهد و به مدل اجازه می‌دهد جزئیات مهم را در ورودی‌های متنی گسترده حفظ کند. لایه چهارم شامل توجه جهانی بدون تعبیه‌های موقعیتی است که تعاملات نامحدود توکن را در کل دنباله امکان‌پذیر می‌سازد. تنظیم دقیق نظارت شده و آموزش ترجیحی مدل، توانایی آن را برای همسویی پاسخ‌ها با انتظارات انسانی در مورد دقت، ایمنی و مفید بودن بیشتر بهبود می‌بخشد. همچنین، Command A از ۲۳ زبان پشتیبانی می‌کند، که آن را به یکی از همه‌کاره‌ترین مدل‌های هوش مصنوعی برای کسب‌وکارها با عملیات جهانی تبدیل می‌کند. قابلیت‌های چت آن برای رفتار تعاملی از پیش پیکربندی شده است و برنامه‌های کاربردی هوش مصنوعی مکالمه‌ای یکپارچه را امکان‌پذیر می‌سازد.

معماری Command A
<a href="https://cohere.com/blog/command-a"><strong>منبع تصویر</strong></a>

ارزیابی‌های عملکرد نشان می‌دهد که Command A در مقایسه با مدل‌های هوش مصنوعی پیشرو مانند GPT-4o و DeepSeek-V3 در معیارهای مختلف متمرکز بر شرکت، عملکرد مطلوبی دارد. این مدل به نرخ تولید توکن ۱۵۶ توکن در ثانیه دست می‌یابد که ۱.۷۵ برابر بیشتر از GPT-4o و ۲.۴ برابر بیشتر از DeepSeek-V3 است، و آن را به یکی از کارآمدترین مدل‌های موجود تبدیل می‌کند. از نظر بهره‌وری هزینه، استقرارهای خصوصی Command A تا ۵۰٪ ارزان‌تر از جایگزین‌های مبتنی بر API هستند، که به طور قابل توجهی بار مالی بر کسب‌وکارها را کاهش می‌دهد. Command A همچنین در وظایف پیروی از دستورالعمل‌ها، پرس و جوهای مبتنی بر SQL و برنامه‌های کاربردی تولید افزوده شده با بازیابی (RAG) برتری دارد. این مدل دقت بالایی را در ارزیابی‌های داده‌های سازمانی دنیای واقعی نشان داده است و از رقبای خود در موارد استفاده تجاری چندزبانه عملکرد بهتری داشته است.

در مقایسه مستقیم عملکرد وظایف سازمانی، نتایج ارزیابی انسانی نشان می‌دهد که Command A به طور مداوم از رقبای خود در روان بودن، وفاداری و سودمندی پاسخ عملکرد بهتری دارد. قابلیت‌های آماده برای شرکت این مدل شامل تولید افزوده شده با بازیابی قوی با استنادهای قابل تأیید، استفاده از ابزار عامل پیشرفته و اقدامات امنیتی سطح بالا برای محافظت از داده‌های حساس تجاری است. قابلیت‌های چندزبانه آن فراتر از ترجمه ساده است و مهارت برتری در پاسخگویی دقیق در گویش‌های خاص منطقه را نشان می‌دهد. به عنوان مثال، ارزیابی‌های گویش‌های عربی، از جمله عربی مصری، سعودی، سوری و مراکشی، نشان داد که Command A پاسخ‌های دقیق‌تر و متناسب با زمینه را نسبت به مدل‌های هوش مصنوعی پیشرو ارائه می‌دهد. این نتایج بر کاربرد قوی آن در محیط‌های سازمانی جهانی که تنوع زبانی در آن بسیار مهم است، تأکید می‌کند.

عملکرد Command A
<a href="https://cohere.com/blog/command-a"><strong>منبع تصویر</strong></a>

چند نکته کلیدی از این تحقیق عبارتند از:

  1. Command A تنها بر روی دو پردازنده گرافیکی (GPU) کار می‌کند و در عین حال عملکرد بالایی را حفظ می‌کند.
  2. این مدل با ۱۱۱ میلیارد پارامتر برای برنامه‌های کاربردی در مقیاس سازمانی که نیاز به پردازش متن گسترده دارند، بهینه شده است.
  3. این مدل از طول متن ۲۵۶K پشتیبانی می‌کند و آن را قادر می‌سازد اسناد سازمانی طولانی‌تر را مؤثرتر از مدل‌های رقیب پردازش کند.
  4. Command A بر روی ۲۳ زبان آموزش داده شده است و دقت بالا و ارتباط متنی را برای کسب‌وکارهای جهانی تضمین می‌کند.
  5. این مدل به نرخ تولید ۱۵۶ توکن در ثانیه دست می‌یابد که ۱.۷۵ برابر بیشتر از GPT-4o و ۲.۴ برابر بیشتر از DeepSeek-V3 است.
  6. این مدل به طور مداوم از رقبا در ارزیابی‌های سازمانی دنیای واقعی عملکرد بهتری دارد و در وظایف مبتنی بر SQL، عامل و ابزار برتری دارد.
  7. قابلیت‌های پیشرفته RAG با استنادهای قابل تأیید، آن را برای برنامه‌های کاربردی بازیابی اطلاعات سازمانی بسیار مناسب می‌سازد.
  8. استقرارهای خصوصی Command A می‌تواند تا ۵۰٪ ارزان‌تر از مدل‌های مبتنی بر API باشد.
  9. این مدل شامل ویژگی‌های امنیتی درجه سازمانی است که از رسیدگی ایمن به داده‌های حساس تجاری اطمینان می‌دهد.
  10. مهارت بالایی در گویش‌های منطقه‌ای نشان می‌دهد و آن را برای کسب‌وکارهایی که در مناطق با تنوع زبانی فعالیت می‌کنند، ایده‌آل می‌سازد.

مدل را در Hugging Face بررسی کنید. اعتبار این تحقیق متعلق به محققان این پروژه است. همچنین، می‌توانید ما را در توییتر دنبال کنید و فراموش نکنید که به ساب‌ردیت ۸۰k+ ML ما بپیوندید.