انتشار Gemma 3 توسط گوگل: مدل‌های متن‌باز سبک و چندوجهی برای هوش مصنوعی کارآمد و درون‌دستگاهی

در حوزه هوش مصنوعی، دو چالش همیشگی همچنان باقی مانده‌اند. بسیاری از مدل‌های زبانی پیشرفته به منابع محاسباتی قابل توجهی نیاز دارند که استفاده از آن‌ها را توسط سازمان‌های کوچک‌تر و توسعه‌دهندگان منفرد محدود می‌کند. علاوه بر این، حتی زمانی که این مدل‌ها در دسترس هستند، تأخیر و اندازه آن‌ها اغلب باعث می‌شود برای استقرار در دستگاه‌های روزمره مانند لپ‌تاپ یا تلفن‌های هوشمند نامناسب باشند. همچنین نیاز مداومی به اطمینان از عملکرد ایمن این مدل‌ها، با ارزیابی‌های مناسب ریسک و حفاظت‌های داخلی وجود دارد. این چالش‌ها انگیزه جستجو برای مدل‌هایی را داده‌اند که هم کارآمد و هم به طور گسترده قابل دسترسی باشند، بدون اینکه عملکرد یا امنیت را به خطر بیندازند.

انتشار Gemma 3 توسط گوگل: مجموعه‌ای از مدل‌های متن‌باز

گوگل دیپ‌مایند (Google DeepMind) Gemma 3 را معرفی کرده است—خانواده‌ای از مدل‌های متن‌باز که برای رفع این چالش‌ها طراحی شده‌اند. Gemma 3 که با فناوری مشابه فناوری مورد استفاده برای Gemini 2.0 توسعه یافته است، برای اجرای کارآمد بر روی یک پردازنده گرافیکی (GPU) یا واحد پردازش تانسور (TPU) طراحی شده است. این مدل‌ها در اندازه‌های مختلف - 1B، 4B، 12B و 27B - با گزینه‌هایی برای انواع از پیش آموزش داده شده و تنظیم شده با دستورالعمل در دسترس هستند. این محدوده به کاربران این امکان را می‌دهد تا مدلی را انتخاب کنند که به بهترین وجه با سخت‌افزار و نیازهای کاربردی خاص آن‌ها مطابقت دارد و ادغام هوش مصنوعی در پروژه‌هایشان را برای جامعه وسیع‌تری آسان‌تر می‌کند.

نوآوری‌های فنی و مزایای کلیدی

Gemma 3 برای ارائه مزایای عملی در چندین زمینه کلیدی ساخته شده است:

کارایی و قابلیت حمل: این مدل‌ها به گونه‌ای طراحی شده‌اند که به سرعت بر روی سخت‌افزار متوسط عمل کنند. به عنوان مثال، نسخه 27B عملکرد قوی در ارزیابی‌ها نشان داده است، در حالی که هنوز قادر به اجرا بر روی یک پردازنده گرافیکی است.
قابلیت‌های چندوجهی و چند زبانه: مدل‌های 4B، 12B و 27B قادر به پردازش متن و تصاویر هستند که برنامه‌هایی را قادر می‌سازد که بتوانند محتوای بصری و همچنین زبان را تجزیه و تحلیل کنند. علاوه بر این، این مدل‌ها از بیش از 140 زبان پشتیبانی می‌کنند که برای خدمت رسانی به مخاطبان متنوع جهانی مفید است.
پنجره زمینه گسترده: Gemma 3 با پنجره زمینه 128000 توکن (و 32000 توکن برای مدل 1B)، برای کارهایی که نیاز به پردازش حجم زیادی از اطلاعات دارند، مانند خلاصه‌سازی اسناد طولانی یا مدیریت مکالمات طولانی، مناسب است.
تکنیک‌های آموزش پیشرفته: فرآیند آموزش شامل یادگیری تقویتی از بازخورد انسانی و سایر روش‌های پس از آموزش است که به همسویی پاسخ‌های مدل با انتظارات کاربر کمک می‌کند و در عین حال ایمنی را حفظ می‌کند.
سازگاری سخت‌افزاری: Gemma 3 نه تنها برای پردازنده‌های گرافیکی NVIDIA بلکه برای Google Cloud TPU نیز بهینه شده است که آن را در محیط‌های محاسباتی مختلف سازگار می‌کند. این سازگاری به کاهش هزینه‌ها و پیچیدگی استقرار برنامه‌های هوش مصنوعی پیشرفته کمک می‌کند.

بینش‌ها و ارزیابی‌های عملکرد

ارزیابی‌های اولیه Gemma 3 نشان می‌دهد که این مدل‌ها به طور قابل اعتمادی در کلاس اندازه خود عمل می‌کنند. در یک مجموعه از آزمایش‌ها، نوع 27B امتیاز 1338 را در یک لیدربورد مربوطه به دست آورد، که نشان‌دهنده ظرفیت آن برای ارائه پاسخ‌های مداوم و با کیفیت بالا بدون نیاز به منابع سخت‌افزاری گسترده است. بنچمارک‌ها همچنین نشان می‌دهند که این مدل‌ها در مدیریت داده‌های متنی و بصری مؤثر هستند، که تا حدی به دلیل یک رمزگذار دید است که تصاویر با وضوح بالا را با یک رویکرد تطبیقی مدیریت می‌کند.

آموزش این مدل‌ها شامل یک مجموعه داده بزرگ و متنوع از متن و تصاویر بود—حداکثر 14 تریلیون توکن برای بزرگترین نوع. این رژیم جامع آموزشی از توانایی آن‌ها برای رسیدگی به طیف گسترده‌ای از وظایف، از درک زبان گرفته تا تجزیه و تحلیل بصری، پشتیبانی می‌کند. پذیرش گسترده مدل‌های Gemma قبلی، همراه با یک جامعه پر جنب و جوش که در حال حاضر انواع متعددی را تولید کرده است، بر ارزش عملی و قابلیت اطمینان این رویکرد تأکید می‌کند.

نتیجه‌گیری: رویکردی متفکرانه به هوش مصنوعی باز و در دسترس

Gemma 3 گامی سنجیده به سوی در دسترس‌تر کردن هوش مصنوعی پیشرفته است. این مدل‌ها که در چهار اندازه در دسترس هستند و قادر به پردازش متن و تصاویر در بیش از 140 زبان هستند، یک پنجره زمینه گسترده ارائه می‌دهند و برای کارایی در سخت‌افزار روزمره بهینه شده‌اند. طراحی آن‌ها بر یک رویکرد متعادل تأکید دارد - ارائه عملکرد قوی در عین گنجاندن اقداماتی برای اطمینان از استفاده ایمن.

در اصل، Gemma 3 یک راه حل عملی برای چالش‌های دیرینه در استقرار هوش مصنوعی است. این به توسعه‌دهندگان اجازه می‌دهد تا قابلیت‌های پیچیده زبان و بینایی را در انواع برنامه‌ها ادغام کنند، همه این‌ها در حالی که بر دسترسی، قابلیت اطمینان و استفاده مسئولانه تأکید می‌شود.

این گزارش ترجمه و بازنویسی خبری با موتور هوش مصنوعی افق آبی است و برای خوانندهٔ فارسی‌زبان بازتنظیم شده. منبع اصلی: marktechpost