موسسه هوش مصنوعی آلن (AI2) مدل OLMo 32B را منتشر کرد: یک مدل کاملاً متن‌باز برای غلبه بر GPT 3.5 و GPT-4o mini در مجموعه‌ای از بنچمارک‌های چند مهارتی

نمایی از عملکرد مدل OLMo 2 32B
عملکرد OLMo 2 32B در مقایسه با سایر مدل‌ها.

تکامل سریع هوش مصنوعی (AI) عصر جدیدی از مدل‌های زبانی بزرگ (LLM) را نوید داده است که قادر به درک و تولید متن شبیه به انسان هستند. با این حال، ماهیت اختصاصی بسیاری از این مدل‌ها، چالش‌هایی را برای دسترسی، همکاری و شفافیت در جامعه تحقیقاتی ایجاد می‌کند. علاوه بر این، منابع محاسباتی قابل توجه مورد نیاز برای آموزش چنین مدل‌هایی اغلب مشارکت را به سازمان‌های دارای بودجه مناسب محدود می‌کند، در نتیجه مانع نوآوری گسترده‌تر می‌شود.

موسسه هوش مصنوعی آلن (AI2) با توجه به این نگرانی‌ها، OLMo 2 32B را معرفی کرده است، جدیدترین و پیشرفته‌ترین مدل در سری OLMo 2. این مدل خود را به عنوان اولین مدل کاملاً متن‌باز متمایز می‌کند که از GPT-3.5 Turbo و GPT-4o mini در مجموعه‌ای از بنچمارک‌های آکادمیک چند مهارتی شناخته شده به طور گسترده، فراتر می‌رود. AI2 با در دسترس قرار دادن رایگان تمام داده‌ها، کدها، وزن‌ها و جزئیات آموزش، فرهنگ باز بودن و همکاری را ترویج می‌کند و محققان را در سراسر جهان قادر می‌سازد تا بر اساس این کار بنا کنند.

معماری OLMo 2 32B شامل 32 میلیارد پارامتر است که نشان دهنده مقیاس‌بندی قابل توجهی از مدل‌های قبلی خود است. فرآیند آموزش به طور دقیق در دو مرحله اصلی ساختار یافته است: پیش‌آموزش و میان‌آموزش. در طول پیش‌آموزش، مدل در معرض تقریباً 3.9 تریلیون توکن از منابع مختلف، از جمله DCLM، Dolma، Starcoder و Proof Pile II قرار گرفت و از درک جامع الگوهای زبان اطمینان حاصل شد. مرحله میان‌آموزش از مجموعه داده Dolmino استفاده کرد که شامل 843 میلیارد توکن است که برای کیفیت، شامل محتوای آموزشی، ریاضی و آکادمیک انتخاب شده است. این رویکرد مرحله‌ای تضمین کرد که OLMo 2 32B درک قوی و ظریف از زبان را توسعه می‌دهد.

یکی از جنبه‌های قابل توجه OLMo 2 32B کارایی آموزش آن است. این مدل در حالی که تنها از کسری از منابع محاسباتی استفاده می‌کرد، به سطوح عملکردی قابل مقایسه با مدل‌های پیشرو با وزن باز دست یافت. به طور خاص، در مقایسه با مدل‌هایی مانند Qwen 2.5 32B، تقریباً یک سوم محاسبات آموزشی مورد نیاز بود، که نشان دهنده تعهد AI2 به توسعه هوش مصنوعی با منابع کارآمد است.

در ارزیابی‌های بنچمارک، OLMo 2 32B نتایج چشمگیری را نشان داد. عملکرد آن با مدل‌هایی مانند GPT-3.5 Turbo، GPT-4o mini، Qwen 2.5 32B و Mistral 24B مطابقت داشت یا از آن‌ها فراتر رفت. علاوه بر این، به سطوح عملکردی مدل‌های بزرگتر مانند Qwen 2.5 72B و Llama 3.1 و 3.3 70B نزدیک شد. این ارزیابی‌ها وظایف مختلفی از جمله درک زبان چندوظیفه‌ای گسترده (MMLU)، حل مسئله ریاضی (MATH) و ارزیابی‌های پیروی از دستورالعمل (IFEval) را در بر می‌گیرد که بر تطبیق‌پذیری و شایستگی مدل در چالش‌های زبانی مختلف تأکید می‌کند.

انتشار OLMo 2 32B نشان دهنده پیشرفت محوری در پیگیری هوش مصنوعی باز و در دسترس است. AI2 با ارائه یک مدل کاملاً باز که نه تنها با مدل‌های اختصاصی خاصی رقابت می‌کند، بلکه از آن‌ها پیشی می‌گیرد، نشان می‌دهد که چگونه مقیاس‌بندی متفکرانه و روش‌های آموزشی کارآمد می‌تواند منجر به پیشرفت‌های چشمگیری شود. این باز بودن، یک محیط فراگیرتر و مشارکتی‌تر را تقویت می‌کند و محققان و توسعه‌دهندگان را در سطح جهانی قادر می‌سازد تا با چشم‌انداز در حال تحول هوش مصنوعی درگیر شوند و به آن کمک کنند.