عکس از برند دیتیریش در Unsplash.
عکس از برند دیتیریش در Unsplash.

امروز مدل‌های جهانی را بپذیرید یا فردا عقب بمانید

از بینش‌های NeurIPS برای به‌روزرسانی فوری نقشه راه توسعه هوش مصنوعی خود استفاده کنید.

ده سال پیش، مقالات یادگیری عمیق اغلب معتبر تلقی نمی‌شدند زیرا مراجع آن‌ها به بیش از یک سال قبل باز نمی‌گشت. امسال، ما دهمین سالگرد دو مقاله‌ای را جشن گرفتیم که هوش مصنوعی مولد (GenerativeAI) را در تصاویر و متن پایه‌گذاری کردند. در طول ۱۰ سال گذشته، ما آموخته‌ایم: الف) قدرت تعبیه‌سازی‌ها (embeddings) برای نمایش مختصر و مؤثر اطلاعات معنایی غنی و ب) قدرت پیش‌آموزش (pretraining) بر روی حجم عظیمی از داده‌ها.

پس از شرکت در آخرین کنفرانس NeurIPS، یکی از معتبرترین کنفرانس‌های هوش مصنوعی و یادگیری ماشین، بیش از ۱۰۰ ساعت را صرف بررسی آموزش‌ها، جلسات کنفرانس و کارگاه‌ها کردم. در اینجا مهمترین یافته‌های من در زمینه هوش مصنوعی سازمانی آورده شده است.

از مدل‌های یادگیری ماشین به مدل‌های جهانی

در حالی که پیشگامان هوش مصنوعی که مدل‌های زبان بزرگ (Large Language Models - LLM) را هدایت کردند، مانند OpenAI، داده‌های آموزشی موجود را به اتمام رسانده‌اند، کتاب راهنمای پیش‌آموزش فراتر از مُدالیته‌های متن و تصویر در حال گسترش است. مدل‌های زبان در جداول، صفحات گسترده اکسل و غیره پیش‌آموزش داده می‌شوند. این نشان‌دهنده غروب مدل‌های یادگیری ماشین و طلوع مدل‌های جهانی (World Models) است. این مدل‌ها بنیادی هستند که دانش موجود را نمایندگی می‌کنند و برای کاربردهای خاص تنظیم دقیق (fine-tuned) یا به صورت پویا بافت‌مند (contextualized) می‌شوند.

حل مسائل کدنویسی و ریاضیات

ارزش تجاری فوری تولید کد با استفاده از مدل‌های مبتنی بر مدل زبان بزرگ (LLM)، حجم زیاد مقالات در NeurIPS را توجیه می‌کند. قابل توجه است که تلاش تحقیقاتی برابری برای بهبود قابلیت‌های اثبات قضیه‌های ریاضیاتی LLMها انجام شده است. خودکارسازی اثبات قضیه‌های ریاضی به ابتدای قرن گذشته باز می‌گردد، زمانی که هیلبرت پرسید آیا الگوریتمی وجود دارد که بتواند به طور خودکار قضایا را اثبات کند. گودل به این سوال پاسخ داد و تورینگ را به سمت پایه‌گذاری علوم کامپیوتر هدایت کرد. علاوه بر الهامات آکادمیک این وظیفه، آموزش نحوه اثبات قضایا به LLMها به ما کمک می‌کند تا درک کنیم چگونه سیستم‌های استدلال (reasoning) بهتری بسازیم. به همان روشی که آموزش ریاضیات ظرفیت فکری دانش‌آموزانی را که لزوماً ریاضیدان نیستند افزایش می‌دهد، قابلیت‌های ریاضی LLMها به آن‌ها کمک می‌کند تا در وظایف دیگر نیز بهبود یابند.

ChatGPT روی تراشه و عدد جادویی هشت میلیارد

لیدونگ ژو از تحقیقات مایکروسافت در سخنرانی اصلی خود اشاره کرد که به زودی امکان دیدن تراشه‌هایی وجود دارد که می‌توانند یک تریلیون پارامتر را در خود جای دهند. مدل‌های سنتی از محاسبات ممیز شناور استفاده می‌کنند که به ضرب‌کننده‌های گران‌قیمت نیاز دارند. Bitnet تنها به ۱.۵۸ بیت برای هر پارامتر نیاز دارد و به جداول جستجو و جمع‌کننده‌هایی نیاز دارد که سطح بسیار کمتری روی تراشه اشغال می‌کنند. اگرچه ما نتوانسته‌ایم ترانسفورمرهایی با پارامترهای ۱ بیتی بسازیم، اما همچنان مقالات را می‌بینیم که در این راستا کار می‌کنند و با عملیات منطقی بیتی کار می‌کنند، که تراکم محاسبات در واحد سطح را حتی بیشتر افزایش می‌دهد. تا آن زمان، محققان با تنظیم دقیق مدل‌های کوچکتر مانند LLama و Mistral کار کرده و موفق شده‌اند از مدل‌های بزرگ پیشی بگیرند. به نظر می‌رسد Mistral به دلیل مجوز آسان‌گیر (permissive license) خود در بین محققان رواج بیشتری دارد. برای حل وظایف پیچیده‌تر، یک خط کامل ترکیب شده و LLMهای تخصصی را ادغام می‌کند. این فناوری بالغ‌تر شده و نتایج عملی در یک رقابت امسال ارائه شد. این تکنیک راهی مقرون به صرفه برای شرکت‌ها برای حل وظایف پیچیده فراهم می‌کند.

همانطور که پیش‌آموزش را کامل می‌کنیم، زمان آن رسیده است که به عامل‌ها (Agents) فکر کنیم

همانطور که برنده «آزمون زمان»، ایلیا سوتسکور، در مراسم اهدای جوایز ذکر کرد، غول‌های هوش مصنوعی داده‌های اینترنت (داده‌های سوخت فسیلی) را به اتمام رسانده‌اند. آن‌ها در حال روی آوردن به مدل‌هایی هستند که می‌توانند با تخصیص محاسبات بیشتر به زمان استنتاج (inference)، قدرت خود را افزایش دهند. این محاسبات، عامل‌های استدلالی (reasoning agents) را تغذیه خواهند کرد که برای حل مسائل دشوارتر با هم همکاری خواهند کرد. هوکرایتر، در سخنرانی اصلی خود، با افزودن اینکه ما به LLMهایی نیاز داریم که باید دقت را با سرعت استنتاج مبادله کنند، از این جهت‌گیری حمایت کرد و نشان داد که LSTM بازسازی شده (به نام xLSTM) می‌تواند چنین گزینه‌ای باشد.

از دیدگاه کلی، امسال NeurIPS نشان‌دهنده آغاز عصر صنعتی‌سازی هوش مصنوعی به دنبال الگوی سایر فناوری‌های تحول‌آفرین مانند برق، ریزتراشه‌ها و غیره است. مدل‌های جهانی اینجا هستند تا بمانند و گسترش یابند. هزینه‌های استنتاج تک‌باره به سرعت کاهش می‌یابد و به ۳۰,۰۰۰ دلار برای ۱ تریلیون توکن (اندازه داده‌های آموزشی برای مدل‌های مقیاس GPT-x) می‌رسد. اکنون که LLMهای سریع و ارزان داریم، عصر جدید استنتاج مبتنی بر عامل (agent-based inference) (که به عنوان استدلال نیز شناخته می‌شود) در حال ظهور است و انتظار حل وظایف پیشرفته‌تر را با خطر کمتر قابل پیش‌بینی و کنترل شدن هوش مصنوعی باز می‌کند.