ده سال پیش، مقالات یادگیری عمیق اغلب معتبر تلقی نمیشدند زیرا مراجع آنها به بیش از یک سال قبل باز نمیگشت. امسال، ما دهمین سالگرد دو مقالهای را جشن گرفتیم که هوش مصنوعی مولد (GenerativeAI) را در تصاویر و متن پایهگذاری کردند. در طول ۱۰ سال گذشته، ما آموختهایم: الف) قدرت تعبیهسازیها (embeddings) برای نمایش مختصر و مؤثر اطلاعات معنایی غنی و ب) قدرت پیشآموزش (pretraining) بر روی حجم عظیمی از دادهها.
پس از شرکت در آخرین کنفرانس NeurIPS، یکی از معتبرترین کنفرانسهای هوش مصنوعی و یادگیری ماشین، بیش از ۱۰۰ ساعت را صرف بررسی آموزشها، جلسات کنفرانس و کارگاهها کردم. در اینجا مهمترین یافتههای من در زمینه هوش مصنوعی سازمانی آورده شده است.
از مدلهای یادگیری ماشین به مدلهای جهانی
در حالی که پیشگامان هوش مصنوعی که مدلهای زبان بزرگ (Large Language Models - LLM) را هدایت کردند، مانند OpenAI، دادههای آموزشی موجود را به اتمام رساندهاند، کتاب راهنمای پیشآموزش فراتر از مُدالیتههای متن و تصویر در حال گسترش است. مدلهای زبان در جداول، صفحات گسترده اکسل و غیره پیشآموزش داده میشوند. این نشاندهنده غروب مدلهای یادگیری ماشین و طلوع مدلهای جهانی (World Models) است. این مدلها بنیادی هستند که دانش موجود را نمایندگی میکنند و برای کاربردهای خاص تنظیم دقیق (fine-tuned) یا به صورت پویا بافتمند (contextualized) میشوند.
حل مسائل کدنویسی و ریاضیات
ارزش تجاری فوری تولید کد با استفاده از مدلهای مبتنی بر مدل زبان بزرگ (LLM)، حجم زیاد مقالات در NeurIPS را توجیه میکند. قابل توجه است که تلاش تحقیقاتی برابری برای بهبود قابلیتهای اثبات قضیههای ریاضیاتی LLMها انجام شده است. خودکارسازی اثبات قضیههای ریاضی به ابتدای قرن گذشته باز میگردد، زمانی که هیلبرت پرسید آیا الگوریتمی وجود دارد که بتواند به طور خودکار قضایا را اثبات کند. گودل به این سوال پاسخ داد و تورینگ را به سمت پایهگذاری علوم کامپیوتر هدایت کرد. علاوه بر الهامات آکادمیک این وظیفه، آموزش نحوه اثبات قضایا به LLMها به ما کمک میکند تا درک کنیم چگونه سیستمهای استدلال (reasoning) بهتری بسازیم. به همان روشی که آموزش ریاضیات ظرفیت فکری دانشآموزانی را که لزوماً ریاضیدان نیستند افزایش میدهد، قابلیتهای ریاضی LLMها به آنها کمک میکند تا در وظایف دیگر نیز بهبود یابند.
ChatGPT روی تراشه و عدد جادویی هشت میلیارد
لیدونگ ژو از تحقیقات مایکروسافت در سخنرانی اصلی خود اشاره کرد که به زودی امکان دیدن تراشههایی وجود دارد که میتوانند یک تریلیون پارامتر را در خود جای دهند. مدلهای سنتی از محاسبات ممیز شناور استفاده میکنند که به ضربکنندههای گرانقیمت نیاز دارند. Bitnet تنها به ۱.۵۸ بیت برای هر پارامتر نیاز دارد و به جداول جستجو و جمعکنندههایی نیاز دارد که سطح بسیار کمتری روی تراشه اشغال میکنند. اگرچه ما نتوانستهایم ترانسفورمرهایی با پارامترهای ۱ بیتی بسازیم، اما همچنان مقالات را میبینیم که در این راستا کار میکنند و با عملیات منطقی بیتی کار میکنند، که تراکم محاسبات در واحد سطح را حتی بیشتر افزایش میدهد. تا آن زمان، محققان با تنظیم دقیق مدلهای کوچکتر مانند LLama و Mistral کار کرده و موفق شدهاند از مدلهای بزرگ پیشی بگیرند. به نظر میرسد Mistral به دلیل مجوز آسانگیر (permissive license) خود در بین محققان رواج بیشتری دارد. برای حل وظایف پیچیدهتر، یک خط کامل ترکیب شده و LLMهای تخصصی را ادغام میکند. این فناوری بالغتر شده و نتایج عملی در یک رقابت امسال ارائه شد. این تکنیک راهی مقرون به صرفه برای شرکتها برای حل وظایف پیچیده فراهم میکند.
همانطور که پیشآموزش را کامل میکنیم، زمان آن رسیده است که به عاملها (Agents) فکر کنیم
همانطور که برنده «آزمون زمان»، ایلیا سوتسکور، در مراسم اهدای جوایز ذکر کرد، غولهای هوش مصنوعی دادههای اینترنت (دادههای سوخت فسیلی) را به اتمام رساندهاند. آنها در حال روی آوردن به مدلهایی هستند که میتوانند با تخصیص محاسبات بیشتر به زمان استنتاج (inference)، قدرت خود را افزایش دهند. این محاسبات، عاملهای استدلالی (reasoning agents) را تغذیه خواهند کرد که برای حل مسائل دشوارتر با هم همکاری خواهند کرد. هوکرایتر، در سخنرانی اصلی خود، با افزودن اینکه ما به LLMهایی نیاز داریم که باید دقت را با سرعت استنتاج مبادله کنند، از این جهتگیری حمایت کرد و نشان داد که LSTM بازسازی شده (به نام xLSTM) میتواند چنین گزینهای باشد.
از دیدگاه کلی، امسال NeurIPS نشاندهنده آغاز عصر صنعتیسازی هوش مصنوعی به دنبال الگوی سایر فناوریهای تحولآفرین مانند برق، ریزتراشهها و غیره است. مدلهای جهانی اینجا هستند تا بمانند و گسترش یابند. هزینههای استنتاج تکباره به سرعت کاهش مییابد و به ۳۰,۰۰۰ دلار برای ۱ تریلیون توکن (اندازه دادههای آموزشی برای مدلهای مقیاس GPT-x) میرسد. اکنون که LLMهای سریع و ارزان داریم، عصر جدید استنتاج مبتنی بر عامل (agent-based inference) (که به عنوان استدلال نیز شناخته میشود) در حال ظهور است و انتظار حل وظایف پیشرفتهتر را با خطر کمتر قابل پیشبینی و کنترل شدن هوش مصنوعی باز میکند.