تصویر مفهومی نشان‌دهنده پیچیدگی پردازش اطلاعات توسط مدل‌های زبانی بزرگ
تصویر مفهومی نشان‌دهنده پیچیدگی پردازش اطلاعات توسط مدل‌های زبانی بزرگ

مدل‌های زبانی بزرگ (LLMها) چقدر در استدلال مسائل پیچیده توانمند هستند؟

معرفی و تکامل هوش مصنوعی مولد آنقدر ناگهانی و شدید بوده که درک کامل اینکه این فناوری چقدر زندگی ما را تغییر داده، واقعاً دشوار است.

فقط به سه سال پیش نگاه کنید. بله، هوش مصنوعی داشت فراگیرتر می‌شد، حداقل در تئوری. افراد بیشتری از برخی کارهایی که می‌توانست انجام دهد آگاه بودند، اگرچه حتی در آن مورد نیز سوء تفاهم‌های گسترده‌ای در مورد قابلیت‌های هوش مصنوعی وجود داشت. به نوعی، همزمان، اعتبار کمتر و بیشتری از آنچه واقعاً می‌توانست به دست آورد، به این فناوری داده می‌شد. با این حال، یک فرد عادی می‌توانست حداقل به یک یا دو حوزه اشاره کند که هوش مصنوعی در آن فعال بود و وظایف بسیار تخصصی را به‌طور نسبتاً خوب، در محیط‌های بسیار کنترل‌شده انجام می‌داد. هر چیزی فراتر از آن یا هنوز در آزمایشگاه تحقیقاتی بود یا به سادگی وجود نداشت.

این وضعیت را با امروز مقایسه کنید. بدون هیچ مهارتی جز توانایی نوشتن یک جمله یا پرسیدن یک سوال، جهان در دسترس ماست. ما می‌توانیم تصاویر، موسیقی و حتی فیلم‌هایی تولید کنیم که واقعاً منحصر به فرد و شگفت‌انگیز هستند و توانایی برهم زدن کل صنایع را دارند. ما می‌توانیم فرآیند موتور جستجوی خود را تقویت کنیم و سوالی ساده بپرسیم که اگر درست مطرح شود، می‌تواند صفحاتی از محتوای سفارشی تولید کند که به اندازه کافی خوب باشد تا به عنوان یک محقق آموزش‌دیده دانشگاهی پذیرفته شود... یا اگر زاویه دید را مشخص کنیم، مانند یک دانش‌آموز متوسط کلاس سوم. در حالی که این قابلیت‌ها به نوعی، تنها در یک یا دو سال، عادی شده‌اند، همین چند سال پیش کاملاً غیرممکن تلقی می‌شدند. حوزه هوش مصنوعی مولد وجود داشت اما به هیچ وجه اوج نگرفته بود.

امروزه، بسیاری از افراد هوش مصنوعی مولد مانند ChatGPT، Midjourney یا ابزارهای دیگر را آزمایش کرده‌اند. دیگران قبلاً آنها را در زندگی روزمره خود گنجانده‌اند. سرعتی که این‌ها تکامل یافته‌اند، به حدی سرسام‌آور است که تقریباً نگران‌کننده به نظر می‌رسد. و با توجه به پیشرفت‌های شش ماه گذشته، بدون شک در چند سال آینده بارها و بارها شگفت‌زده خواهیم شد.

یک ابزار خاص در بازی هوش مصنوعی مولد، عملکرد سیستم‌های تولید افزوده بازیابی (RAG) و توانایی آنها در اندیشیدن به پرس‌وجوهای به‌ویژه پیچیده بوده است. معرفی مجموعه داده FRAMES، که در مقاله‌ای در مورد نحوه عملکرد این مجموعه داده ارزیابی به تفصیل توضیح داده شده است، هم وضعیت کنونی هنر و هم مسیر آینده آن را نشان می‌دهد. حتی از زمان معرفی FRAMES در اواخر سال 2024، تعدادی از پلتفرم‌ها قبلاً رکوردهای جدیدی را در توانایی خود برای استدلال در مورد پرس‌وجوهای دشوار و پیچیده شکسته‌اند.

بیایید بررسی کنیم که FRAMES برای ارزیابی چه چیزی طراحی شده و مدل‌های مختلف هوش مصنوعی مولد چقدر خوب عمل می‌کنند. ما می‌توانیم ببینیم که چگونه پلتفرم‌های تمرکززدا و منبع‌باز نه تنها جایگاه خود را حفظ می‌کنند (به‌ویژه Sentient Chat)، بلکه به کاربران اجازه می‌دهند نگاهی شفاف به استدلال شگفت‌انگیزی داشته باشند که برخی از مدل‌های هوش مصنوعی قادر به دستیابی به آن هستند.

FRAMES به عنوان پنجره‌ای به مغز هوش مصنوعی مولد

مجموعه داده FRAMES و فرآیند ارزیابی آن بر روی ۸۲۴ سوال «چند مرحله‌ای» (multi-hop) تمرکز دارد که برای پاسخگویی صحیح به استنتاج، اتصال منطقی نقاط، استفاده از چندین منبع مختلف برای بازیابی اطلاعات کلیدی و توانایی کنار هم قرار دادن منطقی همه آنها نیاز دارند. پاسخ به این سوالات بین دو تا ۱۵ سند نیاز دارد و همچنین عمداً شامل محدودیت‌ها، محاسبات و استنتاج‌های ریاضی، و همچنین توانایی پردازش منطق مبتنی بر زمان است. به عبارت دیگر، این سوالات بسیار دشوار هستند و در واقع کارهای تحقیقاتی بسیار واقعی را نشان می‌دهند که ممکن است یک انسان در اینترنت انجام دهد. ما همیشه با این چالش‌ها سر و کار داریم و باید در دریایی از منابع اینترنتی به دنبال قطعات کلیدی پراکنده اطلاعات بگردیم، اطلاعات را بر اساس سایت‌های مختلف کنار هم بگذاریم، با محاسبه و استنتاج اطلاعات جدیدی ایجاد کنیم و بفهمیم چگونه این حقایق را در یک پاسخ صحیح به سوال ادغام کنیم.

آنچه محققان هنگام انتشار و آزمایش اولیه مجموعه داده دریافتند این بود که مدل‌های برتر هوش مصنوعی مولد زمانی که مجبور بودند با استفاده از روش‌های تک مرحله‌ای پاسخ دهند، توانستند تا حدودی دقیق باشند (حدود ۴۰٪)، اما اگر اجازه جمع‌آوری تمام اسناد لازم برای پاسخ به سوال را داشته باشند، می‌توانند به دقت ۷۳٪ دست یابند. بله، ۷۳٪ ممکن است یک انقلاب به نظر نرسد. اما اگر دقیقاً بفهمید چه چیزی باید پاسخ داده شود، این عدد بسیار چشمگیرتر می‌شود.

به عنوان مثال، یک سوال خاص این است: «رهبر گروهی که در ابتدا آهنگی را که در آهنگ Power کانیه وست نمونه‌برداری (sample) شده بود، اجرا کرد، در چه سالی متولد شد؟» یک انسان چگونه این مشکل را حل می‌کند؟ فرد ممکن است متوجه شود که نیاز به جمع‌آوری عناصر اطلاعاتی مختلفی دارد، مانند متن ترانه آهنگ «Power» کانیه وست، و سپس بتواند در میان متن ترانه جستجو کند و نقطه‌ای از آهنگ را که واقعاً از آهنگ دیگری نمونه‌برداری کرده است، شناسایی کند. ما به عنوان انسان احتمالاً می‌توانیم به آهنگ گوش دهیم (حتی اگر با آن آشنا نباشیم) و بتوانیم تشخیص دهیم که چه زمانی آهنگ دیگری نمونه‌برداری شده است.

اما به آن فکر کنید: یک هوش مصنوعی مولد برای تشخیص آهنگی غیر از آهنگ اصلی هنگام «گوش دادن» به آن، چه کاری باید انجام دهد؟ اینجاست که یک سوال اساسی به آزمونی عالی برای هوش مصنوعی واقعاً هوشمند تبدیل می‌شود. و اگر ما قادر به یافتن آهنگ، گوش دادن به آن و شناسایی متن نمونه‌برداری شده باشیم، این فقط مرحله اول است. ما هنوز باید بفهمیم نام آهنگ چیست، گروه چیست، رهبر آن گروه کیست و سپس آن شخص در چه سالی متولد شده است.

FRAMES نشان می‌دهد که برای پاسخ به سوالات واقع‌گرایانه، مقدار زیادی پردازش فکری لازم است. دو نکته در اینجا به ذهن می‌رسد.

اول، توانایی مدل‌های هوش مصنوعی مولد تمرکززدا نه تنها برای رقابت، بلکه برای تسلط بالقوه بر نتایج، باورنکردنی است. تعداد فزاینده‌ای از شرکت‌ها از روش تمرکززدا برای مقیاس‌بندی توانایی‌های پردازشی خود استفاده می‌کنند و در عین حال اطمینان می‌دهند که جامعه بزرگی مالک نرم‌افزار است، نه یک جعبه سیاه متمرکز که پیشرفت‌های خود را به اشتراک نخواهد گذاشت. شرکت‌هایی مانند Perplexity و Sentient این روند را رهبری می‌کنند و هر کدام مدل‌های قدرتمندی دارند که بالاتر از رکوردهای دقت اولیه هنگام انتشار FRAMES عمل می‌کنند.

عنصر دوم این است که تعداد کمتری از این مدل‌های هوش مصنوعی نه تنها تمرکززدا هستند، بلکه منبع‌باز نیز می‌باشند. به عنوان مثال، Sentient Chat هر دو ویژگی را دارد و آزمایش‌های اولیه نشان می‌دهند که به لطف دسترسی ارزشمند منبع‌باز، استدلال آن چقدر می‌تواند پیچیده باشد. سوال FRAMES بالا با استفاده از فرآیند فکری بسیار مشابهی که یک انسان استفاده می‌کند، پاسخ داده می‌شود و جزئیات استدلال آن برای بررسی در دسترس است. شاید جالب‌تر اینکه، پلتفرم آنها به صورت تعدادی مدل ساختار یافته است که می‌توانند یک دیدگاه و عملکرد معین را تنظیم دقیق (fine-tune) کنند، حتی اگر فرآیند تنظیم دقیق در برخی از مدل‌های هوش مصنوعی مولد منجر به کاهش دقت شود. در مورد Sentient Chat، مدل‌های مختلف زیادی توسعه یافته‌اند. به عنوان مثال، یک مدل اخیر به نام «Dobby 8B» قادر است هم از معیار FRAMES بهتر عمل کند و هم نگرش متمایز طرفدار رمزارز و طرفدار آزادی را توسعه دهد، که بر دیدگاه مدل هنگام پردازش قطعات اطلاعات و توسعه پاسخ تأثیر می‌گذارد.

در افق پیش رو

کلید همه این نوآوری‌های شگفت‌انگیز، سرعت سریعی است که ما را به اینجا رسانده است. باید بپذیریم که هر چقدر این فناوری به سرعت تکامل یافته است، در آینده نزدیک حتی سریع‌تر تکامل خواهد یافت. ما قادر خواهیم بود، به‌ویژه با مدل‌های هوش مصنوعی مولد تمرکززدا و منبع‌باز، آن آستانه حیاتی را ببینیم که در آن هوش سیستم شروع به پیشی گرفتن از هوش ما، بیشتر و بیشتر می‌کند و این برای آینده چه معنایی دارد.