معرفی و تکامل هوش مصنوعی مولد آنقدر ناگهانی و شدید بوده که درک کامل اینکه این فناوری چقدر زندگی ما را تغییر داده، واقعاً دشوار است.
فقط به سه سال پیش نگاه کنید. بله، هوش مصنوعی داشت فراگیرتر میشد، حداقل در تئوری. افراد بیشتری از برخی کارهایی که میتوانست انجام دهد آگاه بودند، اگرچه حتی در آن مورد نیز سوء تفاهمهای گستردهای در مورد قابلیتهای هوش مصنوعی وجود داشت. به نوعی، همزمان، اعتبار کمتر و بیشتری از آنچه واقعاً میتوانست به دست آورد، به این فناوری داده میشد. با این حال، یک فرد عادی میتوانست حداقل به یک یا دو حوزه اشاره کند که هوش مصنوعی در آن فعال بود و وظایف بسیار تخصصی را بهطور نسبتاً خوب، در محیطهای بسیار کنترلشده انجام میداد. هر چیزی فراتر از آن یا هنوز در آزمایشگاه تحقیقاتی بود یا به سادگی وجود نداشت.
این وضعیت را با امروز مقایسه کنید. بدون هیچ مهارتی جز توانایی نوشتن یک جمله یا پرسیدن یک سوال، جهان در دسترس ماست. ما میتوانیم تصاویر، موسیقی و حتی فیلمهایی تولید کنیم که واقعاً منحصر به فرد و شگفتانگیز هستند و توانایی برهم زدن کل صنایع را دارند. ما میتوانیم فرآیند موتور جستجوی خود را تقویت کنیم و سوالی ساده بپرسیم که اگر درست مطرح شود، میتواند صفحاتی از محتوای سفارشی تولید کند که به اندازه کافی خوب باشد تا به عنوان یک محقق آموزشدیده دانشگاهی پذیرفته شود... یا اگر زاویه دید را مشخص کنیم، مانند یک دانشآموز متوسط کلاس سوم. در حالی که این قابلیتها به نوعی، تنها در یک یا دو سال، عادی شدهاند، همین چند سال پیش کاملاً غیرممکن تلقی میشدند. حوزه هوش مصنوعی مولد وجود داشت اما به هیچ وجه اوج نگرفته بود.
امروزه، بسیاری از افراد هوش مصنوعی مولد مانند ChatGPT، Midjourney یا ابزارهای دیگر را آزمایش کردهاند. دیگران قبلاً آنها را در زندگی روزمره خود گنجاندهاند. سرعتی که اینها تکامل یافتهاند، به حدی سرسامآور است که تقریباً نگرانکننده به نظر میرسد. و با توجه به پیشرفتهای شش ماه گذشته، بدون شک در چند سال آینده بارها و بارها شگفتزده خواهیم شد.
یک ابزار خاص در بازی هوش مصنوعی مولد، عملکرد سیستمهای تولید افزوده بازیابی (RAG) و توانایی آنها در اندیشیدن به پرسوجوهای بهویژه پیچیده بوده است. معرفی مجموعه داده FRAMES، که در مقالهای در مورد نحوه عملکرد این مجموعه داده ارزیابی به تفصیل توضیح داده شده است، هم وضعیت کنونی هنر و هم مسیر آینده آن را نشان میدهد. حتی از زمان معرفی FRAMES در اواخر سال 2024، تعدادی از پلتفرمها قبلاً رکوردهای جدیدی را در توانایی خود برای استدلال در مورد پرسوجوهای دشوار و پیچیده شکستهاند.
بیایید بررسی کنیم که FRAMES برای ارزیابی چه چیزی طراحی شده و مدلهای مختلف هوش مصنوعی مولد چقدر خوب عمل میکنند. ما میتوانیم ببینیم که چگونه پلتفرمهای تمرکززدا و منبعباز نه تنها جایگاه خود را حفظ میکنند (بهویژه Sentient Chat)، بلکه به کاربران اجازه میدهند نگاهی شفاف به استدلال شگفتانگیزی داشته باشند که برخی از مدلهای هوش مصنوعی قادر به دستیابی به آن هستند.
FRAMES به عنوان پنجرهای به مغز هوش مصنوعی مولد
مجموعه داده FRAMES و فرآیند ارزیابی آن بر روی ۸۲۴ سوال «چند مرحلهای» (multi-hop) تمرکز دارد که برای پاسخگویی صحیح به استنتاج، اتصال منطقی نقاط، استفاده از چندین منبع مختلف برای بازیابی اطلاعات کلیدی و توانایی کنار هم قرار دادن منطقی همه آنها نیاز دارند. پاسخ به این سوالات بین دو تا ۱۵ سند نیاز دارد و همچنین عمداً شامل محدودیتها، محاسبات و استنتاجهای ریاضی، و همچنین توانایی پردازش منطق مبتنی بر زمان است. به عبارت دیگر، این سوالات بسیار دشوار هستند و در واقع کارهای تحقیقاتی بسیار واقعی را نشان میدهند که ممکن است یک انسان در اینترنت انجام دهد. ما همیشه با این چالشها سر و کار داریم و باید در دریایی از منابع اینترنتی به دنبال قطعات کلیدی پراکنده اطلاعات بگردیم، اطلاعات را بر اساس سایتهای مختلف کنار هم بگذاریم، با محاسبه و استنتاج اطلاعات جدیدی ایجاد کنیم و بفهمیم چگونه این حقایق را در یک پاسخ صحیح به سوال ادغام کنیم.
آنچه محققان هنگام انتشار و آزمایش اولیه مجموعه داده دریافتند این بود که مدلهای برتر هوش مصنوعی مولد زمانی که مجبور بودند با استفاده از روشهای تک مرحلهای پاسخ دهند، توانستند تا حدودی دقیق باشند (حدود ۴۰٪)، اما اگر اجازه جمعآوری تمام اسناد لازم برای پاسخ به سوال را داشته باشند، میتوانند به دقت ۷۳٪ دست یابند. بله، ۷۳٪ ممکن است یک انقلاب به نظر نرسد. اما اگر دقیقاً بفهمید چه چیزی باید پاسخ داده شود، این عدد بسیار چشمگیرتر میشود.
به عنوان مثال، یک سوال خاص این است: «رهبر گروهی که در ابتدا آهنگی را که در آهنگ Power کانیه وست نمونهبرداری (sample) شده بود، اجرا کرد، در چه سالی متولد شد؟» یک انسان چگونه این مشکل را حل میکند؟ فرد ممکن است متوجه شود که نیاز به جمعآوری عناصر اطلاعاتی مختلفی دارد، مانند متن ترانه آهنگ «Power» کانیه وست، و سپس بتواند در میان متن ترانه جستجو کند و نقطهای از آهنگ را که واقعاً از آهنگ دیگری نمونهبرداری کرده است، شناسایی کند. ما به عنوان انسان احتمالاً میتوانیم به آهنگ گوش دهیم (حتی اگر با آن آشنا نباشیم) و بتوانیم تشخیص دهیم که چه زمانی آهنگ دیگری نمونهبرداری شده است.
اما به آن فکر کنید: یک هوش مصنوعی مولد برای تشخیص آهنگی غیر از آهنگ اصلی هنگام «گوش دادن» به آن، چه کاری باید انجام دهد؟ اینجاست که یک سوال اساسی به آزمونی عالی برای هوش مصنوعی واقعاً هوشمند تبدیل میشود. و اگر ما قادر به یافتن آهنگ، گوش دادن به آن و شناسایی متن نمونهبرداری شده باشیم، این فقط مرحله اول است. ما هنوز باید بفهمیم نام آهنگ چیست، گروه چیست، رهبر آن گروه کیست و سپس آن شخص در چه سالی متولد شده است.
FRAMES نشان میدهد که برای پاسخ به سوالات واقعگرایانه، مقدار زیادی پردازش فکری لازم است. دو نکته در اینجا به ذهن میرسد.
اول، توانایی مدلهای هوش مصنوعی مولد تمرکززدا نه تنها برای رقابت، بلکه برای تسلط بالقوه بر نتایج، باورنکردنی است. تعداد فزایندهای از شرکتها از روش تمرکززدا برای مقیاسبندی تواناییهای پردازشی خود استفاده میکنند و در عین حال اطمینان میدهند که جامعه بزرگی مالک نرمافزار است، نه یک جعبه سیاه متمرکز که پیشرفتهای خود را به اشتراک نخواهد گذاشت. شرکتهایی مانند Perplexity و Sentient این روند را رهبری میکنند و هر کدام مدلهای قدرتمندی دارند که بالاتر از رکوردهای دقت اولیه هنگام انتشار FRAMES عمل میکنند.
عنصر دوم این است که تعداد کمتری از این مدلهای هوش مصنوعی نه تنها تمرکززدا هستند، بلکه منبعباز نیز میباشند. به عنوان مثال، Sentient Chat هر دو ویژگی را دارد و آزمایشهای اولیه نشان میدهند که به لطف دسترسی ارزشمند منبعباز، استدلال آن چقدر میتواند پیچیده باشد. سوال FRAMES بالا با استفاده از فرآیند فکری بسیار مشابهی که یک انسان استفاده میکند، پاسخ داده میشود و جزئیات استدلال آن برای بررسی در دسترس است. شاید جالبتر اینکه، پلتفرم آنها به صورت تعدادی مدل ساختار یافته است که میتوانند یک دیدگاه و عملکرد معین را تنظیم دقیق (fine-tune) کنند، حتی اگر فرآیند تنظیم دقیق در برخی از مدلهای هوش مصنوعی مولد منجر به کاهش دقت شود. در مورد Sentient Chat، مدلهای مختلف زیادی توسعه یافتهاند. به عنوان مثال، یک مدل اخیر به نام «Dobby 8B» قادر است هم از معیار FRAMES بهتر عمل کند و هم نگرش متمایز طرفدار رمزارز و طرفدار آزادی را توسعه دهد، که بر دیدگاه مدل هنگام پردازش قطعات اطلاعات و توسعه پاسخ تأثیر میگذارد.
در افق پیش رو
کلید همه این نوآوریهای شگفتانگیز، سرعت سریعی است که ما را به اینجا رسانده است. باید بپذیریم که هر چقدر این فناوری به سرعت تکامل یافته است، در آینده نزدیک حتی سریعتر تکامل خواهد یافت. ما قادر خواهیم بود، بهویژه با مدلهای هوش مصنوعی مولد تمرکززدا و منبعباز، آن آستانه حیاتی را ببینیم که در آن هوش سیستم شروع به پیشی گرفتن از هوش ما، بیشتر و بیشتر میکند و این برای آینده چه معنایی دارد.