در اعماق وجود، سم آلتمن و فرانسوا شوله رویای مشترکی دارند. آنها میخواهند مدلهای هوش مصنوعی بسازند که به «هوش مصنوعی عمومی» (AGI) دست یابند – یعنی با قابلیتهای ذهن انسان برابری کرده یا از آن فراتر روند. تفاوت بین این دو مرد در این است که آلتمن اشاره کرده شرکتش، اوپنایآی (OpenAI)، تقریباً این فناوری را ساخته است. شوله، دانشمند کامپیوتر فرانسوی و یکی از تیزبینترین منتقدان این صنعت، گفته است که این تصور «کاملاً مضحک» است.
وقتی اوایل امسال با او صحبت کردم، شوله به من گفت که شرکتهای هوش مصنوعی مدتهاست در القای این که ماشینهایشان در مسیر نوعی دانش برتر قرار دارند، «از نظر فکری تنبل» بودهاند. در این مقطع، این ادعاها عمدتاً بر اساس توانایی برنامهها در گذراندن آزمونهای خاص (مانند LSAT، زیستشناسی پیشرفته AP و حتی یک آزمون مقدماتی سوملیه) استوار است. چتباتها ممکن است چشمگیر باشند. اما به عقیده شوله، آنها واقعاً هوشمند نیستند.
شوله، مانند آلتمن و دیگر بزرگان فناوری، مدلهای هوش مصنوعی را تصور میکند که میتوانند هر مشکل قابل تصوری را حل کنند: بیماری، تغییرات اقلیمی، فقر، سفرهای بینستارهای. یک ربات برای انجام کار شما نیازی ندارد که از راه دور «هوشمند» باشد. اما برای اینکه این فناوری حتی کسری از آرزوهای این صنعت را برآورده کند - تا به یک محقق «شبیه انیشتین» تبدیل شود، همانطور که شوله به من گفت - مدلهای هوش مصنوعی باید فراتر از تقلید وظایف اساسی یا حتی گردآوری گزارشهای تحقیقاتی پیچیده رفته و مقداری نبوغ از خود نشان دهند.
شوله فقط یک منتقد نیست و سازشناپذیر هم نیست. او تجربه قابل توجهی در توسعه هوش مصنوعی دارد و آزمونی را ایجاد کرده که اکنون برجسته است تا بسنجد آیا ماشینها میتوانند این نوع تفکر را انجام دهند یا خیر. سالهاست که او تحقیقات عمدهای در زمینه یادگیری عمیق انجام داده است، از جمله در گوگل، جایی که از سال ۲۰۱۵ تا نوامبر گذشته به عنوان مهندس نرمافزار کار میکرد؛ او میخواهد هوش مصنوعی مولد انقلابی باشد، اما نگران است که این صنعت منحرف شده باشد. در سال ۲۰۱۹، شوله «کورپوس انتزاع و استدلال برای هوش مصنوعی عمومی» (ARC-AGI) را ایجاد کرد - آزمونی که برای نشان دادن شکاف بین پاسخهای حفظ شده مدلهای هوش مصنوعی و «هوش سیال» (fluid intelligence) که انسانها دارند، طراحی شده است. شوله با الهام از علوم شناختی، چنین هوشی را به عنوان توانایی کسب سریع مهارتها و حل مشکلات ناآشنا از اصول اولیه توصیف کرد، نه فقط حفظ حجم عظیمی از دادههای آموزشی و بازگویی اطلاعات. (سال گذشته، او جایزه ARC را راهاندازی کرد، مسابقهای برای شکستن معیار او با صندوق جایزه ۱ میلیون دلاری.)
شما، به عنوان یک انسان، احتمالاً این آزمون را قبول میشوید. اما سالها بود که چتباتها با آن اوقات ناخوشایندی داشتند. اکثر مردم، با وجود اینکه قبلاً هرگز با ARC-AGI مواجه نشدهاند، نمراتی در حدود ۶۰ تا ۷۰ درصد کسب میکنند. GPT-3، برنامهای که به ChatGPT تبدیل شد، ربات افسانهای و تحریفکننده واقعیت، نمره صفر گرفت. تنها اخیراً رباتها شروع به جبران کردهاند.
چگونه چنین ابزارهای قدرتمندی برای مدت طولانی در این آزمون به طرز چشمگیری شکست خوردند؟ اینجاست که تعریف شوله از هوش مطرح میشود. از نظر او، یک چتبات که تریلیونها سؤال سبک SAT، لوایح حقوقی و خطوط کد را تجزیه و تحلیل کرده است، چندان باهوش نیست بلکه بیشتر برای آزمون SAT، آزمون دانشکده حقوق، مسائل پیشرفته کدنویسی یا هر چیز دیگری، خوب آماده شده است. کودکی که پس از یادگیری ضرب و تقسیم، مسائل کلامی دشوار را حل میکند، هوشمند است.
آزمون ARC-AGI ساده است، اما نیازمند حس ادراک قوی و به نوعی قضاوت است. این آزمون شامل مجموعهای از شبکههای ناقص است که شرکتکننده باید بر اساس قوانینی که از چند مثال استنباط میکند، آنها را رنگآمیزی کند؛ برای مثال، ممکن است دنبالهای از تصاویر را ببیند و مشاهده کند که یک کاشی آبی همیشه توسط کاشیهای نارنجی احاطه شده است، سپس تصویر بعدی را بر این اساس تکمیل کند. چندان با نقاشی با اعداد تفاوتی ندارد.
این آزمون برای مدت طولانی برای شرکتهای بزرگ هوش مصنوعی غیرقابل حل به نظر میرسید. GPT-4، که اوپنایآی در سال ۲۰۲۳ با افتخار اعلام کرد «قابلیتهای استدلال پیشرفته» دارد، عملکرد چندان بهتری نسبت به صفر درصد کسب شده توسط مدل قبلی خود نداشت. یک سال بعد، GPT-4o، که این استارتآپ آن را با نمایش «هوش متنی، استدلالی و کدنویسی» بازاریابی کرد، تنها ۵ درصد به دست آورد. Gemini 1.5 و Claude 3.7، مدلهای پرچمدار گوگل و Anthropic، به ترتیب ۵ و ۱۴ درصد کسب کردند. این مدلها ممکن است در چند پازل شانس آورده باشند، اما از نظر شوله، ذرهای استدلال انتزاعی (abstract reasoning) از خود نشان نداده بودند. او به من گفت: «اگر هوشمند نبودی، مانند کل سری GPT، اساساً نمره صفر میگرفتی.» از دیدگاه او، بزرگان فناوری حتی در مسیر درستی برای ساختن انیشتین مصنوعی خود نبودند.
شوله شبکهها را طوری طراحی کرد که بسیار متمایز باشند، به طوری که پازلهای مشابه یا اطلاعات مرتبط نتوانند به طور ناخواسته در دادههای آموزشی یک مدل گنجانده شوند - مشکلی رایج در بنچمارکهای هوش مصنوعی. یک شرکتکننده در آزمون باید با هر پازل از نو شروع کند و مفاهیم اساسی شمارش و هندسه را به کار گیرد. اکثر ارزیابیهای دیگر هوش مصنوعی و آزمونهای استاندارد در مقایسه خام هستند - آنها برای ارزیابی جنبه کیفی و متمایز تفکر طراحی نشدهاند. اما ARC-AGI توانایی «برداشتن مفاهیمی که میدانید و به کار بردن آنها در موقعیتهای جدید به طور بسیار کارآمد» را بررسی میکند، همانطور که ملانی میچل، محقق هوش مصنوعی در موسسه سانتافه، به من گفت.
برای بهبود عملکرد خود، سیلیکون ولی نیاز به تغییر رویکرد خود داشت. مقیاسپذیری هوش مصنوعی - ساخت مدلهای بزرگتر با قدرت محاسباتی بیشتر و دادههای آموزشی بیشتر - به وضوح کمکی نمیکرد. اوپنایآی اولین شرکتی بود که مدلی را به بازار عرضه کرد که حتی به نوع صحیح حل مسئله نزدیک شد. این شرکت پاییز گذشته مدلی به اصطلاح استدلالگر (reasoning model) به نام o1 را معرفی کرد که آلتمن بعداً آن را «هوشمندترین مدل جهان» نامید. مارک چن، مدیر ارشد تحقیقات اوپنایآی، به من گفت که این برنامه نشاندهنده یک «پارادایم جدید» است. این مدل طوری طراحی شده بود که رویکرد خود را به هر سؤالی بررسی و اصلاح کند و زمان بیشتری را صرف سؤالات سختتر کند، همانطور که یک انسان ممکن است انجام دهد. نسخه اولیه o1 در ARC-AGI نمره ۱۸ درصد کسب کرد - یک پیشرفت قطعی، اما هنوز بسیار پایینتر از عملکرد انسان. نسخه بعدی o1 به ۳۲ درصد رسید. شوله در سپتامبر به من گفت که اوپنایآی هنوز «راه درازی» تا رسیدن به هوش سیال در پیش دارد.
اما این وضعیت در شرف تغییر بود. در اواخر دسامبر، اوپنایآی پیشنمایشی از یک مدل استدلالگر پیشرفتهتر به نام o3 ارائه داد که نمره تکاندهنده ۸۷ درصد را در ARC-AGI کسب کرد - و آن را به اولین هوش مصنوعی تبدیل کرد که با عملکرد انسان در این آزمون برابری میکند و بهترین مدل از نظر عملکرد تا آن زمان بود. شوله این برنامه را یک «پیشرفت واقعی» توصیف کرد. به نظر میرسید o3 قادر است استراتژیهای مختلف را در لحظه ترکیب کند، دقیقاً همان نوع سازگاری و آزمایشی که برای موفقیت در ARC-AGI لازم است.
بدون اطلاع شوله، اوپنایآی آزمون او را «برای مدتی» زیر نظر داشت، همانطور که چن در ژانویه به من گفت. چن «نبوغ ARC» را ستود و مقاومت آن در برابر پاسخهای حفظ شده را «راه خوبی برای آزمودن تعمیمپذیری (generalization)» خواند، «که ما آن را ارتباط نزدیکی با استدلال میدانیم.» و با بهبود مستمر مدلهای استدلالگر این استارتآپ، ARC-AGI به عنوان یک چالش معنادار دوباره مطرح شد - تا جایی که تیم جایزه ARC برای اعلام o3 با اوپنایآی همکاری کرد و در طی آن آلتمن به آنها به خاطر «ساختن چنین بنچمارک عالی» تبریک گفت.
شوله، به نوبه خود، به من گفت که احساس میکند «کاملاً حقانیتش ثابت شده است.» آزمایشگاههای بزرگ هوش مصنوعی در حال پذیرش، حتی استانداردسازی، ایدههای چندین ساله او در مورد هوش سیال بودند. کافی نیست که مدلهای هوش مصنوعی اطلاعات را حفظ کنند: آنها باید استدلال و سازگاری داشته باشند. شوله گفت: «شرکتها میگویند به بنچمارک علاقهای ندارند، زیرا در آن بد عمل میکنند. لحظهای که در آن خوب شوند، عاشقش خواهند شد.»
بسیاری از طرفداران هوش مصنوعی وقتی o3 آزمون شوله را پشت سر گذاشت، به سرعت اعلام پیروزی کردند. یکی از بنیانگذاران استارتآپ در X نوشت: «هوش مصنوعی عمومی (AGI) در سال ۲۰۲۴ به دست آمد.» آلتمن در یک پست وبلاگی نوشت که «اکنون ما مطمئن هستیم که میدانیم چگونه AGI را به همان شکلی که به طور سنتی آن را درک کردهایم، بسازیم.» از آن زمان، گوگل، Anthropic، xAI و DeepSeek مدلهای «استدلالگر» خود را راهاندازی کردهاند و داریو آمودی، مدیر عامل Anthropic، گفته است که هوش مصنوعی عمومی ممکن است ظرف چند سال آینده از راه برسد.
اما شوله، که همیشه شکاک است، قانع نشده بود. او به من گفت، مطمئناً، AGI ممکن است نزدیکتر شده باشد - اما فقط به این معنا که قبلاً «بینهایت» دور بود. و درست زمانی که این مانع برداشته شد، او تصمیم گرفت مانع دیگری را ایجاد کند.
هفته گذشته، تیم جایزه ARC آزمون بهروز شدهای به نام ARC-AGI-2 را منتشر کرد و به نظر میرسد که هوشهای مصنوعی را به نقطه اول بازگردانده است. مدل کامل o3 هنوز آزمایش نشده است، اما نسخهای از o1 از ۳۲ درصد در پازلهای اصلی به تنها ۳ درصد در نسخه جدید سقوط کرد و یک نسخه «مینی» از o3 که در حال حاضر در دسترس عموم است، از تقریباً ۳۰ درصد به زیر ۲ درصد کاهش یافت. (سخنگوی اوپنایآی از گفتن اینکه آیا این شرکت قصد دارد بنچمارک را با o3 اجرا کند یا خیر، خودداری کرد.) سایر مدلهای پرچمدار اوپنایآی، Anthropic و گوگل تقریباً ۱ درصد یا حتی کمتر کسب کردهاند. میانگین نمره آزمایشکنندگان انسانی حدود ۶۰ درصد است.
شوله ماه گذشته به من گفت، اگر ARC-AGI-1 یک آزمون دودویی برای اینکه آیا یک مدل هوش سیال دارد یا خیر بود، نسخه دوم قصد دارد میزان هوشمندی یک هوش مصنوعی را اندازهگیری کند. شوله از سال ۲۰۲۲ در حال طراحی این پازلهای جدید بوده است؛ آنها اساساً نسخههای بسیار سختتر از نسخههای اصلی هستند. بسیاری از پاسخهای ARC-AGI برای انسانها بلافاصله قابل تشخیص بودند، در حالی که در ARC-AGI-2، افراد به طور متوسط پنج دقیقه طول کشید تا راه حل را پیدا کنند. شوله معتقد است که راه بهتر شدن در ARC-AGI-2، باهوشتر بودن است، نه مطالعه بیشتر - چالشی که ممکن است به پیشبرد صنعت هوش مصنوعی به سمت پیشرفتهای جدید کمک کند. او در حال تبدیل جایزه ARC به یک سازمان غیرانتفاعی است که به طراحی بنچمارکهای جدید برای هدایت پیشرفت این فناوری اختصاص دارد و از هم اکنون روی ARC-AGI-3 کار میکند.
مدلهای استدلالگر رویکردهای عجیب و غریب و غیرانسانی برای حل این شبکهها اتخاذ میکنند و افزایش زمان «تفکر» هزینه قابل توجهی خواهد داشت. برای رسیدن به ۸۷ درصد در آزمون اصلی ARC-AGI، o3 تقریباً ۱۴ دقیقه برای هر پازل صرف کرد و طبق محاسبات من، ممکن است صدها هزار دلار هزینه محاسبات و برق نیاز داشته باشد؛ این ربات بیش از ۱۰۰۰ پاسخ ممکن برای هر شبکه ارائه داد قبل از اینکه یک پاسخ نهایی را انتخاب کند. میچل، محقق هوش مصنوعی، گفت این رویکرد به جای استدلال انتزاعی و کارآمد، درجاتی از آزمون و خطا را نشان میدهد. شوله این ناکارآمدی را یک نقص مهلک میداند، اما آزمایشگاههای هوش مصنوعی شرکتی اینطور فکر نمیکنند. اگر چتباتها از این طریق به هوش سیال دست یابند، به این دلیل نخواهد بود که این فناوری به ذهن انسان نزدیک میشود: شما نمیتوانید فقط سلولهای مغزی بیشتری را در جمجمه یک فرد جا دهید، اما میتوانید به یک چتبات تراشههای کامپیوتری بیشتری بدهید.
در همین حال، چن به من گفت، اوپنایآی «در حال تغییر جهت به سمت ارزیابیهایی است که سودمندی را نیز منعکس میکنند»، مانند آزمونهایی برای سنجش توانایی یک مدل هوش مصنوعی در پیمایش و انجام اقدامات در وب - که به شرکت کمک میکند محصولات بهتری، هرچند نه لزوماً هوشمندتر، بسازد. خود اوپنایآی، نه برخی آزمونهای شخص ثالث، در نهایت تصمیم خواهد گرفت که محصولاتش چه زمانی مفید هستند، چگونه قیمتگذاری شوند (طبق یک گزارش، شاید ۲۰,۰۰۰ دلار در سال برای یک ربات «سطح دکترا») و آیا به AGI دست یافتهاند یا خیر. در واقع، این شرکت ممکن است از قبل معیار کلیدی AGI خود را داشته باشد: همانطور که The Information در اواخر سال گذشته گزارش داد، مایکروسافت و اوپنایآی به توافقی رسیدهاند که AGI را به عنوان نرمافزاری تعریف میکند که قادر به تولید تقریباً ۱۰۰ میلیارد دلار سود باشد. بر اساس اسنادی که اوپنایآی بین سرمایهگذاران توزیع کرده است، این تشخیص «در اختیار معقول هیئت مدیره اوپنایآی» است.
و مشکل اینجاست: هیچکس بر سر اینکه چه چیزی اندازهگیری میشود یا چرا، توافق ندارد. اگر برنامههای هوش مصنوعی در آزمون شوله بد عمل میکنند، شاید فقط به این معنی باشد که در تجسم شبکههای رنگارنگ مشکل دارند نه چیز عمیقتری. و رباتهایی که هرگز ARC-AGI-2 را حل نکنند، ممکن است روزی ۱۰۰ میلیارد دلار سود ایجاد کنند. هر آزمون خاصی - LSAT یا ARC-AGI یا یک پازل کدنویسی - ذاتاً با مفهوم هوش عمومی در تضاد خواهد بود؛ ویژگی تعیینکننده این اصطلاح ممکن است تعریفناپذیری آن باشد.
شاید مسئله عمیقتر این باشد که هوش انسان به خوبی درک نشده است و سنجش آن کاری بدنام، دشوار و متعصبانه است. افراد در چیزهای مختلف استعداد دارند، یا ممکن است از مسیرهای بسیار متفاوتی به نتیجه یکسانی برسند - پاسخ یک مسئله ریاضی، راه حل یک شبکه ARC-AGI. فردی که در ARC-AGI-2 نمره ۳۰ درصد میگیرد، به هیچ وجه از کسی که نمره ۹۰ درصد میگیرد، پستتر نیست. برخورد این مسیرها و ذهنهای متفاوت است که جرقه بحث، خلاقیت و زیبایی را میزند. نیتها، ارزشها و احساسات به هوش ما رنگ و بویی میبخشند که به راحتی قابل سنجش نیست.
شاید جستجو برای هوش مصنوعی عمومی کمتر درباره تکرار هوش انسانی و بیشتر درباره خلق چیزی کاملاً جدید باشد، نوع متفاوتی از هوش که برای وظایف خاص و پیچیدهای که انسانها با آنها دست و پنجه نرم میکنند، مناسب است. آزمونهای شوله، هرچند برای آشکار ساختن محدودیتها ارزشمند هستند، ممکن است صنعت را به سمت تعریفی خاص و انسانمحور از هوش هدایت کنند که تنها مسیر پیش رو نیست. در نهایت، ارزش هوش مصنوعی ممکن است نه در توانایی آن برای گذراندن آزمونهای انسانی، بلکه در ظرفیت آن برای تقویت قابلیتهای انسانی و حل مشکلات به روشهایی باشد که هنوز تصور نکردهایم.
بحث بر سر هوش مصنوعی عمومی، معیارها و ماهیت واقعی هوش بدون شک ادامه خواهد یافت. اما کار شوله به عنوان یک یادآوری حیاتی عمل میکند: در میان هیاهو و ارزشگذاریهای میلیارد دلاری، باید همچنان نسبت به آنچه هوش مصنوعی فعلی واقعاً میتواند انجام دهد، منتقد باشیم و درباره راه طولانی پیش رو، قبل از اینکه ماشینها واقعاً بتوانند به معنایی که ما میفهمیم - یا شاید، به روشی کاملاً مختص به خودشان - «هوشمند» نامیده شوند، دیدی شفاف داشته باشیم.