تصویرسازی از متیو لابِرِک
تصویرسازی از متیو لابِرِک

مردی که می‌خواهد ثابت کند هوش مصنوعی هنوز چقدر نادان است

فرانسوا شوله آزمون نهایی را برای ربات‌ها طراحی کرده است.

در اعماق وجود، سم آلتمن و فرانسوا شوله رویای مشترکی دارند. آن‌ها می‌خواهند مدل‌های هوش مصنوعی بسازند که به «هوش مصنوعی عمومی» (AGI) دست یابند – یعنی با قابلیت‌های ذهن انسان برابری کرده یا از آن فراتر روند. تفاوت بین این دو مرد در این است که آلتمن اشاره کرده شرکتش، اوپن‌ای‌آی (OpenAI)، تقریباً این فناوری را ساخته است. شوله، دانشمند کامپیوتر فرانسوی و یکی از تیزبین‌ترین منتقدان این صنعت، گفته است که این تصور «کاملاً مضحک» است.

وقتی اوایل امسال با او صحبت کردم، شوله به من گفت که شرکت‌های هوش مصنوعی مدت‌هاست در القای این که ماشین‌هایشان در مسیر نوعی دانش برتر قرار دارند، «از نظر فکری تنبل» بوده‌اند. در این مقطع، این ادعاها عمدتاً بر اساس توانایی برنامه‌ها در گذراندن آزمون‌های خاص (مانند LSAT، زیست‌شناسی پیشرفته AP و حتی یک آزمون مقدماتی سوملیه) استوار است. چت‌بات‌ها ممکن است چشمگیر باشند. اما به عقیده شوله، آن‌ها واقعاً هوشمند نیستند.

شوله، مانند آلتمن و دیگر بزرگان فناوری، مدل‌های هوش مصنوعی را تصور می‌کند که می‌توانند هر مشکل قابل تصوری را حل کنند: بیماری، تغییرات اقلیمی، فقر، سفرهای بین‌ستاره‌ای. یک ربات برای انجام کار شما نیازی ندارد که از راه دور «هوشمند» باشد. اما برای اینکه این فناوری حتی کسری از آرزوهای این صنعت را برآورده کند - تا به یک محقق «شبیه انیشتین» تبدیل شود، همانطور که شوله به من گفت - مدل‌های هوش مصنوعی باید فراتر از تقلید وظایف اساسی یا حتی گردآوری گزارش‌های تحقیقاتی پیچیده رفته و مقداری نبوغ از خود نشان دهند.

شوله فقط یک منتقد نیست و سازش‌ناپذیر هم نیست. او تجربه قابل توجهی در توسعه هوش مصنوعی دارد و آزمونی را ایجاد کرده که اکنون برجسته است تا بسنجد آیا ماشین‌ها می‌توانند این نوع تفکر را انجام دهند یا خیر. سال‌هاست که او تحقیقات عمده‌ای در زمینه یادگیری عمیق انجام داده است، از جمله در گوگل، جایی که از سال ۲۰۱۵ تا نوامبر گذشته به عنوان مهندس نرم‌افزار کار می‌کرد؛ او می‌خواهد هوش مصنوعی مولد انقلابی باشد، اما نگران است که این صنعت منحرف شده باشد. در سال ۲۰۱۹، شوله «کورپوس انتزاع و استدلال برای هوش مصنوعی عمومی» (ARC-AGI) را ایجاد کرد - آزمونی که برای نشان دادن شکاف بین پاسخ‌های حفظ شده مدل‌های هوش مصنوعی و «هوش سیال» (fluid intelligence) که انسان‌ها دارند، طراحی شده است. شوله با الهام از علوم شناختی، چنین هوشی را به عنوان توانایی کسب سریع مهارت‌ها و حل مشکلات ناآشنا از اصول اولیه توصیف کرد، نه فقط حفظ حجم عظیمی از داده‌های آموزشی و بازگویی اطلاعات. (سال گذشته، او جایزه ARC را راه‌اندازی کرد، مسابقه‌ای برای شکستن معیار او با صندوق جایزه ۱ میلیون دلاری.)

شما، به عنوان یک انسان، احتمالاً این آزمون را قبول می‌شوید. اما سال‌ها بود که چت‌بات‌ها با آن اوقات ناخوشایندی داشتند. اکثر مردم، با وجود اینکه قبلاً هرگز با ARC-AGI مواجه نشده‌اند، نمراتی در حدود ۶۰ تا ۷۰ درصد کسب می‌کنند. GPT-3، برنامه‌ای که به ChatGPT تبدیل شد، ربات افسانه‌ای و تحریف‌کننده واقعیت، نمره صفر گرفت. تنها اخیراً ربات‌ها شروع به جبران کرده‌اند.

چگونه چنین ابزارهای قدرتمندی برای مدت طولانی در این آزمون به طرز چشمگیری شکست خوردند؟ اینجاست که تعریف شوله از هوش مطرح می‌شود. از نظر او، یک چت‌بات که تریلیون‌ها سؤال سبک SAT، لوایح حقوقی و خطوط کد را تجزیه و تحلیل کرده است، چندان باهوش نیست بلکه بیشتر برای آزمون SAT، آزمون دانشکده حقوق، مسائل پیشرفته کدنویسی یا هر چیز دیگری، خوب آماده شده است. کودکی که پس از یادگیری ضرب و تقسیم، مسائل کلامی دشوار را حل می‌کند، هوشمند است.

آزمون ARC-AGI ساده است، اما نیازمند حس ادراک قوی و به نوعی قضاوت است. این آزمون شامل مجموعه‌ای از شبکه‌های ناقص است که شرکت‌کننده باید بر اساس قوانینی که از چند مثال استنباط می‌کند، آن‌ها را رنگ‌آمیزی کند؛ برای مثال، ممکن است دنباله‌ای از تصاویر را ببیند و مشاهده کند که یک کاشی آبی همیشه توسط کاشی‌های نارنجی احاطه شده است، سپس تصویر بعدی را بر این اساس تکمیل کند. چندان با نقاشی با اعداد تفاوتی ندارد.

این آزمون برای مدت طولانی برای شرکت‌های بزرگ هوش مصنوعی غیرقابل حل به نظر می‌رسید. GPT-4، که اوپن‌ای‌آی در سال ۲۰۲۳ با افتخار اعلام کرد «قابلیت‌های استدلال پیشرفته» دارد، عملکرد چندان بهتری نسبت به صفر درصد کسب شده توسط مدل قبلی خود نداشت. یک سال بعد، GPT-4o، که این استارت‌آپ آن را با نمایش «هوش متنی، استدلالی و کدنویسی» بازاریابی کرد، تنها ۵ درصد به دست آورد. Gemini 1.5 و Claude 3.7، مدل‌های پرچمدار گوگل و Anthropic، به ترتیب ۵ و ۱۴ درصد کسب کردند. این مدل‌ها ممکن است در چند پازل شانس آورده باشند، اما از نظر شوله، ذره‌ای استدلال انتزاعی (abstract reasoning) از خود نشان نداده بودند. او به من گفت: «اگر هوشمند نبودی، مانند کل سری GPT، اساساً نمره صفر می‌گرفتی.» از دیدگاه او، بزرگان فناوری حتی در مسیر درستی برای ساختن انیشتین مصنوعی خود نبودند.

شوله شبکه‌ها را طوری طراحی کرد که بسیار متمایز باشند، به طوری که پازل‌های مشابه یا اطلاعات مرتبط نتوانند به طور ناخواسته در داده‌های آموزشی یک مدل گنجانده شوند - مشکلی رایج در بنچمارک‌های هوش مصنوعی. یک شرکت‌کننده در آزمون باید با هر پازل از نو شروع کند و مفاهیم اساسی شمارش و هندسه را به کار گیرد. اکثر ارزیابی‌های دیگر هوش مصنوعی و آزمون‌های استاندارد در مقایسه خام هستند - آن‌ها برای ارزیابی جنبه کیفی و متمایز تفکر طراحی نشده‌اند. اما ARC-AGI توانایی «برداشتن مفاهیمی که می‌دانید و به کار بردن آن‌ها در موقعیت‌های جدید به طور بسیار کارآمد» را بررسی می‌کند، همانطور که ملانی میچل، محقق هوش مصنوعی در موسسه سانتافه، به من گفت.

برای بهبود عملکرد خود، سیلیکون ولی نیاز به تغییر رویکرد خود داشت. مقیاس‌پذیری هوش مصنوعی - ساخت مدل‌های بزرگتر با قدرت محاسباتی بیشتر و داده‌های آموزشی بیشتر - به وضوح کمکی نمی‌کرد. اوپن‌ای‌آی اولین شرکتی بود که مدلی را به بازار عرضه کرد که حتی به نوع صحیح حل مسئله نزدیک شد. این شرکت پاییز گذشته مدلی به اصطلاح استدلال‌گر (reasoning model) به نام o1 را معرفی کرد که آلتمن بعداً آن را «هوشمندترین مدل جهان» نامید. مارک چن، مدیر ارشد تحقیقات اوپن‌ای‌آی، به من گفت که این برنامه نشان‌دهنده یک «پارادایم جدید» است. این مدل طوری طراحی شده بود که رویکرد خود را به هر سؤالی بررسی و اصلاح کند و زمان بیشتری را صرف سؤالات سخت‌تر کند، همانطور که یک انسان ممکن است انجام دهد. نسخه اولیه o1 در ARC-AGI نمره ۱۸ درصد کسب کرد - یک پیشرفت قطعی، اما هنوز بسیار پایین‌تر از عملکرد انسان. نسخه بعدی o1 به ۳۲ درصد رسید. شوله در سپتامبر به من گفت که اوپن‌ای‌آی هنوز «راه درازی» تا رسیدن به هوش سیال در پیش دارد.

اما این وضعیت در شرف تغییر بود. در اواخر دسامبر، اوپن‌ای‌آی پیش‌نمایشی از یک مدل استدلال‌گر پیشرفته‌تر به نام o3 ارائه داد که نمره تکان‌دهنده ۸۷ درصد را در ARC-AGI کسب کرد - و آن را به اولین هوش مصنوعی تبدیل کرد که با عملکرد انسان در این آزمون برابری می‌کند و بهترین مدل از نظر عملکرد تا آن زمان بود. شوله این برنامه را یک «پیشرفت واقعی» توصیف کرد. به نظر می‌رسید o3 قادر است استراتژی‌های مختلف را در لحظه ترکیب کند، دقیقاً همان نوع سازگاری و آزمایشی که برای موفقیت در ARC-AGI لازم است.

بدون اطلاع شوله، اوپن‌ای‌آی آزمون او را «برای مدتی» زیر نظر داشت، همانطور که چن در ژانویه به من گفت. چن «نبوغ ARC» را ستود و مقاومت آن در برابر پاسخ‌های حفظ شده را «راه خوبی برای آزمودن تعمیم‌پذیری (generalization)» خواند، «که ما آن را ارتباط نزدیکی با استدلال می‌دانیم.» و با بهبود مستمر مدل‌های استدلال‌گر این استارت‌آپ، ARC-AGI به عنوان یک چالش معنادار دوباره مطرح شد - تا جایی که تیم جایزه ARC برای اعلام o3 با اوپن‌ای‌آی همکاری کرد و در طی آن آلتمن به آن‌ها به خاطر «ساختن چنین بنچمارک عالی» تبریک گفت.

شوله، به نوبه خود، به من گفت که احساس می‌کند «کاملاً حقانیتش ثابت شده است.» آزمایشگاه‌های بزرگ هوش مصنوعی در حال پذیرش، حتی استانداردسازی، ایده‌های چندین ساله او در مورد هوش سیال بودند. کافی نیست که مدل‌های هوش مصنوعی اطلاعات را حفظ کنند: آن‌ها باید استدلال و سازگاری داشته باشند. شوله گفت: «شرکت‌ها می‌گویند به بنچمارک علاقه‌ای ندارند، زیرا در آن بد عمل می‌کنند. لحظه‌ای که در آن خوب شوند، عاشقش خواهند شد.»

بسیاری از طرفداران هوش مصنوعی وقتی o3 آزمون شوله را پشت سر گذاشت، به سرعت اعلام پیروزی کردند. یکی از بنیانگذاران استارت‌آپ در X نوشت: «هوش مصنوعی عمومی (AGI) در سال ۲۰۲۴ به دست آمد.» آلتمن در یک پست وبلاگی نوشت که «اکنون ما مطمئن هستیم که می‌دانیم چگونه AGI را به همان شکلی که به طور سنتی آن را درک کرده‌ایم، بسازیم.» از آن زمان، گوگل، Anthropic، xAI و DeepSeek مدل‌های «استدلال‌گر» خود را راه‌اندازی کرده‌اند و داریو آمودی، مدیر عامل Anthropic، گفته است که هوش مصنوعی عمومی ممکن است ظرف چند سال آینده از راه برسد.

اما شوله، که همیشه شکاک است، قانع نشده بود. او به من گفت، مطمئناً، AGI ممکن است نزدیک‌تر شده باشد - اما فقط به این معنا که قبلاً «بی‌نهایت» دور بود. و درست زمانی که این مانع برداشته شد، او تصمیم گرفت مانع دیگری را ایجاد کند.

هفته گذشته، تیم جایزه ARC آزمون به‌روز شده‌ای به نام ARC-AGI-2 را منتشر کرد و به نظر می‌رسد که هوش‌های مصنوعی را به نقطه اول بازگردانده است. مدل کامل o3 هنوز آزمایش نشده است، اما نسخه‌ای از o1 از ۳۲ درصد در پازل‌های اصلی به تنها ۳ درصد در نسخه جدید سقوط کرد و یک نسخه «مینی» از o3 که در حال حاضر در دسترس عموم است، از تقریباً ۳۰ درصد به زیر ۲ درصد کاهش یافت. (سخنگوی اوپن‌ای‌آی از گفتن اینکه آیا این شرکت قصد دارد بنچمارک را با o3 اجرا کند یا خیر، خودداری کرد.) سایر مدل‌های پرچمدار اوپن‌ای‌آی، Anthropic و گوگل تقریباً ۱ درصد یا حتی کمتر کسب کرده‌اند. میانگین نمره آزمایش‌کنندگان انسانی حدود ۶۰ درصد است.

شوله ماه گذشته به من گفت، اگر ARC-AGI-1 یک آزمون دودویی برای اینکه آیا یک مدل هوش سیال دارد یا خیر بود، نسخه دوم قصد دارد میزان هوشمندی یک هوش مصنوعی را اندازه‌گیری کند. شوله از سال ۲۰۲۲ در حال طراحی این پازل‌های جدید بوده است؛ آن‌ها اساساً نسخه‌های بسیار سخت‌تر از نسخه‌های اصلی هستند. بسیاری از پاسخ‌های ARC-AGI برای انسان‌ها بلافاصله قابل تشخیص بودند، در حالی که در ARC-AGI-2، افراد به طور متوسط پنج دقیقه طول کشید تا راه حل را پیدا کنند. شوله معتقد است که راه بهتر شدن در ARC-AGI-2، باهوش‌تر بودن است، نه مطالعه بیشتر - چالشی که ممکن است به پیشبرد صنعت هوش مصنوعی به سمت پیشرفت‌های جدید کمک کند. او در حال تبدیل جایزه ARC به یک سازمان غیرانتفاعی است که به طراحی بنچمارک‌های جدید برای هدایت پیشرفت این فناوری اختصاص دارد و از هم اکنون روی ARC-AGI-3 کار می‌کند.

مدل‌های استدلال‌گر رویکردهای عجیب و غریب و غیرانسانی برای حل این شبکه‌ها اتخاذ می‌کنند و افزایش زمان «تفکر» هزینه قابل توجهی خواهد داشت. برای رسیدن به ۸۷ درصد در آزمون اصلی ARC-AGI، o3 تقریباً ۱۴ دقیقه برای هر پازل صرف کرد و طبق محاسبات من، ممکن است صدها هزار دلار هزینه محاسبات و برق نیاز داشته باشد؛ این ربات بیش از ۱۰۰۰ پاسخ ممکن برای هر شبکه ارائه داد قبل از اینکه یک پاسخ نهایی را انتخاب کند. میچل، محقق هوش مصنوعی، گفت این رویکرد به جای استدلال انتزاعی و کارآمد، درجاتی از آزمون و خطا را نشان می‌دهد. شوله این ناکارآمدی را یک نقص مهلک می‌داند، اما آزمایشگاه‌های هوش مصنوعی شرکتی اینطور فکر نمی‌کنند. اگر چت‌بات‌ها از این طریق به هوش سیال دست یابند، به این دلیل نخواهد بود که این فناوری به ذهن انسان نزدیک می‌شود: شما نمی‌توانید فقط سلول‌های مغزی بیشتری را در جمجمه یک فرد جا دهید، اما می‌توانید به یک چت‌بات تراشه‌های کامپیوتری بیشتری بدهید.

در همین حال، چن به من گفت، اوپن‌ای‌آی «در حال تغییر جهت به سمت ارزیابی‌هایی است که سودمندی را نیز منعکس می‌کنند»، مانند آزمون‌هایی برای سنجش توانایی یک مدل هوش مصنوعی در پیمایش و انجام اقدامات در وب - که به شرکت کمک می‌کند محصولات بهتری، هرچند نه لزوماً هوشمندتر، بسازد. خود اوپن‌ای‌آی، نه برخی آزمون‌های شخص ثالث، در نهایت تصمیم خواهد گرفت که محصولاتش چه زمانی مفید هستند، چگونه قیمت‌گذاری شوند (طبق یک گزارش، شاید ۲۰,۰۰۰ دلار در سال برای یک ربات «سطح دکترا») و آیا به AGI دست یافته‌اند یا خیر. در واقع، این شرکت ممکن است از قبل معیار کلیدی AGI خود را داشته باشد: همانطور که The Information در اواخر سال گذشته گزارش داد، مایکروسافت و اوپن‌ای‌آی به توافقی رسیده‌اند که AGI را به عنوان نرم‌افزاری تعریف می‌کند که قادر به تولید تقریباً ۱۰۰ میلیارد دلار سود باشد. بر اساس اسنادی که اوپن‌ای‌آی بین سرمایه‌گذاران توزیع کرده است، این تشخیص «در اختیار معقول هیئت مدیره اوپن‌ای‌آی» است.

و مشکل اینجاست: هیچ‌کس بر سر اینکه چه چیزی اندازه‌گیری می‌شود یا چرا، توافق ندارد. اگر برنامه‌های هوش مصنوعی در آزمون شوله بد عمل می‌کنند، شاید فقط به این معنی باشد که در تجسم شبکه‌های رنگارنگ مشکل دارند نه چیز عمیق‌تری. و ربات‌هایی که هرگز ARC-AGI-2 را حل نکنند، ممکن است روزی ۱۰۰ میلیارد دلار سود ایجاد کنند. هر آزمون خاصی - LSAT یا ARC-AGI یا یک پازل کدنویسی - ذاتاً با مفهوم هوش عمومی در تضاد خواهد بود؛ ویژگی تعیین‌کننده این اصطلاح ممکن است تعریف‌ناپذیری آن باشد.

شاید مسئله عمیق‌تر این باشد که هوش انسان به خوبی درک نشده است و سنجش آن کاری بدنام، دشوار و متعصبانه است. افراد در چیزهای مختلف استعداد دارند، یا ممکن است از مسیرهای بسیار متفاوتی به نتیجه یکسانی برسند - پاسخ یک مسئله ریاضی، راه حل یک شبکه ARC-AGI. فردی که در ARC-AGI-2 نمره ۳۰ درصد می‌گیرد، به هیچ وجه از کسی که نمره ۹۰ درصد می‌گیرد، پست‌تر نیست. برخورد این مسیرها و ذهن‌های متفاوت است که جرقه بحث، خلاقیت و زیبایی را می‌زند. نیت‌ها، ارزش‌ها و احساسات به هوش ما رنگ و بویی می‌بخشند که به راحتی قابل سنجش نیست.

شاید جستجو برای هوش مصنوعی عمومی کمتر درباره تکرار هوش انسانی و بیشتر درباره خلق چیزی کاملاً جدید باشد، نوع متفاوتی از هوش که برای وظایف خاص و پیچیده‌ای که انسان‌ها با آن‌ها دست و پنجه نرم می‌کنند، مناسب است. آزمون‌های شوله، هرچند برای آشکار ساختن محدودیت‌ها ارزشمند هستند، ممکن است صنعت را به سمت تعریفی خاص و انسان‌محور از هوش هدایت کنند که تنها مسیر پیش رو نیست. در نهایت، ارزش هوش مصنوعی ممکن است نه در توانایی آن برای گذراندن آزمون‌های انسانی، بلکه در ظرفیت آن برای تقویت قابلیت‌های انسانی و حل مشکلات به روش‌هایی باشد که هنوز تصور نکرده‌ایم.

بحث بر سر هوش مصنوعی عمومی، معیارها و ماهیت واقعی هوش بدون شک ادامه خواهد یافت. اما کار شوله به عنوان یک یادآوری حیاتی عمل می‌کند: در میان هیاهو و ارزش‌گذاری‌های میلیارد دلاری، باید همچنان نسبت به آنچه هوش مصنوعی فعلی واقعاً می‌تواند انجام دهد، منتقد باشیم و درباره راه طولانی پیش رو، قبل از اینکه ماشین‌ها واقعاً بتوانند به معنایی که ما می‌فهمیم - یا شاید، به روشی کاملاً مختص به خودشان - «هوشمند» نامیده شوند، دیدی شفاف داشته باشیم.