ژان رمی کینگ
ژان رمی کینگ

مصاحبه با ژان-رمی کینگ، متخصص علوم اعصاب متا: «برخی از مفاهیم مانند استدلال ممکن است نیاز به ارزیابی مجدد داشته باشند»

ژان-رمی کینگ، متخصص علوم اعصاب، رهبری تیم مغز و هوش مصنوعی را در بخش هوش مصنوعی متا بر عهده دارد. او در مصاحبه‌ای با دِکودر، درباره ارتباط بین هوش مصنوعی و علوم اعصاب، چالش‌های پیش‌بینی بلندمدت در مدل‌ها، کدگذاری پیش‌بینی‌کننده، پرسش سیستم‌های چندوجهی و جستجوی اصول شناختی در معماری‌های مصنوعی بحث می‌کند.

دِکودر: آقای کینگ، اجازه دهید با یک سوال ساده شروع کنیم: چگونه متا اساساً به علوم اعصاب علاقه‌مند شد؟ در نگاه اول، این یک مسیر غیرعادی به نظر می‌رسد - از یک شبکه اجتماعی به تحقیقات علوم اعصاب.

ژان رمی کینگ: بله، من در متا در FAIR، آزمایشگاه تحقیقات هوش مصنوعی بنیادی، کار می‌کنم. این آزمایشگاه توسط یان لکون (Yann LeCun) کمی بیش از ده سال پیش راه‌اندازی شد. ایده آن زمان ایجاد یک آزمایشگاه اختصاص داده شده به تحقیقات بنیادی هوش مصنوعی بود. حتی در آن زمان، صنعت گسترده‌تر - و به ویژه مارک زاکربرگ - تشخیص داد که هوش مصنوعی چقدر می‌تواند برای بخش فناوری تأثیرگذار باشد. بنابراین، برای شرکت بسیار مهم بود که در لبه‌ی دانش در این زمینه باقی بماند.

FAIR از آن زمان تاکنون بسیار رشد کرده است. در ابتدا، بیشتر محققان در زمینه بینایی کامپیوتر و پردازش زبان طبیعی کار می‌کردند. در نقطه‌ای، تصمیمی گرفته شد تا اطمینان حاصل شود که پورتفوی متنوع‌تری از محققان وجود دارد، به طوری که همه به یک شکل فکر نکنند. چند فیزیکدان استخدام شدند و من به عنوان یک متخصص علوم اعصاب آورده شدم - احتمالاً برای گسترش آن پورتفوی.

این از هیچ جا نیامد. علوم اعصاب و هوش مصنوعی از ابتدا در هم تنیده شده‌اند. به همین دلیل است که ما در مورد شبکه‌های عصبی مصنوعی صحبت می‌کنیم. ایده لایه‌های سلسله مراتبی در الگوریتم‌ها در واقع از علوم اعصاب سیستم سرچشمه می‌گیرد و این دو حوزه در طول سال‌ها پیوندهای زیادی با هم داشته‌اند. من معتقدم یان و جوئل پینو (Joelle Pineau) اهمیت ادامه فشار در این جهت را دیدند و احتمالاً به همین دلیل من استخدام شدم.

با این حال، من همیشه هنگام پاسخ دادن به این سوال کمی معذب هستم - هیچ کس این را مستقیماً به من نگفت. من فقط استخدام شدم و سپس آزادی عمل داده شد تا تحقیقاتی را که قبلاً روی آن کار می‌کردم، ادامه دهم.

دِکودر: آیا کار شما همیشه در تقاطع هوش مصنوعی و علوم اعصاب قرار داشته است؟

ژان رمی کینگ: من مدرک کارشناسی خود را در هوش مصنوعی و علوم شناختی بیش از 20 سال پیش گرفتم، که اعتراف به آن کمی دلهره‌آور است. حتی در آن زمان، من در تقاطع این دو حوزه قرار داشتم. در دوران نوجوانی - و حتی در کودکی - مجذوب رباتیک و ایده ساخت سیستم‌های هوشمند بودم. البته، در آن زمان، چیزی شبیه به یک زمستان هوش مصنوعی بود.

پس از تحصیلات کارشناسی، شروع به این فکر کردم که علوم اعصاب ممکن است به عنوان یک رشته کمی بالغ‌تر باشد، بنابراین از علوم کامپیوتر فاصله گرفتم. من مدرک کارشناسی ارشد و دکتری خود را بیشتر در سمت علوم اعصاب دنبال کردم و از الگوریتم‌های یادگیری ماشین عمدتاً به عنوان ابزاری برای تجزیه و تحلیل داده‌های پیچیده استفاده می‌کردم - نه به عنوان وسیله‌ای برای ساخت سیستم‌های هوشمند. در آن زمان، بیشتر شبیه آمار روی استروئیدها بود تا یک هدف علمی به خودی خود.

اما در حدود سال‌های 2011-2012، همه چیز در آنچه اکنون یادگیری عمیق می‌نامیم، شروع به سرعت گرفتن کرد. این زمانی بود که من به مرز بین علوم اعصاب و هوش مصنوعی بازگشتم، این بار با هدف بررسی اینکه آیا اصول کلی وجود دارد که استدلال خودمان را شکل می‌دهد - اصولی که می‌تواند در مورد الگوریتم‌ها نیز اعمال شود.

دِکودر: آیا تحقیق شما با هوش مصنوعی درک مفهومی شما از مغز را تغییر داده است؟

ژان رمی کینگ: من فکر می‌کنم مطالعه مغز یکی از راه‌هایی است که شما را مجبور می‌کند در مورد اینکه فکر کردن واقعاً به چه معناست، تجدید نظر کنید. هوش مصنوعی امروزی نیز این را روشن می‌کند که برخی از مفاهیمی که ما بدیهی می‌دانیم - مانند استدلال یا فکر کردن - ممکن است با توجه به آنچه الگوریتم‌های یادگیری عمیق اکنون قادر به انجام آن هستند، نیاز به ارزیابی مجدد داشته باشند.

برای کسانی که در این زمینه کار می‌کنند، این یک منبع عمیق کنجکاوی و شگفتی است. این ایده که هوش و استدلال می‌تواند از چیزی به اندازه تعامل مکانیکی سلول‌ها - شلیک پتانسیل عمل در مغز - ناشی شود، یک سوال عمیقاً قانع‌کننده است.

بنابراین اینطور نیست که هوش مصنوعی باعث شد من در این ایده‌ها تجدید نظر کنم. بلکه من از قبل عمیقاً مجذوب این ایده بودم که فکر کردن، در هسته خود، باید مبتنی بر فیزیک باشد. این همان چیزی بود که در وهله اول مرا به این حوزه کشاند و من فکر می‌کنم بسیاری از همکارانم مسیر مشابهی را دنبال کردند.

دِکودر: آیا شما یک "نظریه مورد علاقه" شخصی در مورد نحوه عملکرد مغز دارید؟ در مقالات خود، اغلب به کدگذاری پیش‌بینی‌کننده اشاره می‌کنید. آیا این چارچوبی است که شما به طور خاص امیدوارکننده می‌دانید؟

ژان رمی کینگ: این یک سوال دشوار است، زیرا من فکر می‌کنم بسیاری از ما رابطه ای عاشقانه و متنفرانه با کدگذاری پیش‌بینی‌کننده داریم. این چارچوبی است که ابتدا توسط Rao and Ballard در دهه 1990 رایج شد و سپس به طور گسترده توسط کارل فریستون (Karl Friston) در دهه 2000 در علوم اعصاب سیستم ترویج شد.

فریستون یک چهره جذاب در علم است. او هم ایده‌های فوق‌العاده اصلی و هم تمایلی به پنهان کردن آنها در پشت ریاضیات متراکم و اغلب مبهم دارد. گاهی اوقات، هنگام خواندن معادلات او، یک لحظه طول می‌کشد تا متوجه شوید که آنها در واقع مفاهیم آشنا هستند - فقط در فرمالیسم‌های بسیار غیرمعمول بیان شده‌اند. و به نوعی، این بازتابی از خود نظریه است.

ایده‌های قانع‌کننده زیادی در فرمولاسیون اصلی کدگذاری پیش‌بینی‌کننده وجود دارد. اما وقتی صحبت از این می‌شود که نظریه را به اندازه کافی دقیق کنیم تا پیش‌بینی‌های خاص و قابل آزمایش ایجاد کند، بسیار دشوار می‌شود. این چالش است - ترجمه این مفاهیم گسترده به مدل‌های مبتنی بر تجربه.

با این حال، بسیاری از ایده‌های کلی واقعاً جالب هستند. در هوش مصنوعی و در کدگذاری پیش‌بینی‌کننده، یک ایده مرکزی این است که سوق دادن یک سیستم برای به حداقل رساندن خطای پیش‌بینی خود می‌تواند یک اصل کافی برای ظهور هوش باشد. مفهوم این است که با یادگیری پیش‌بینی جهان، یک سیستم بازنمایی‌های میانی مفیدی ایجاد می‌کند. این ایده در قلب این نظریه قرار دارد.

اما چرا این فرآیند کافی است - چرا به حداقل رساندن خطای پیش‌بینی منجر به بازنمایی‌های هوشمند می‌شود - هنوز مشخص نیست. ما این بهینه‌سازی را در الگوریتم‌های خود می‌بینیم، جایی که می‌توانیم آن را کنترل و درک کنیم. اما ظاهراً، اتفاق مشابهی در مغز در حال رخ دادن است. و با این حال، این واقعیت که این به تنهایی ممکن است باعث ایجاد پردازش هوشمند شود، هنوز چیزی است که ما به طور کامل درک نمی‌کنیم. ممکن است یک شرط لازم نباشد، اما به طور فزاینده‌ای به نظر می‌رسد که یک شرط کافی است.

بنابراین، برای پاسخ دادن به سوال شما - من یک نظریه مورد علاقه ندارم. مانند بسیاری از همکارانم، من بیشتر به بررسی این نظریه‌های بزرگ و گاهی اوقات دست و پا گیر علاقه‌مند هستم تا ببینم آیا حاوی قطعات گمشده هستند - مفاهیمی که می‌توانند به ما در درک بهتر نحوه عملکرد واقعی مغز کمک کنند.

دِکودر: در یکی از مقالات قبلی خود، نوشتید که توالی کلمات - ترتیب کلمات جداگانه - به سرعت غیرقابل پیش‌بینی می‌شود، در حالی که معنای آنها ممکن است پایدارتر بماند. شما پیشنهاد می‌کنید که برای یک سیستم هوشمند، ممکن است مهم باشد نه تنها کلمات بعدی را پیش‌بینی کند، بلکه بازنمایی‌های انتزاعی و سلسله مراتبی را در بازه‌های زمانی طولانی‌تر پیش‌بینی کند. من کنجکاو هستم: آیا در تحقیقات اخیر خود - به ویژه در رابطه با سایر روش‌ها مانند تصاویر یا فیلم‌ها، که در آن چالش‌های مشابهی ایجاد می‌شود - بینش جدیدی در این مورد به دست آورده‌اید؟

ژان رمی کینگ: آنچه پس از انتشار آن مقاله برای ما آشکار شد - و من فکر می‌کنم این هنوز هم صادق است - این است که صرفاً پیش‌بینی آنچه قرار است بعد از یک مشاهده رخ دهد، کافی نیست. به همان اندازه مهم است که پیش‌بینی کنیم چه اتفاقی بسیار بعدتر، فراتر از لحظه بلافاصله رخ خواهد داد. این یک هدف ارزشمند است، اما در عمل، بسیار دشوار است.

حتی مدل‌های امروزی که می‌توانند پیش‌بینی چند توکنی را انجام دهند، مقیاس‌پذیری خوبی ندارند. ساخت مدلی که بتواند یک پاراگراف یا صفحه کامل را به طور همزمان تولید کند، هنوز هم فوق‌العاده چالش‌برانگیز است. این نوع پیش‌بینی بلندمدت چیزی نیست که سیستم‌های فعلی به راحتی انجام دهند.

اعتقاد راسخ من این است که این یک مشکل واقعاً سخت است: فهمیدن اینکه چه نوع معماری‌هایی می‌توانند استنتاج بلندمدت را در فضای نهفته پشتیبانی کنند. ترانسفورماتور کلاسیک، همانطور که امروز داریم، از این نظر محدود است.

درون گروه خود، تصمیم گرفته‌ایم یک قدم به عقب برگردیم و سعی نکنیم خودمان این معماری‌ها را اختراع کنیم - عمدتاً به این دلیل که تیم‌های زیادی در حال حاضر صرفاً از دیدگاه هوش مصنوعی روی این مشکل کار می‌کنند. بعید به نظر می‌رسد که یک معماری پیشگام مستقیماً از یک آزمایشگاه علوم اعصاب بیرون بیاید. با این حال، ما هنوز با دیگران که روی چالش‌های مجاور کار می‌کنند، همکاری می‌کنیم.

به عنوان مثال، در FAIR تیمی داریم که بر بینایی کامپیوتر برای ویدیو تمرکز دارد. در آنجا نیز هدف فقط پیش‌بینی فریم ویدیویی بعدی نیست، بلکه پیش‌بینی این است که چه اتفاقی ممکن است 10 ثانیه یا حتی یک دقیقه بعد رخ دهد. این یک چالش عظیم از نظر علوم کامپیوتر است.

ما همچنین افرادی داریم که روی تولید کد کار می‌کنند. در آن زمینه، پیش‌بینی کاراکتر بعدی در یک خط کد مفید نیست. در حالت ایده‌آل، شما می‌خواهید یک مدل یک ساختار کامل را تولید کند - مثلاً مجموعه‌ای از توابع، که کلاس‌ها را فراخوانی می‌کنند، که با یک مجموعه داده تعامل دارند. صرفاً پیش‌بینی توکن بعدی اغلب بهترین راه برای استدلال از طریق آن فرآیند نیست.

بنابراین در حالی که ما این ایده‌ها را بررسی کرده‌ایم، نمی‌توانم بگویم که چیزی را حل کرده‌ایم. چیزی که ما بیشتر آموخته‌ایم این است که این مشکل واقعاً چقدر دشوار است.

دِکودر: و در مورد پیشرفت در سمت هوش مصنوعی چطور؟ آیا پیشرفت‌های اخیر تفکر انسانی را در این زمینه دقیق‌تر به تصویر کشیده‌اند - یا هنوز از آن دور هستیم؟

ژان رمی کینگ: من پیشرفت را می‌بینم - اما واضح است که همه چیز مسیری را که بسیاری در آغاز رونق LLM پیش‌بینی می‌کردند، دنبال نکرده است. هنگامی که مدل‌هایی مانند ChatGPT برای اولین بار ظاهر شدند، این باور گسترده وجود داشت که مقیاس‌پذیری تمام چیزی است که ما نیاز داریم. مردم می‌گفتند: "فقط مدل‌ها را بزرگتر کنید، داده‌های بیشتری به آنها بدهید و هوش به دنبال آن خواهد آمد."

اکنون، بیش از سه سال بعد، واضح است که مقیاس‌پذیری به تنهایی کافی نیست. بله، عملکرد با اندازه بهبود می‌یابد، اما نه با سرعتی که معقول یا پایدار باشد. بسیاری از شرکت‌ها این رویکرد زور بازو را امتحان کرده‌اند و در حالی که تا حدی کار می‌کند، اما یک راه حل جادویی نیست.

این به ما می‌گوید که ما چیزی اساسی را از دست داده‌ایم. به عنوان مثال، مغز انسان را در نظر بگیرید. کودکان می‌توانند زبان را فقط از چند میلیون کلمه بیاموزند - کسری ناچیز از داده‌های مورد نیاز برای آموزش مدل‌های زبانی بزرگ. این اختلاف نشان می‌دهد که معماری‌ها و رویه‌های بهینه‌سازی فعلی ما چقدر ناکارآمد هستند. اینطور نیست که هوش مصنوعی پیشرفت نکرده باشد - ما شاهد گام‌های بزرگی بوده‌ایم - اما واضح است که مدل‌های امروزی هنوز از جهات کلیدی محدود هستند.

ما پیشرفت مهندسی واقعی داشته‌ایم، به ویژه در کارآمدتر کردن استنتاج و در فشرده‌سازی مدل‌های بزرگ. مردم اکنون با استفاده از تکنیک‌های تقطیر، مدل‌های زبانی قدرتمند را روی GPUهای تکی اجرا می‌کنند، که باعث می‌شود این فناوری در دسترس‌تر و تکرار آن آسان‌تر شود.

ما همچنین شاهد پیشرفت‌های عمده‌ای در تولید تصاویر و ویدیوها بوده‌ایم. اما از نظر مفهومی، هنوز به پیشرفتی در مقیاس معرفی ترانسفورماتور در سال 2017 نرسیده‌ایم. تحولات جالبی وجود دارد - مانند مدل‌های ترکیبی از متخصصان و مکانیسم‌های توجه جدید - اما اینها افزایشی هستند، نه تحول‌آفرین.

با این حال، من معتقدم که یک جهش دیگر را خواهیم دید. این فقط یک باور است - هیچ داده‌ای پشت آن نیست - اما من فکر می‌کنم یک معماری یا الگوی آموزشی جدید در نهایت پدیدار خواهد شد، که بسیار کارآمدتر از چیزی است که اکنون داریم.

حوزه دیگری که فکر می‌کنم در آن گیر کرده‌ایم، سخت‌افزار است. ما همگی با GPUها کار می‌کنیم، که فوق‌العاده پرمصرف هستند. وقتی این را با مغز انسان مقایسه می‌کنید - که فقط با چند وات انرژی کار می‌کند - این تضاد چشمگیر است. محاسبات فعلی از نظر انرژی کارآمد نیستند.

این حوزه‌ای است که من معتقدم یک تغییر پارادایم اساسی در آن امکان‌پذیر است، هرچند احتمالاً قریب‌الوقوع نیست. بازاندیشی در مورد سخت‌افزار خود برای محاسبه داده‌های بیشتر با انرژی کمتر می‌تواند کل چشم‌انداز را تغییر دهد. اما در حال حاضر، این تمرکز بیشتر صنعت نیست. احتمالاً یک چالش طولانی مدت‌تر است - اما چالشی که می‌تواند تنگناهایی را که امروز با آن کار می‌کنیم، دوباره تعریف کند.

دِکودر: در تحقیق خود، آیا به طور سیستماتیک بررسی کرده‌اید که چگونه اندازه مدل بر شباهت به پردازش عصبی در مغز تأثیر می‌گذارد؟

ژان رمی کینگ: بله، ما اکنون این مقایسه را انجام می‌دهیم - تقریباً سیستماتیک شده است. قاعده کلی این است که، به طور کلی، مدل‌های بزرگتر تمایل دارند بیشتر شبیه مغز باشند، اما اجازه دهید از ابتدا شروع کنم.

اولین چیزی که ما مشاهده کرده‌ایم - و دیگران نیز مشاهده کرده‌اند. اکنون یک یافته نسبتاً قوی است - این است که وقتی یک سیستم هوش مصنوعی، مثلاً یک مدل زبانی بزرگ، را روی یک کار مبتنی بر متن آموزش می‌دهید، در نهایت متن را به گونه‌ای پردازش می‌کند که شبیه به نحوه پردازش آن توسط مغز انسان است. ما این را با مقایسه فعالیت مغز در افرادی که زبان طبیعی را می‌خوانند یا گوش می‌دهند با الگوهای فعال‌سازی مدل‌های هوش مصنوعی که روی وظایف مشابه آموزش داده شده‌اند، می‌دانیم.

با استفاده از تکنیک‌های تصویربرداری مغز - مانند fMRI، MEG یا حتی الکتروفیزیولوژی - می‌توانیم پاسخ‌های عصبی انسان را در حین خواندن یا گوش دادن به داستان‌ها اندازه گیری کنیم. سپس آن الگوهای عصبی را با فعال‌سازی‌های داخلی مدل‌هایی مانند LLM مقایسه می‌کنیم. آنچه ما به طور مداوم می‌یابیم این است که هرچه این مدل‌ها به طور مؤثرتری آموزش ببینند، به ویژه در کارهایی مانند پیش‌بینی توکن بعدی، بازنمایی‌های داخلی آنها بیشتر شبیه به بازنمایی‌های مشاهده شده در مغز است.

و این محدود به زبان نیست. ما اثرات مشابهی را در مدل‌هایی که روی تصاویر، ویدیو، اقدامات حرکتی یا حتی وظایف ناوبری آموزش داده شده‌اند، می‌بینیم. یک زمینه بین رشته‌ای کاملاً جدید در حال ظهور در اطراف این است - با ایجاد پلی بین علوم اعصاب و هوش مصنوعی با مقایسه سیستماتیک بازنمایی‌های مدل با فعالیت مغز.

درون آن زمینه، یک سوال کلیدی این است: چه عواملی یک الگوریتم را بیشتر یا کمتر شبیه مغز می‌کند؟ ما می‌توانیم متغیرهایی مانند اندازه مدل، مقدار داده‌های آموزشی، اینکه آیا مدل از مکانیسم‌های توجه استفاده می‌کند یا خیر، یا اینکه آیا با یادگیری نظارت شده یا نظارت نشده آموزش داده شده است را بررسی کنیم. با تغییر این پارامترها، می‌توانیم شروع به درک این کنیم که چه چیزی بر شباهت بین سیستم‌های مصنوعی و بیولوژیکی تأثیر می‌گذارد.

آنچه تاکنون مشاهده کرده‌ایم این است که همه این عوامل تا حدودی تأثیر دارند - اما قوی‌ترین پیش‌بینی‌کننده بازنمایی‌های شبیه مغز این است که آیا مدل در کاری که روی آن آموزش داده شده است خوب است یا خیر. به عنوان مثال، در بینایی، مدل‌هایی که در تشخیص شی یا تقسیم‌بندی تصویر عملکرد خوبی دارند، تمایل به تولید بازنمایی‌های داخلی دارند که به خوبی با فعالیت مغز مطابقت دارند. در زبان، مدل‌هایی که در پیش‌بینی کلمه بعدی یا ترجمه قوی هستند، تمایل به نشان دادن همان اثر را دارند.

بنابراین، هرچه یک مدل در حل وظیفه خود بهتر باشد - صرف نظر از معماری آن - به احتمال زیاد بازنمایی‌های داخلی آن به صورت خطی با بازنمایی‌های مغز همسو می‌شوند. این اولین مشاهده درشت ما است.

اما وقتی عمیق‌تر می‌شویم، پیچیده‌تر می‌شود. ما مدل‌هایی را دیده‌ایم که عملکرد فوق‌العاده خوبی دارند اما شباهت زیادی به فعالیت مغز ندارند و بالعکس. بنابراین موارد حاشیه‌ای وجود دارد و این رابطه همیشه سازگار نیست. توسعه یک نظریه جهانی برای توضیح همه اینها هنوز یک چالش باز و دشوار است - اما به عنوان یک تقریب اول، پیوند بین عملکرد کار و بازنمایی‌های شبیه مغز یک پیوند مفید است.

دِکودر: بنابراین این بدان معناست که یک مدل بزرگتر به طور خودکار از نظر شباهت مغز بهتر نیست - آموزش نیز نقش مهمی ایفا می‌کند؟ به عنوان مثال، در کار شما با مدل‌های زبانی مانند GPT-2 - و در مورد مدلی مانند GPT-4 امروز چطور؟

ژان رمی کینگ: بنابراین GPT-4 متاسفانه بسته است، بنابراین ما نمی‌توانیم این مقایسه را انجام دهیم، اما در داخل شرکت، ما به مدل‌های باز دسترسی داریم. و هنگامی که این مقایسه‌ها را انجام می‌دهیم، می‌بینیم که مدل‌های زبانی بزرگتر تمایل دارند بیشتر شبیه مغز باشند - به این معنا که یک مطابقت خطی قوی‌تر بین فعال‌سازی‌های داخلی آنها و فعال‌سازی‌های اندازه‌گیری شده در مغز وجود دارد.

اما تاکید بر این نکته مهم است: این فقط در مورد اندازه نیست. این مدل‌های بزرگتر نیز اتفاقاً در پردازش زبان بهتر هستند. اگر یک مدل زبانی بسیار بزرگ بگیرید که ضعیف آموزش دیده باشد، تمایلی به شباهت به مغز ندارد. بنابراین، این فقط اندازه نیست که مهم است - این چیزی است که آن اندازه مدل را قادر به انجام آن می‌کند.

به عبارت دیگر، اندازه تنها تا حدی مهم است که به عملکرد کمک کند. آنچه در نهایت تعیین می‌کند که آیا بازنمایی‌های داخلی یک مدل با بازنمایی‌های مغز همسو هستند یا خیر، این است که چقدر عملکرد خوبی در کاری دارد که روی آن آموزش داده شده است.

اگر یک مدل بزرگ دارید که در پیش‌بینی متن عملکرد ضعیفی دارد، بازنمایی‌های داخلی آن به طور کلی شبیه مغز نخواهند بود. بنابراین، متغیر کلیدی اندازه مدل به خودی خود نیست - عملکرد است.

دِکودر: بیایید در مورد مدل‌های چندوجهی صحبت کنیم. آیا فکر می‌کنید موفقیت یادگیری انسان مبتنی بر ادغام روش‌های مختلف است - و آیا شما موازی‌هایی را در پیشرفت مدل‌های هوش مصنوعی چندوجهی می‌بینید؟

ژان رمی کینگ: این یک سوال بسیار بحث‌برانگیز در این زمینه است و من می‌خواهم تأکید کنم که آنچه در اینجا بیان می‌کنم نظر شخصی من است - این یک اجماع علمی نیست.

این یک بحث دیرینه در علوم شناختی است. در طول تاریخ خود، محققان هم در مورد ضرورت و هم علیه ضرورت ریشه‌یابی زبان در تجربه حسی - داشتن دسترسی به تصاویر، صداها و دنیای فیزیکی برای اینکه زبان معنا داشته باشد، و بالعکس - بحث کرده‌اند.

به عنوان مثال، فرانسیسکو وارلا (Francisco Varela) یکی از حامیان برجسته شناخت تجسم یافته بود و بر این ایده تأکید می‌کرد که شناخت - از جمله زبان - باید در سیستم‌های حسی و حرکتی ریشه داشته باشد. در حالی که او ممکن است از اصطلاح "یادگیری چندوجهی" استفاده نکرده باشد، کار او به شدت با آن مفهوم مطابقت دارد. در طرف دیگر طیف، شما چهره‌هایی مانند نوام چامسکی و مکتب فکری او در زبان‌شناسی را دارید، که قویاً برای استقلال زبان استدلال کرده‌اند. بر اساس آن دیدگاه، مغز انسان حاوی یک سیستم زبانی است که قادر به ترکیب و دستکاری کلمات تا حد زیادی مستقل از سایر سیستم‌ها مانند بینایی یا ادراک شنوایی است.

اکنون، از نظر اینکه ما امروز در کجا قرار داریم: مدل‌های چندوجهی هنوز بر این حوزه تسلط ندارند. علیرغم تلاش قابل توجهی برای ترکیب روش‌ها - مثلاً متن با تصاویر - هنوز دشوار است ساختن یک مدل چندوجهی که عملکردی بهتر از یک مدل تک‌وجهی در وظیفه خود داشته باشد. صرفاً داشتن دسترسی به چند جریان ورودی به طور خودکار یک مدل را در پردازش هر کدام بهتر نمی‌کند. در واقع، اغلب آموزش را سخت‌تر می‌کند. این مدل‌ها هنوز در دستیابی به عملکرد پیشرفته در تمام روش‌های شامل شده با مشکل مواجه هستند.

شخصاً، من تمایل دارم به این ایده گرایش داشته باشم که زبان می‌تواند نسبتاً مستقل از سایر روش‌ها عمل کند. اگر به یافته‌های روانشناسی و علوم شناختی نگاه کنید، واضح است که افرادی که به طور مادرزادی نابینا هستند، به عنوان مثال، می‌توانند کاملاً خوب استدلال کنند. در تست‌های IQ و معیارهای مشابه، عملکرد آنها با افراد بینا مطابقت دارد. همین امر در مورد افرادی که ناشنوا هستند نیز صدق می‌کند، اگرچه ناشنوایی بسته به زمینه، گاهی اوقات می‌تواند بر رشد زبان تأثیر بگذارد. با این حال، به نظر می‌رسد که زبان - و استدلالی که اغلب از آن پشتیبانی می‌کند - می‌تواند تا حد زیادی مستقل از بینایی و شنوایی رشد کند.

با این حال، چیز بسیار قانع‌کننده‌ای در مورد دیدگاه چندوجهی وجود دارد. به هر حال، زبان پراکنده است. ما در زندگی روزمره با آنقدر زبان مواجه نمی‌شویم - شاید 13000 تا 20000 کلمه در روز. و از دیدگاه هوش مصنوعی، ما به محدودیت مقدار داده‌های متنی موجود برای آموزش مدل‌ها نزدیک می‌شویم. به سادگی متن جدید بیشتری وجود نخواهد داشت.

در مقابل، سایر روش‌ها - مانند تصاویر و ویدیو - عملاً نامحدود هستند. ما امروز کل بدنه ویدیوهای آنلاین را پردازش نمی‌کنیم، صرفاً به این دلیل که زیرساخت محاسباتی برای رسیدگی به آن را نداریم. اما مقدار عظیمی از اطلاعات و ساختار دست نخورده در آن قالب‌ها وجود دارد.

بنابراین من فکر می‌کنم پتانسیل واقعی در ترکیب نقاط قوت هر دو وجود دارد: عمق و ساختار زبان با مقیاس و غنای داده‌های بصری یا سایر داده‌های حسی. آن تقاطع یک جهت بسیار مهم و امیدوارکننده برای تحقیقات آینده باقی می‌ماند.

دِکودر: یک سوال آخر: نظر شما در مورد مدل‌های استدلال چیست؟ سیستم‌هایی که صریحاً سعی در استنتاج دارند. آیا برنامه‌هایی برای مطالعه چنین مدل‌هایی در تیم شما وجود دارد؟

ژان رمی کینگ: من در مدل‌های استدلال متخصص نیستم، اما تحولات اخیر در آن زمینه را واقعاً هیجان‌انگیز می‌دانم. مفاهیمی مانند استدلال زنجیره‌ای مدت‌هاست که در علوم شناختی وجود داشته است، بنابراین دیدن اینکه اکنون در هوش مصنوعی رسمی می‌شود، عالی است. اینها فقط نظریه‌های مبهم نیستند - ما مدل‌های مشخصی داریم که سعی در آزمایش این ایده‌ها دارند.

آنچه به ویژه جالب است این است که برخی از این مدل‌ها بررسی می‌کنند که آیا انجام استدلال به عنوان یک توالی از کلمات - یک زنجیره فکری کلامی - مؤثرتر است یا اینکه استدلال باید در فضای نهفته مفاهیم انتزاعی، که لزوماً در زبان بیان نمی‌شوند، انجام شود. پتانسیل زیادی در بررسی نحوه "باز شدن" استدلال وجود دارد، اینکه چگونه می‌توانید مراحل قبلی در یک فرآیند را دوباره بررسی کنید و چگونه قالب‌های مختلف نمایش ممکن است بر آن فرآیند تأثیر بگذارند.

با این حال، این حوزه تخصص من نیست، بنابراین در مورد تحولات خاص اظهار نظر عمیق نخواهم کرد. اما ما از قبل شاهد هستیم.

دِکودر: از شما برای مصاحبه بسیار متشکرم.

ژان رمی کینگ: لذت بردم.