ژان-رمی کینگ، متخصص علوم اعصاب، رهبری تیم مغز و هوش مصنوعی را در بخش هوش مصنوعی متا بر عهده دارد. او در مصاحبهای با دِکودر، درباره ارتباط بین هوش مصنوعی و علوم اعصاب، چالشهای پیشبینی بلندمدت در مدلها، کدگذاری پیشبینیکننده، پرسش سیستمهای چندوجهی و جستجوی اصول شناختی در معماریهای مصنوعی بحث میکند.
دِکودر: آقای کینگ، اجازه دهید با یک سوال ساده شروع کنیم: چگونه متا اساساً به علوم اعصاب علاقهمند شد؟ در نگاه اول، این یک مسیر غیرعادی به نظر میرسد - از یک شبکه اجتماعی به تحقیقات علوم اعصاب.
ژان رمی کینگ: بله، من در متا در FAIR، آزمایشگاه تحقیقات هوش مصنوعی بنیادی، کار میکنم. این آزمایشگاه توسط یان لکون (Yann LeCun) کمی بیش از ده سال پیش راهاندازی شد. ایده آن زمان ایجاد یک آزمایشگاه اختصاص داده شده به تحقیقات بنیادی هوش مصنوعی بود. حتی در آن زمان، صنعت گستردهتر - و به ویژه مارک زاکربرگ - تشخیص داد که هوش مصنوعی چقدر میتواند برای بخش فناوری تأثیرگذار باشد. بنابراین، برای شرکت بسیار مهم بود که در لبهی دانش در این زمینه باقی بماند.
FAIR از آن زمان تاکنون بسیار رشد کرده است. در ابتدا، بیشتر محققان در زمینه بینایی کامپیوتر و پردازش زبان طبیعی کار میکردند. در نقطهای، تصمیمی گرفته شد تا اطمینان حاصل شود که پورتفوی متنوعتری از محققان وجود دارد، به طوری که همه به یک شکل فکر نکنند. چند فیزیکدان استخدام شدند و من به عنوان یک متخصص علوم اعصاب آورده شدم - احتمالاً برای گسترش آن پورتفوی.
این از هیچ جا نیامد. علوم اعصاب و هوش مصنوعی از ابتدا در هم تنیده شدهاند. به همین دلیل است که ما در مورد شبکههای عصبی مصنوعی صحبت میکنیم. ایده لایههای سلسله مراتبی در الگوریتمها در واقع از علوم اعصاب سیستم سرچشمه میگیرد و این دو حوزه در طول سالها پیوندهای زیادی با هم داشتهاند. من معتقدم یان و جوئل پینو (Joelle Pineau) اهمیت ادامه فشار در این جهت را دیدند و احتمالاً به همین دلیل من استخدام شدم.
با این حال، من همیشه هنگام پاسخ دادن به این سوال کمی معذب هستم - هیچ کس این را مستقیماً به من نگفت. من فقط استخدام شدم و سپس آزادی عمل داده شد تا تحقیقاتی را که قبلاً روی آن کار میکردم، ادامه دهم.
دِکودر: آیا کار شما همیشه در تقاطع هوش مصنوعی و علوم اعصاب قرار داشته است؟
ژان رمی کینگ: من مدرک کارشناسی خود را در هوش مصنوعی و علوم شناختی بیش از 20 سال پیش گرفتم، که اعتراف به آن کمی دلهرهآور است. حتی در آن زمان، من در تقاطع این دو حوزه قرار داشتم. در دوران نوجوانی - و حتی در کودکی - مجذوب رباتیک و ایده ساخت سیستمهای هوشمند بودم. البته، در آن زمان، چیزی شبیه به یک زمستان هوش مصنوعی بود.
پس از تحصیلات کارشناسی، شروع به این فکر کردم که علوم اعصاب ممکن است به عنوان یک رشته کمی بالغتر باشد، بنابراین از علوم کامپیوتر فاصله گرفتم. من مدرک کارشناسی ارشد و دکتری خود را بیشتر در سمت علوم اعصاب دنبال کردم و از الگوریتمهای یادگیری ماشین عمدتاً به عنوان ابزاری برای تجزیه و تحلیل دادههای پیچیده استفاده میکردم - نه به عنوان وسیلهای برای ساخت سیستمهای هوشمند. در آن زمان، بیشتر شبیه آمار روی استروئیدها بود تا یک هدف علمی به خودی خود.
اما در حدود سالهای 2011-2012، همه چیز در آنچه اکنون یادگیری عمیق مینامیم، شروع به سرعت گرفتن کرد. این زمانی بود که من به مرز بین علوم اعصاب و هوش مصنوعی بازگشتم، این بار با هدف بررسی اینکه آیا اصول کلی وجود دارد که استدلال خودمان را شکل میدهد - اصولی که میتواند در مورد الگوریتمها نیز اعمال شود.
دِکودر: آیا تحقیق شما با هوش مصنوعی درک مفهومی شما از مغز را تغییر داده است؟
ژان رمی کینگ: من فکر میکنم مطالعه مغز یکی از راههایی است که شما را مجبور میکند در مورد اینکه فکر کردن واقعاً به چه معناست، تجدید نظر کنید. هوش مصنوعی امروزی نیز این را روشن میکند که برخی از مفاهیمی که ما بدیهی میدانیم - مانند استدلال یا فکر کردن - ممکن است با توجه به آنچه الگوریتمهای یادگیری عمیق اکنون قادر به انجام آن هستند، نیاز به ارزیابی مجدد داشته باشند.
برای کسانی که در این زمینه کار میکنند، این یک منبع عمیق کنجکاوی و شگفتی است. این ایده که هوش و استدلال میتواند از چیزی به اندازه تعامل مکانیکی سلولها - شلیک پتانسیل عمل در مغز - ناشی شود، یک سوال عمیقاً قانعکننده است.
بنابراین اینطور نیست که هوش مصنوعی باعث شد من در این ایدهها تجدید نظر کنم. بلکه من از قبل عمیقاً مجذوب این ایده بودم که فکر کردن، در هسته خود، باید مبتنی بر فیزیک باشد. این همان چیزی بود که در وهله اول مرا به این حوزه کشاند و من فکر میکنم بسیاری از همکارانم مسیر مشابهی را دنبال کردند.
دِکودر: آیا شما یک "نظریه مورد علاقه" شخصی در مورد نحوه عملکرد مغز دارید؟ در مقالات خود، اغلب به کدگذاری پیشبینیکننده اشاره میکنید. آیا این چارچوبی است که شما به طور خاص امیدوارکننده میدانید؟
ژان رمی کینگ: این یک سوال دشوار است، زیرا من فکر میکنم بسیاری از ما رابطه ای عاشقانه و متنفرانه با کدگذاری پیشبینیکننده داریم. این چارچوبی است که ابتدا توسط Rao and Ballard در دهه 1990 رایج شد و سپس به طور گسترده توسط کارل فریستون (Karl Friston) در دهه 2000 در علوم اعصاب سیستم ترویج شد.
فریستون یک چهره جذاب در علم است. او هم ایدههای فوقالعاده اصلی و هم تمایلی به پنهان کردن آنها در پشت ریاضیات متراکم و اغلب مبهم دارد. گاهی اوقات، هنگام خواندن معادلات او، یک لحظه طول میکشد تا متوجه شوید که آنها در واقع مفاهیم آشنا هستند - فقط در فرمالیسمهای بسیار غیرمعمول بیان شدهاند. و به نوعی، این بازتابی از خود نظریه است.
ایدههای قانعکننده زیادی در فرمولاسیون اصلی کدگذاری پیشبینیکننده وجود دارد. اما وقتی صحبت از این میشود که نظریه را به اندازه کافی دقیق کنیم تا پیشبینیهای خاص و قابل آزمایش ایجاد کند، بسیار دشوار میشود. این چالش است - ترجمه این مفاهیم گسترده به مدلهای مبتنی بر تجربه.
با این حال، بسیاری از ایدههای کلی واقعاً جالب هستند. در هوش مصنوعی و در کدگذاری پیشبینیکننده، یک ایده مرکزی این است که سوق دادن یک سیستم برای به حداقل رساندن خطای پیشبینی خود میتواند یک اصل کافی برای ظهور هوش باشد. مفهوم این است که با یادگیری پیشبینی جهان، یک سیستم بازنماییهای میانی مفیدی ایجاد میکند. این ایده در قلب این نظریه قرار دارد.
اما چرا این فرآیند کافی است - چرا به حداقل رساندن خطای پیشبینی منجر به بازنماییهای هوشمند میشود - هنوز مشخص نیست. ما این بهینهسازی را در الگوریتمهای خود میبینیم، جایی که میتوانیم آن را کنترل و درک کنیم. اما ظاهراً، اتفاق مشابهی در مغز در حال رخ دادن است. و با این حال، این واقعیت که این به تنهایی ممکن است باعث ایجاد پردازش هوشمند شود، هنوز چیزی است که ما به طور کامل درک نمیکنیم. ممکن است یک شرط لازم نباشد، اما به طور فزایندهای به نظر میرسد که یک شرط کافی است.
بنابراین، برای پاسخ دادن به سوال شما - من یک نظریه مورد علاقه ندارم. مانند بسیاری از همکارانم، من بیشتر به بررسی این نظریههای بزرگ و گاهی اوقات دست و پا گیر علاقهمند هستم تا ببینم آیا حاوی قطعات گمشده هستند - مفاهیمی که میتوانند به ما در درک بهتر نحوه عملکرد واقعی مغز کمک کنند.
دِکودر: در یکی از مقالات قبلی خود، نوشتید که توالی کلمات - ترتیب کلمات جداگانه - به سرعت غیرقابل پیشبینی میشود، در حالی که معنای آنها ممکن است پایدارتر بماند. شما پیشنهاد میکنید که برای یک سیستم هوشمند، ممکن است مهم باشد نه تنها کلمات بعدی را پیشبینی کند، بلکه بازنماییهای انتزاعی و سلسله مراتبی را در بازههای زمانی طولانیتر پیشبینی کند. من کنجکاو هستم: آیا در تحقیقات اخیر خود - به ویژه در رابطه با سایر روشها مانند تصاویر یا فیلمها، که در آن چالشهای مشابهی ایجاد میشود - بینش جدیدی در این مورد به دست آوردهاید؟
ژان رمی کینگ: آنچه پس از انتشار آن مقاله برای ما آشکار شد - و من فکر میکنم این هنوز هم صادق است - این است که صرفاً پیشبینی آنچه قرار است بعد از یک مشاهده رخ دهد، کافی نیست. به همان اندازه مهم است که پیشبینی کنیم چه اتفاقی بسیار بعدتر، فراتر از لحظه بلافاصله رخ خواهد داد. این یک هدف ارزشمند است، اما در عمل، بسیار دشوار است.
حتی مدلهای امروزی که میتوانند پیشبینی چند توکنی را انجام دهند، مقیاسپذیری خوبی ندارند. ساخت مدلی که بتواند یک پاراگراف یا صفحه کامل را به طور همزمان تولید کند، هنوز هم فوقالعاده چالشبرانگیز است. این نوع پیشبینی بلندمدت چیزی نیست که سیستمهای فعلی به راحتی انجام دهند.
اعتقاد راسخ من این است که این یک مشکل واقعاً سخت است: فهمیدن اینکه چه نوع معماریهایی میتوانند استنتاج بلندمدت را در فضای نهفته پشتیبانی کنند. ترانسفورماتور کلاسیک، همانطور که امروز داریم، از این نظر محدود است.
درون گروه خود، تصمیم گرفتهایم یک قدم به عقب برگردیم و سعی نکنیم خودمان این معماریها را اختراع کنیم - عمدتاً به این دلیل که تیمهای زیادی در حال حاضر صرفاً از دیدگاه هوش مصنوعی روی این مشکل کار میکنند. بعید به نظر میرسد که یک معماری پیشگام مستقیماً از یک آزمایشگاه علوم اعصاب بیرون بیاید. با این حال، ما هنوز با دیگران که روی چالشهای مجاور کار میکنند، همکاری میکنیم.
به عنوان مثال، در FAIR تیمی داریم که بر بینایی کامپیوتر برای ویدیو تمرکز دارد. در آنجا نیز هدف فقط پیشبینی فریم ویدیویی بعدی نیست، بلکه پیشبینی این است که چه اتفاقی ممکن است 10 ثانیه یا حتی یک دقیقه بعد رخ دهد. این یک چالش عظیم از نظر علوم کامپیوتر است.
ما همچنین افرادی داریم که روی تولید کد کار میکنند. در آن زمینه، پیشبینی کاراکتر بعدی در یک خط کد مفید نیست. در حالت ایدهآل، شما میخواهید یک مدل یک ساختار کامل را تولید کند - مثلاً مجموعهای از توابع، که کلاسها را فراخوانی میکنند، که با یک مجموعه داده تعامل دارند. صرفاً پیشبینی توکن بعدی اغلب بهترین راه برای استدلال از طریق آن فرآیند نیست.
بنابراین در حالی که ما این ایدهها را بررسی کردهایم، نمیتوانم بگویم که چیزی را حل کردهایم. چیزی که ما بیشتر آموختهایم این است که این مشکل واقعاً چقدر دشوار است.
دِکودر: و در مورد پیشرفت در سمت هوش مصنوعی چطور؟ آیا پیشرفتهای اخیر تفکر انسانی را در این زمینه دقیقتر به تصویر کشیدهاند - یا هنوز از آن دور هستیم؟
ژان رمی کینگ: من پیشرفت را میبینم - اما واضح است که همه چیز مسیری را که بسیاری در آغاز رونق LLM پیشبینی میکردند، دنبال نکرده است. هنگامی که مدلهایی مانند ChatGPT برای اولین بار ظاهر شدند، این باور گسترده وجود داشت که مقیاسپذیری تمام چیزی است که ما نیاز داریم. مردم میگفتند: "فقط مدلها را بزرگتر کنید، دادههای بیشتری به آنها بدهید و هوش به دنبال آن خواهد آمد."
اکنون، بیش از سه سال بعد، واضح است که مقیاسپذیری به تنهایی کافی نیست. بله، عملکرد با اندازه بهبود مییابد، اما نه با سرعتی که معقول یا پایدار باشد. بسیاری از شرکتها این رویکرد زور بازو را امتحان کردهاند و در حالی که تا حدی کار میکند، اما یک راه حل جادویی نیست.
این به ما میگوید که ما چیزی اساسی را از دست دادهایم. به عنوان مثال، مغز انسان را در نظر بگیرید. کودکان میتوانند زبان را فقط از چند میلیون کلمه بیاموزند - کسری ناچیز از دادههای مورد نیاز برای آموزش مدلهای زبانی بزرگ. این اختلاف نشان میدهد که معماریها و رویههای بهینهسازی فعلی ما چقدر ناکارآمد هستند. اینطور نیست که هوش مصنوعی پیشرفت نکرده باشد - ما شاهد گامهای بزرگی بودهایم - اما واضح است که مدلهای امروزی هنوز از جهات کلیدی محدود هستند.
ما پیشرفت مهندسی واقعی داشتهایم، به ویژه در کارآمدتر کردن استنتاج و در فشردهسازی مدلهای بزرگ. مردم اکنون با استفاده از تکنیکهای تقطیر، مدلهای زبانی قدرتمند را روی GPUهای تکی اجرا میکنند، که باعث میشود این فناوری در دسترستر و تکرار آن آسانتر شود.
ما همچنین شاهد پیشرفتهای عمدهای در تولید تصاویر و ویدیوها بودهایم. اما از نظر مفهومی، هنوز به پیشرفتی در مقیاس معرفی ترانسفورماتور در سال 2017 نرسیدهایم. تحولات جالبی وجود دارد - مانند مدلهای ترکیبی از متخصصان و مکانیسمهای توجه جدید - اما اینها افزایشی هستند، نه تحولآفرین.
با این حال، من معتقدم که یک جهش دیگر را خواهیم دید. این فقط یک باور است - هیچ دادهای پشت آن نیست - اما من فکر میکنم یک معماری یا الگوی آموزشی جدید در نهایت پدیدار خواهد شد، که بسیار کارآمدتر از چیزی است که اکنون داریم.
حوزه دیگری که فکر میکنم در آن گیر کردهایم، سختافزار است. ما همگی با GPUها کار میکنیم، که فوقالعاده پرمصرف هستند. وقتی این را با مغز انسان مقایسه میکنید - که فقط با چند وات انرژی کار میکند - این تضاد چشمگیر است. محاسبات فعلی از نظر انرژی کارآمد نیستند.
این حوزهای است که من معتقدم یک تغییر پارادایم اساسی در آن امکانپذیر است، هرچند احتمالاً قریبالوقوع نیست. بازاندیشی در مورد سختافزار خود برای محاسبه دادههای بیشتر با انرژی کمتر میتواند کل چشمانداز را تغییر دهد. اما در حال حاضر، این تمرکز بیشتر صنعت نیست. احتمالاً یک چالش طولانی مدتتر است - اما چالشی که میتواند تنگناهایی را که امروز با آن کار میکنیم، دوباره تعریف کند.
دِکودر: در تحقیق خود، آیا به طور سیستماتیک بررسی کردهاید که چگونه اندازه مدل بر شباهت به پردازش عصبی در مغز تأثیر میگذارد؟
ژان رمی کینگ: بله، ما اکنون این مقایسه را انجام میدهیم - تقریباً سیستماتیک شده است. قاعده کلی این است که، به طور کلی، مدلهای بزرگتر تمایل دارند بیشتر شبیه مغز باشند، اما اجازه دهید از ابتدا شروع کنم.
اولین چیزی که ما مشاهده کردهایم - و دیگران نیز مشاهده کردهاند. اکنون یک یافته نسبتاً قوی است - این است که وقتی یک سیستم هوش مصنوعی، مثلاً یک مدل زبانی بزرگ، را روی یک کار مبتنی بر متن آموزش میدهید، در نهایت متن را به گونهای پردازش میکند که شبیه به نحوه پردازش آن توسط مغز انسان است. ما این را با مقایسه فعالیت مغز در افرادی که زبان طبیعی را میخوانند یا گوش میدهند با الگوهای فعالسازی مدلهای هوش مصنوعی که روی وظایف مشابه آموزش داده شدهاند، میدانیم.
با استفاده از تکنیکهای تصویربرداری مغز - مانند fMRI، MEG یا حتی الکتروفیزیولوژی - میتوانیم پاسخهای عصبی انسان را در حین خواندن یا گوش دادن به داستانها اندازه گیری کنیم. سپس آن الگوهای عصبی را با فعالسازیهای داخلی مدلهایی مانند LLM مقایسه میکنیم. آنچه ما به طور مداوم مییابیم این است که هرچه این مدلها به طور مؤثرتری آموزش ببینند، به ویژه در کارهایی مانند پیشبینی توکن بعدی، بازنماییهای داخلی آنها بیشتر شبیه به بازنماییهای مشاهده شده در مغز است.
و این محدود به زبان نیست. ما اثرات مشابهی را در مدلهایی که روی تصاویر، ویدیو، اقدامات حرکتی یا حتی وظایف ناوبری آموزش داده شدهاند، میبینیم. یک زمینه بین رشتهای کاملاً جدید در حال ظهور در اطراف این است - با ایجاد پلی بین علوم اعصاب و هوش مصنوعی با مقایسه سیستماتیک بازنماییهای مدل با فعالیت مغز.
درون آن زمینه، یک سوال کلیدی این است: چه عواملی یک الگوریتم را بیشتر یا کمتر شبیه مغز میکند؟ ما میتوانیم متغیرهایی مانند اندازه مدل، مقدار دادههای آموزشی، اینکه آیا مدل از مکانیسمهای توجه استفاده میکند یا خیر، یا اینکه آیا با یادگیری نظارت شده یا نظارت نشده آموزش داده شده است را بررسی کنیم. با تغییر این پارامترها، میتوانیم شروع به درک این کنیم که چه چیزی بر شباهت بین سیستمهای مصنوعی و بیولوژیکی تأثیر میگذارد.
آنچه تاکنون مشاهده کردهایم این است که همه این عوامل تا حدودی تأثیر دارند - اما قویترین پیشبینیکننده بازنماییهای شبیه مغز این است که آیا مدل در کاری که روی آن آموزش داده شده است خوب است یا خیر. به عنوان مثال، در بینایی، مدلهایی که در تشخیص شی یا تقسیمبندی تصویر عملکرد خوبی دارند، تمایل به تولید بازنماییهای داخلی دارند که به خوبی با فعالیت مغز مطابقت دارند. در زبان، مدلهایی که در پیشبینی کلمه بعدی یا ترجمه قوی هستند، تمایل به نشان دادن همان اثر را دارند.
بنابراین، هرچه یک مدل در حل وظیفه خود بهتر باشد - صرف نظر از معماری آن - به احتمال زیاد بازنماییهای داخلی آن به صورت خطی با بازنماییهای مغز همسو میشوند. این اولین مشاهده درشت ما است.
اما وقتی عمیقتر میشویم، پیچیدهتر میشود. ما مدلهایی را دیدهایم که عملکرد فوقالعاده خوبی دارند اما شباهت زیادی به فعالیت مغز ندارند و بالعکس. بنابراین موارد حاشیهای وجود دارد و این رابطه همیشه سازگار نیست. توسعه یک نظریه جهانی برای توضیح همه اینها هنوز یک چالش باز و دشوار است - اما به عنوان یک تقریب اول، پیوند بین عملکرد کار و بازنماییهای شبیه مغز یک پیوند مفید است.
دِکودر: بنابراین این بدان معناست که یک مدل بزرگتر به طور خودکار از نظر شباهت مغز بهتر نیست - آموزش نیز نقش مهمی ایفا میکند؟ به عنوان مثال، در کار شما با مدلهای زبانی مانند GPT-2 - و در مورد مدلی مانند GPT-4 امروز چطور؟
ژان رمی کینگ: بنابراین GPT-4 متاسفانه بسته است، بنابراین ما نمیتوانیم این مقایسه را انجام دهیم، اما در داخل شرکت، ما به مدلهای باز دسترسی داریم. و هنگامی که این مقایسهها را انجام میدهیم، میبینیم که مدلهای زبانی بزرگتر تمایل دارند بیشتر شبیه مغز باشند - به این معنا که یک مطابقت خطی قویتر بین فعالسازیهای داخلی آنها و فعالسازیهای اندازهگیری شده در مغز وجود دارد.
اما تاکید بر این نکته مهم است: این فقط در مورد اندازه نیست. این مدلهای بزرگتر نیز اتفاقاً در پردازش زبان بهتر هستند. اگر یک مدل زبانی بسیار بزرگ بگیرید که ضعیف آموزش دیده باشد، تمایلی به شباهت به مغز ندارد. بنابراین، این فقط اندازه نیست که مهم است - این چیزی است که آن اندازه مدل را قادر به انجام آن میکند.
به عبارت دیگر، اندازه تنها تا حدی مهم است که به عملکرد کمک کند. آنچه در نهایت تعیین میکند که آیا بازنماییهای داخلی یک مدل با بازنماییهای مغز همسو هستند یا خیر، این است که چقدر عملکرد خوبی در کاری دارد که روی آن آموزش داده شده است.
اگر یک مدل بزرگ دارید که در پیشبینی متن عملکرد ضعیفی دارد، بازنماییهای داخلی آن به طور کلی شبیه مغز نخواهند بود. بنابراین، متغیر کلیدی اندازه مدل به خودی خود نیست - عملکرد است.
دِکودر: بیایید در مورد مدلهای چندوجهی صحبت کنیم. آیا فکر میکنید موفقیت یادگیری انسان مبتنی بر ادغام روشهای مختلف است - و آیا شما موازیهایی را در پیشرفت مدلهای هوش مصنوعی چندوجهی میبینید؟
ژان رمی کینگ: این یک سوال بسیار بحثبرانگیز در این زمینه است و من میخواهم تأکید کنم که آنچه در اینجا بیان میکنم نظر شخصی من است - این یک اجماع علمی نیست.
این یک بحث دیرینه در علوم شناختی است. در طول تاریخ خود، محققان هم در مورد ضرورت و هم علیه ضرورت ریشهیابی زبان در تجربه حسی - داشتن دسترسی به تصاویر، صداها و دنیای فیزیکی برای اینکه زبان معنا داشته باشد، و بالعکس - بحث کردهاند.
به عنوان مثال، فرانسیسکو وارلا (Francisco Varela) یکی از حامیان برجسته شناخت تجسم یافته بود و بر این ایده تأکید میکرد که شناخت - از جمله زبان - باید در سیستمهای حسی و حرکتی ریشه داشته باشد. در حالی که او ممکن است از اصطلاح "یادگیری چندوجهی" استفاده نکرده باشد، کار او به شدت با آن مفهوم مطابقت دارد. در طرف دیگر طیف، شما چهرههایی مانند نوام چامسکی و مکتب فکری او در زبانشناسی را دارید، که قویاً برای استقلال زبان استدلال کردهاند. بر اساس آن دیدگاه، مغز انسان حاوی یک سیستم زبانی است که قادر به ترکیب و دستکاری کلمات تا حد زیادی مستقل از سایر سیستمها مانند بینایی یا ادراک شنوایی است.
اکنون، از نظر اینکه ما امروز در کجا قرار داریم: مدلهای چندوجهی هنوز بر این حوزه تسلط ندارند. علیرغم تلاش قابل توجهی برای ترکیب روشها - مثلاً متن با تصاویر - هنوز دشوار است ساختن یک مدل چندوجهی که عملکردی بهتر از یک مدل تکوجهی در وظیفه خود داشته باشد. صرفاً داشتن دسترسی به چند جریان ورودی به طور خودکار یک مدل را در پردازش هر کدام بهتر نمیکند. در واقع، اغلب آموزش را سختتر میکند. این مدلها هنوز در دستیابی به عملکرد پیشرفته در تمام روشهای شامل شده با مشکل مواجه هستند.
شخصاً، من تمایل دارم به این ایده گرایش داشته باشم که زبان میتواند نسبتاً مستقل از سایر روشها عمل کند. اگر به یافتههای روانشناسی و علوم شناختی نگاه کنید، واضح است که افرادی که به طور مادرزادی نابینا هستند، به عنوان مثال، میتوانند کاملاً خوب استدلال کنند. در تستهای IQ و معیارهای مشابه، عملکرد آنها با افراد بینا مطابقت دارد. همین امر در مورد افرادی که ناشنوا هستند نیز صدق میکند، اگرچه ناشنوایی بسته به زمینه، گاهی اوقات میتواند بر رشد زبان تأثیر بگذارد. با این حال، به نظر میرسد که زبان - و استدلالی که اغلب از آن پشتیبانی میکند - میتواند تا حد زیادی مستقل از بینایی و شنوایی رشد کند.
با این حال، چیز بسیار قانعکنندهای در مورد دیدگاه چندوجهی وجود دارد. به هر حال، زبان پراکنده است. ما در زندگی روزمره با آنقدر زبان مواجه نمیشویم - شاید 13000 تا 20000 کلمه در روز. و از دیدگاه هوش مصنوعی، ما به محدودیت مقدار دادههای متنی موجود برای آموزش مدلها نزدیک میشویم. به سادگی متن جدید بیشتری وجود نخواهد داشت.
در مقابل، سایر روشها - مانند تصاویر و ویدیو - عملاً نامحدود هستند. ما امروز کل بدنه ویدیوهای آنلاین را پردازش نمیکنیم، صرفاً به این دلیل که زیرساخت محاسباتی برای رسیدگی به آن را نداریم. اما مقدار عظیمی از اطلاعات و ساختار دست نخورده در آن قالبها وجود دارد.
بنابراین من فکر میکنم پتانسیل واقعی در ترکیب نقاط قوت هر دو وجود دارد: عمق و ساختار زبان با مقیاس و غنای دادههای بصری یا سایر دادههای حسی. آن تقاطع یک جهت بسیار مهم و امیدوارکننده برای تحقیقات آینده باقی میماند.
دِکودر: یک سوال آخر: نظر شما در مورد مدلهای استدلال چیست؟ سیستمهایی که صریحاً سعی در استنتاج دارند. آیا برنامههایی برای مطالعه چنین مدلهایی در تیم شما وجود دارد؟
ژان رمی کینگ: من در مدلهای استدلال متخصص نیستم، اما تحولات اخیر در آن زمینه را واقعاً هیجانانگیز میدانم. مفاهیمی مانند استدلال زنجیرهای مدتهاست که در علوم شناختی وجود داشته است، بنابراین دیدن اینکه اکنون در هوش مصنوعی رسمی میشود، عالی است. اینها فقط نظریههای مبهم نیستند - ما مدلهای مشخصی داریم که سعی در آزمایش این ایدهها دارند.
آنچه به ویژه جالب است این است که برخی از این مدلها بررسی میکنند که آیا انجام استدلال به عنوان یک توالی از کلمات - یک زنجیره فکری کلامی - مؤثرتر است یا اینکه استدلال باید در فضای نهفته مفاهیم انتزاعی، که لزوماً در زبان بیان نمیشوند، انجام شود. پتانسیل زیادی در بررسی نحوه "باز شدن" استدلال وجود دارد، اینکه چگونه میتوانید مراحل قبلی در یک فرآیند را دوباره بررسی کنید و چگونه قالبهای مختلف نمایش ممکن است بر آن فرآیند تأثیر بگذارند.
با این حال، این حوزه تخصص من نیست، بنابراین در مورد تحولات خاص اظهار نظر عمیق نخواهم کرد. اما ما از قبل شاهد هستیم.
دِکودر: از شما برای مصاحبه بسیار متشکرم.
ژان رمی کینگ: لذت بردم.