هر ساله AAAI گروهی از افرادی را که سهم قابل توجه و مستمری در زمینه هوش مصنوعی داشتهاند، با انتصاب آنها به عنوان عضو، مورد تقدیر قرار میدهد. در طول چند ماه آینده، با برخی از AAAI Fellows 2025 صحبت خواهیم کرد. در این مصاحبه، از روبرتو ناویگلی، دانشگاه ساپینزا رم، که به دلیل "مشارکتهای قابل توجه در درک زبان طبیعی چندزبانه و توسعه روشهای شناخته شده برای ساخت منبع دانش، رفع ابهام از متن و تجزیه معنایی" به عنوان عضو انتخاب شده است، میشنویم. ما در مورد مسیر شغلی او، برخی از پروژههای تحقیقاتی بزرگی که رهبری کرده است و اینکه چرا پیگیری علاقه مهم است، اطلاعاتی کسب میکنیم.
ممکن است با معرفی خودتان شروع کنید - کجا کار میکنید و حوزه کلی تحقیقاتی شما چیست؟
من استاد دانشگاه ساپینزا رم، ایتالیا هستم. حوزه تحقیقاتی من پردازش زبان طبیعی (NLP) است. من همیشه در این زمینه کار کردهام و همیشه به زبان به طور کلی و به نحوه درک رایانهها از زبان علاقه داشتهام. این علاقه بیش از 20 سال پیش، قبل از انقلاب یادگیری عمیق و موفقیت گسترده سیستمهایی مانند ChatGPT، زمانی که NLP قطعاً خلاقانهتر بود و محققانی مانند من بر "معنای معنا" تمرکز داشتند، آغاز شد.
ممکن است در مورد مسیر شغلی خود بگویید؟
من سفر خود را به عنوان یک محقق آغاز کردم و از آنجایی که پیوستن به یک شرکت بزرگ فناوری پس از گرفتن دکترا 20 سال پیش بسیار کمتر واضح بود، من تصمیم گرفتم یک حرفه آکادمیک را دنبال کنم. نه سال پیش، پس از موفقیت یک پروژه بزرگ شورای تحقیقات اروپا (ERC)، ما یک شرکت نوپای وابسته به دانشگاه به نام Babelscape ایجاد کردیم. اکنون، من اساساً هر دو نقش - دانشگاه و صنعت را متعادل میکنم: من هم یک استاد با یک گروه بزرگ در ساپینزا، حدود 20 نفر، و هم به همان تعداد در شرکت خود هستم، جایی که در حال حاضر مدیر علمی هستم. علاوه بر تحقیقات در ساپینزا، ما نیز در Babelscape تحقیق میکنیم، زیرا من میخواستم این شرکت یک شرکت تحقیقاتی و مبتنی بر تحقیق باشد. ما چندین دکترا در شرکت داریم و همچنین دانشجویان دکترا داریم که در حال گذراندن دوره دکترای صنعتی در شرکت هستند در حالی که دکترای خود را از ساپینزا دریافت میکنند. این یک رابطه سودمند متقابل است زیرا بسیاری از افراد برای دانشگاه و شرکت، یا برای هر یک از این دو کار میکنند و دانش، دانش فنی و ایدهها را تبادل میکنند.
برای من، راهاندازی این شرکت یک فرآیند رشد بود. در دانشگاه، ما مقالاتی مینویسیم و تحقیقات، آزمایشها و غیره زیادی انجام میدهیم، اما به ندرت بر روی تبدیل این نمونههای اولیه تحقیق به محصولات واقعی که میتوانند توسط کاربران مورد استفاده قرار گیرند، تمرکز میکنیم. یک شرکت، برای بقا، نیاز به ایجاد سیستمهایی دارد که کار میکنند. اینجاست که طرف دیگر را میبینید - موارد استفاده در دنیای واقعی. شما متوجه میشوید که شکاف گمشده بین نمونه اولیه تحقیق فوقالعاده جذاب و محصول واقعی چیست. این شرکت همچنین راه دیگری برای حفظ استعدادها در رم فراهم میکند و به مقابله با مهاجرت قابل توجه افراد به سمت کشورهای دیگر یا شرکتهای بزرگ فناوری کمک میکند. اگر یک شرکت فناوری عمیق در کنار دانشگاه با شور و اشتیاق فراوان وجود داشته باشد، مردم از ماندن در شهر محبوب خود خوشحال خواهند شد.
شما در طول دوران حرفهای خود در بسیاری از پروژههای جالب شرکت داشتهاید. دو مورد که به ویژه برجسته هستند BabelNet و Minerva هستند. ممکن است ابتدا کمی در مورد BabelNet بگویید؟
من به BabelNet بسیار افتخار میکنم زیرا این یک رویا بود که به حقیقت پیوست. ما در حدود سال 2009 این رویا را آغاز کردیم و توسط شورای تحقیقات اروپا (ERC) تأمین مالی شد. برای من، این یک چیز بزرگ بود زیرا ERC یک پروژه 1.3 میلیون یورویی را زمانی که من یک محقق بسیار جوان بودم تأمین مالی کرد. در ایتالیا، این بسیار غیر معمول است که بتوان گروهی از 10-15 نفر را بدون مقدمه تأمین مالی کرد، "فقط" با شروع از یک ایده بلندپروازانه و یک CV بسیار خوب.
ایده این بود که یک مخزن بزرگ از دانش چند زبانه، به ویژه دانش واژگانی ایجاد کنیم. منظور من از این، اساساً رمزگذاری معنای کلمات است - نه تنها کلماتی که در یک فرهنگ لغت پیدا میکنید، بلکه کلماتی که در یک دایره المعارف پیدا میکنید. هدف BabelNet در یک جمله این است که فرهنگ لغتها و دایرهالمعارفها را با گرد هم آوردن آنها، در داخل و بین زبانها، به سطح بعدی ببریم.
فرهنگ لغتهای زیادی به یک زبان یا به زبانهای مختلف وجود دارد و آنها با یکدیگر صحبت نمیکنند زیرا هر فرهنگ لغت مجموعه معانی خاص خود را برای هر کلمه دارد. با چندزبانه شدن، حتی پیچیدهتر میشود زیرا لزوماً یک رابطه یک به یک بین یک معنی در یک زبان و یک معنی در زبان دیگر وجود ندارد. مشکل این است که شما چندین فرهنگ لغت به یک زبان و در چندین زبان دارید و فرهنگ لغتهای بیشتری دارید و کاری که من میخواستم انجام دهم این بود که همه این فرهنگ لغتها را به هم متصل کنم و یک فرهنگ لغت یکپارچه ایجاد کنم. هدف من این بود که این کار را به صورت محاسباتی انجام دهم تا بتوان از آن به عنوان یک فهرست معانی چند زبانه برای یک سیستم رایانهای استفاده کرد. معنی چند زبانه که یک مفهوم مستقل از زبان باشد. ایده این بود که یک شبکه از مفاهیم، مانند یک شبکه معنایی، یا چیزی که امروزه به آن گراف دانش میگوییم، ایجاد کنیم. هر مفهوم با تمام کلماتی که در زبانهای مختلف برای بیان مفهوم استفاده میشوند، مرتبط است. سپس مفهوم از طریق روابط به مفاهیم دیگر متصل میشود.
طرف دیگر BabelNet، بخش دایرهالمعارفی است. این فقط فرهنگ لغت نیست، بلکه محتوای دایرهالمعارفی نیز هست، به عنوان مثال محتوایی در مورد افراد مشهور، مکانها، سازمانها، آلبومها، هر چیزی که امروزه در ویکیپدیا پیدا میکنید.
ما معانی را از فرهنگ لغتهای مختلف گرد هم آوردیم (و آنها باید فرهنگ لغتهای باز باشند زیرا ما یک منبع باز میخواهیم). ما از WordNet شروع کردیم، که محبوبترین فرهنگ لغت محاسباتی انگلیسی است و قبلاً به صورت گراف سازماندهی شده است، و سپس ویکیپدیا را به عنوان همتای دایرهالمعارفی در نظر گرفتیم. خوشبختانه، ویکیپدیا همچنین حاوی مدخلهایی است که در فرهنگ لغتها گنجانده شدهاند، که به ایجاد ارتباط بین این دو کمک میکند اگر کسی - همانطور که ما انجام دادیم - یک الگوریتم مؤثر ایجاد کند که به طور دقیق آن مدخلها را از دو منبع که نشان دهنده معانی یکسان هستند، ادغام کند. یک مدخل ادغام شده حاوی یک ارجاع به صفحه ویکیپدیا و یک ارجاع به WordNet و تمام منابع دیگری است که ما ادغام کردیم (مانند Wiktionary و Wikidata). و در نتیجه این، شما یک گراف یکپارچه دارید که حاوی میلیونها مفهوم و نهاد نامگذاری شده است که به یکدیگر متصل هستند. و این کار در صدها زبان انجام میشود. ما در سال 2010 شروع کردیم و اکنون، پس از 15 سال، 600 زبان، 23 میلیون مفهوم و نهاد و مقدار زیادی ترجمه، رابطه و غیره داریم. این یک منبع گسترده از دانش است که به عنوان یک مرجع معنایی چند زبانه در کارهایی که در آن اتصال متن به معنا مهم است، مانند رفع ابهام از معنای کلمه، پیوند نهاد و نمایه سازی معنایی عمل میکند.
چیزی که من همیشه عمیقاً به آن علاقه مند بودهام، رفع ابهام از معنای کلمات است. هنگام فکر کردن به استفاده از ماشینها برای ترجمه، باید معنای هر کلمه را درک کنید، در غیر این صورت نمیتوانید ترجمه مناسب را به زبان مقصد انتخاب کنید. با BabelNet، ایده من این بود که یک فهرست مستقل از زبان ایجاد کنم، که به این معنی است که یک مفهوم به زبان بستگی ندارد. وقتی این مفهوم را با یک کلمه در متن مرتبط میکنم، آن مفهوم به شکل و زبانی که آن مفهوم با آن بیان شده است بستگی ندارد.
بنابراین، با BabelNet، تیم من و من بر روی رفع ابهام از معنای کلمات در زبانها کار کردیم. در مرحله بعد، من میخواستم یک نمایش مستقل از زبان برای کل جمله ایجاد کنم. خوشبختانه، دومین پیشنهاد کمک هزینه من به ERC پذیرفته شد. با این پروژه بعدی، ما این ایده را داشتیم که هر جمله را به عنوان یک گراف کوچک از مفاهیم و نهادهای BabelNet که جمله به هم متصل میکند، نشان دهیم. این بسیار چالش برانگیزتر بود و ما هنوز روی آن کار میکنیم. این چیزی است که برای سالهای بسیار طولانی یکی از رویاهای هوش مصنوعی بوده است و مطمئناً هنوز یک چالش سخت است. کار بر روی نمایشهای ساختاریافته از معانی کل جملات متفاوت است: به عنوان مثال، اگر من پنج جمله در پنج زبان مختلف داشته باشم که دقیقاً یک معنی، دقیقاً یک مفهوم را بیان میکنند، فقط یک ترجمه از یکدیگر، ما میخواهیم یک نمایش واحد تولید کنیم که مستقل از زبان برای آن پنج جمله باشد. این ایده است.
در زمان BabelNet، ایدههای من و دستاوردهای تیم من بسیار قابل توجه بود زیرا محققان زیادی در مقیاس بزرگ در حال بررسی چند زبانی نبودند. امروزه، این یک امر مسلم است که یک مدل زبان بزرگ از چندین زبان پشتیبانی میکند، اما در سال 2010، این دور از ذهن بود. بنابراین، داشتن یک منبع که یک فهرست مستقل از زبان از معانی را ارائه میدهد، یک پیشرفت بزرگ بود. ما در واقع از بسیاری از شرکتها و نهادهای دولتی، از جمله دفتر مالکیت معنوی اتحادیه اروپا (EUIPO) و Adobe، علاقه زیادی به BabelNet دریافت کردیم. این زمانی بود که شرکت اسپین آف ما Babelscape شروع به کار کرد.
بنابراین آیا ظهور LLMها شما را به سمت پیشرفتهای جدیدی مانند پروژه Minerva سوق داد؟ هدف از این تحقیق چیست؟
با ظهور ChatGPT، ما متوجه شدیم که نیاز به پر کردن شکافی در ایتالیا (و همچنین در کشورهای دیگر) داریم، جایی که دانش آکادمیک در مورد نحوه کار این سیستمها وجود داشت، اما فاقد اجرای عملی بود. در چارچوب یک پروژه بزرگ به نام تحقیقات آینده هوش مصنوعی (FAIR)، که توسط برنامه نسل بعدی اتحادیه اروپا تأمین مالی میشود، ما میتوانستیم پروژه Minerva LLM را با بیش از یک هدف در ذهن شروع کنیم.
اولین هدف ما ایجاد دانش فنی، با تمرکز بر تمرین مهندسی بود. هدف دوم ایجاد مدلی بود که از ابتدا از پیش آموزش داده شده باشد، نه تنها به زبان انگلیسی بلکه به زبان ایتالیایی نیز. بسیاری از مدلها، زمانی که ما پروژه را شروع کردیم، و ما در مورد سال 2023 صحبت میکنیم، در ابتدا به زبان انگلیسی آموزش داده شدند، اما نه به زبان ایتالیایی، و فقط متعاقباً با زبان ایتالیایی سازگار شدند. در عوض، ما میخواستیم تأثیر آموزش به زبان ایتالیایی را به عنوان اولین زبان اولیه ببینیم. هدف سوم این بود که پروژه را به طور کامل منبع باز کنیم، به طوری که مدل نقش یک "پروژه زنده" را بازی کند که مردم بتوانند در آن مشارکت کنند، و همچنین یک رویکرد شفافتر در مقایسه با مدلهای منبع باز جریان اصلی. این پروژه به ما تمام دانش دست اول مورد نیاز برای رفتن به سطح بعدی را داد: چگونه میتوانیم از مرزهای فعلی در NLP فراتر برویم؟ و این کاری است که ما اکنون شروع به انجام آن کردهایم، با توجه به اینکه یک سال طول کشید تا یک مدل با اندازه متوسط ایجاد کنیم. با توجه به بودجه ما، البته نمیتوانستیم به اندازه GPT-4 یا DeepSeek بزرگ شویم. اما من فکر نمیکنم این یک مشکل باشد، زیرا یک جهتگیری تحقیقاتی کلیدی که ما در حال مقابله با آن هستیم این است که چگونه اندازه این مدلها را کاهش دهیم. مدلهای زبان بزرگ فعلی بسیار بزرگ هستند. مدلهایی که ما هر روز از آنها استفاده میکنیم به مقادیر زیادی برق و آب نیاز دارند که پایدار نیستند: ما مطلقاً باید راههایی را برای توسعه مدلهای کوچکتر و احتمالاً اتخاذ رویکردهای جدید و کارآمدتر کشف کنیم، و همچنین محدودیتهای آنها در عقل سلیم و استدلال را نیز در نظر بگیریم.
Minerva همچنین به ما دید و شناخت بیشتری در سطح ملی داده است. طعنه آمیز است زیرا قبل از Minerva من در خارج از کشور بسیار دیده شده بودم، اما در ایتالیا بسیار کمتر. از طریق این پروژه، ما نه تنها در ایتالیا به رسمیت شناخته شدهایم، بلکه توجه هر دو مؤسسه و عموم مردم را نیز به خود جلب کردهایم. اکنون حتی افرادی را در خیابان ملاقات میکنم که من را به عنوان رهبر پروژه Minerva میشناسند!
چه ارتباطی بین کاری که قبل از Minerva انجام دادید و پروژه Minerva وجود دارد؟
کاری که من قبل از این انجام دادم بر روی معناشناسی متمرکز بود: معانی یک کلمه یا یک جمله چیست و چگونه میتوانیم چنین معانی را با یک کامپیوتر آشکار کنیم؟ اکنون، ما مدلهای زبان بزرگ داریم که اهمیتی نمیدهند که این معنی را آشکار کنند زیرا آنها یک نمایش به اصطلاح پنهان تولید میکنند. به یک معنا، این کمی ترسناک است زیرا شما همیشه میخواهید یک ماشین پاسخگوتر و قابل توضیحتر از یک انسان باشد، و بنابراین درک نکردن کامل اینکه یک سیستم چه چیزی را درک میکند و چرا خروجی خاصی را تولید میکند، یک چالش قابل توجه است. اینجاست که من فکر میکنم تحقیقات ما در مورد معناشناسی (هم معناشناسی واژگانی، یعنی معنای کلمات، و هم معناشناسی در سطح جمله) در واقع بسیار مفید است و میتواند این مدلها را قادر سازد تا در آینده قابل تفسیرتر و قابل توضیحتر شوند. و این کاری است که ما اکنون روی آن کار میکنیم. برای مثال، اخیراً متوجه شدیم که LLMها، اگرچه بسیار روان هستند، اما معنای کلمات را به طور کامل درک نمیکنند، به ویژه زمانی که در معانی کمتر رایج استفاده میشوند.
با نگاهی به آینده، آیا یک مشکل یا پروژه خاص وجود دارد که به طور خاص از کار کردن روی آن در یک یا دو سال آینده هیجان زده باشید؟
من یک برنامه بلندپروازانه را تصور میکنم که هم به معناشناسی و هم به مدلهای زبان بزرگ میپردازد و هدف آن پیشبرد فناوری NLP به سطح بعدی است. این یک تعهد بزرگ است و در حالی که هنوز تمام قطعات را ندارم تا بگویم که به طور کامل در مسیر درستی قرار داریم، نشانههای قوی از جایی که میخواهم در مرحله بعد بروم دارم. این من را فوقالعاده هیجانزده میکند! در واقع، من ممکن است از بسیاری از محققان دیگر هیجانزدهتر باشم، زیرا پتانسیل ترکیب کار گذشته با آنچه در حال حاضر توسعه میدهیم را میبینم - و اینکه چگونه، با هم، میتوانند یک پیشرفت واقعی ایجاد کنند. این مانند هیجانی است که هنرمندان هنگام زنده کردن یک اثر جدید احساس میکنند!
آیا توصیهای برای دانشجویان دکترا یا محققان جوان دارید؟
من همیشه به آنها میگویم که اشتیاق خود را دنبال کنند. اشتیاق چیزی است که من را در یک مسیر پیچیده و چالش برانگیز بدون احساس سنگینی به جلو سوق داد. البته، تلاش همیشه زمانی که سخت کار میکنید لازم است، اما زمانی که واقعاً عاشق کاری هستید که انجام میدهید و چیزهایی مانند پول را به تنهایی تعقیب نمیکنید، در کار رضایت پیدا میکنید. داشتن شغلی که شبیه یک سرگرمی است - شغلی که به اندازه کافی خوش شانس هستید که برای آن پول میگیرید - یک امتیاز است. و اگر خود را به طور کامل وقف کنید و آن را به درستی انجام دهید، موفقیت به دنبال خواهد داشت - و شاید، در نهایت، حتی پاداشهای مالی.
آیا سرگرمیها یا علایقی خارج از تحقیقات خود دارید که بخواهید به آنها اشاره کنید؟
سرگرمی اصلی من خارج از تحقیق، خواندن کتاب است. این بهترین راه من برای قطع ارتباط از اینترنت و به طور کلی از دنیای علوم کامپیوتر است (به همین دلیل است که روی کاغذ میخوانم). من به ویژه از رمانهای هیجانانگیز و جاسوسی لذت میبرم - داستانهایی که توجه شما را به طور کامل جلب میکنند به طوری که همه چیزهای دیگر را فراموش میکنید. با این حال، من انواع کتابها را میخوانم. من خیلی زود شروع کردم، به لطف دو نفری که من را در این مسیر راهنمایی کردند: یک معلم و یک دوست. بسیاری از مردم هرگز متوجه نمیشوند که از خواندن لذت میبرند، صرفاً به این دلیل که آن را به یک عادت تبدیل نمیکنند، و اگر این دو فرد عزیز نبودند، من هم ممکن بود یکی از آنها باشم. من فقط با چند کتاب شروع کردم و اکنون حدود 10000 کتاب در آپارتمانم دارم. این که آیا من تا به حال موفق به خواندن همه آنها خواهم شد - چه کسی میداند؟
درباره روبرتو
روبرتو ناویگلی استاد پردازش زبان طبیعی در دانشگاه ساپینزا رم است، جایی که او گروه NLP ساپینزا را رهبری میکند. او دو کمک هزینه ERC در زمینه معناشناسی چندزبانه واژگانی و سطح جمله دریافت کرده است، که در میان 15 پروژه که از طریق آن ERC علم را متحول کرد برجسته شده است. او جوایز متعددی دریافت کرده است، از جمله دو جایزه برجسته مقاله مجله هوش مصنوعی و چندین جایزه برجسته/بهترین مقاله از ACL. او یکی از بنیانگذاران Babelscape، یک شرکت موفق NLP چند زبانه با فناوری عمیق است. او به عنوان ویراستار همکار مجله AI و رئیس مشترک برنامه ACL-IJCNLP 2021 خدمت کرده است. او عضو AAAI، ACL، ELLIS و EurAI است و به عنوان رئیس کل ACL 2025 خدمت میکند.