روبرتو ناویگلی
روبرتو ناویگلی

مصاحبه با روبرتو ناویگلی، عضو AAAI: پردازش زبان طبیعی چندزبانه

هر ساله AAAI گروهی از افرادی را که سهم قابل توجه و مستمری در زمینه هوش مصنوعی داشته‌اند، با انتصاب آن‌ها به عنوان عضو، مورد تقدیر قرار می‌دهد. در طول چند ماه آینده، با برخی از AAAI Fellows 2025 صحبت خواهیم کرد. در این مصاحبه، از روبرتو ناویگلی، دانشگاه ساپینزا رم، که به دلیل "مشارکت‌های قابل توجه در درک زبان طبیعی چندزبانه و توسعه روش‌های شناخته شده برای ساخت منبع دانش، رفع ابهام از متن و تجزیه معنایی" به عنوان عضو انتخاب شده است، می‌شنویم. ما در مورد مسیر شغلی او، برخی از پروژه‌های تحقیقاتی بزرگی که رهبری کرده است و اینکه چرا پیگیری علاقه مهم است، اطلاعاتی کسب می‌کنیم.

ممکن است با معرفی خودتان شروع کنید - کجا کار می‌کنید و حوزه کلی تحقیقاتی شما چیست؟

من استاد دانشگاه ساپینزا رم، ایتالیا هستم. حوزه تحقیقاتی من پردازش زبان طبیعی (NLP) است. من همیشه در این زمینه کار کرده‌ام و همیشه به زبان به طور کلی و به نحوه درک رایانه‌ها از زبان علاقه داشته‌ام. این علاقه بیش از 20 سال پیش، قبل از انقلاب یادگیری عمیق و موفقیت گسترده سیستم‌هایی مانند ChatGPT، زمانی که NLP قطعاً خلاقانه‌تر بود و محققانی مانند من بر "معنای معنا" تمرکز داشتند، آغاز شد.

ممکن است در مورد مسیر شغلی خود بگویید؟

من سفر خود را به عنوان یک محقق آغاز کردم و از آنجایی که پیوستن به یک شرکت بزرگ فناوری پس از گرفتن دکترا 20 سال پیش بسیار کمتر واضح بود، من تصمیم گرفتم یک حرفه آکادمیک را دنبال کنم. نه سال پیش، پس از موفقیت یک پروژه بزرگ شورای تحقیقات اروپا (ERC)، ما یک شرکت نوپای وابسته به دانشگاه به نام Babelscape ایجاد کردیم. اکنون، من اساساً هر دو نقش - دانشگاه و صنعت را متعادل می‌کنم: من هم یک استاد با یک گروه بزرگ در ساپینزا، حدود 20 نفر، و هم به همان تعداد در شرکت خود هستم، جایی که در حال حاضر مدیر علمی هستم. علاوه بر تحقیقات در ساپینزا، ما نیز در Babelscape تحقیق می‌کنیم، زیرا من می‌خواستم این شرکت یک شرکت تحقیقاتی و مبتنی بر تحقیق باشد. ما چندین دکترا در شرکت داریم و همچنین دانشجویان دکترا داریم که در حال گذراندن دوره دکترای صنعتی در شرکت هستند در حالی که دکترای خود را از ساپینزا دریافت می‌کنند. این یک رابطه سودمند متقابل است زیرا بسیاری از افراد برای دانشگاه و شرکت، یا برای هر یک از این دو کار می‌کنند و دانش، دانش فنی و ایده‌ها را تبادل می‌کنند.

برای من، راه‌اندازی این شرکت یک فرآیند رشد بود. در دانشگاه، ما مقالاتی می‌نویسیم و تحقیقات، آزمایش‌ها و غیره زیادی انجام می‌دهیم، اما به ندرت بر روی تبدیل این نمونه‌های اولیه تحقیق به محصولات واقعی که می‌توانند توسط کاربران مورد استفاده قرار گیرند، تمرکز می‌کنیم. یک شرکت، برای بقا، نیاز به ایجاد سیستم‌هایی دارد که کار می‌کنند. اینجاست که طرف دیگر را می‌بینید - موارد استفاده در دنیای واقعی. شما متوجه می‌شوید که شکاف گمشده بین نمونه اولیه تحقیق فوق‌العاده جذاب و محصول واقعی چیست. این شرکت همچنین راه دیگری برای حفظ استعدادها در رم فراهم می‌کند و به مقابله با مهاجرت قابل توجه افراد به سمت کشورهای دیگر یا شرکت‌های بزرگ فناوری کمک می‌کند. اگر یک شرکت فناوری عمیق در کنار دانشگاه با شور و اشتیاق فراوان وجود داشته باشد، مردم از ماندن در شهر محبوب خود خوشحال خواهند شد.

شما در طول دوران حرفه‌ای خود در بسیاری از پروژه‌های جالب شرکت داشته‌اید. دو مورد که به ویژه برجسته هستند BabelNet و Minerva هستند. ممکن است ابتدا کمی در مورد BabelNet بگویید؟

من به BabelNet بسیار افتخار می‌کنم زیرا این یک رویا بود که به حقیقت پیوست. ما در حدود سال 2009 این رویا را آغاز کردیم و توسط شورای تحقیقات اروپا (ERC) تأمین مالی شد. برای من، این یک چیز بزرگ بود زیرا ERC یک پروژه 1.3 میلیون یورویی را زمانی که من یک محقق بسیار جوان بودم تأمین مالی کرد. در ایتالیا، این بسیار غیر معمول است که بتوان گروهی از 10-15 نفر را بدون مقدمه تأمین مالی کرد، "فقط" با شروع از یک ایده بلندپروازانه و یک CV بسیار خوب.

ایده این بود که یک مخزن بزرگ از دانش چند زبانه، به ویژه دانش واژگانی ایجاد کنیم. منظور من از این، اساساً رمزگذاری معنای کلمات است - نه تنها کلماتی که در یک فرهنگ لغت پیدا می‌کنید، بلکه کلماتی که در یک دایره المعارف پیدا می‌کنید. هدف BabelNet در یک جمله این است که فرهنگ لغت‌ها و دایره‌المعارف‌ها را با گرد هم آوردن آن‌ها، در داخل و بین زبان‌ها، به سطح بعدی ببریم.

فرهنگ لغت‌های زیادی به یک زبان یا به زبان‌های مختلف وجود دارد و آن‌ها با یکدیگر صحبت نمی‌کنند زیرا هر فرهنگ لغت مجموعه معانی خاص خود را برای هر کلمه دارد. با چندزبانه شدن، حتی پیچیده‌تر می‌شود زیرا لزوماً یک رابطه یک به یک بین یک معنی در یک زبان و یک معنی در زبان دیگر وجود ندارد. مشکل این است که شما چندین فرهنگ لغت به یک زبان و در چندین زبان دارید و فرهنگ لغت‌های بیشتری دارید و کاری که من می‌خواستم انجام دهم این بود که همه این فرهنگ لغت‌ها را به هم متصل کنم و یک فرهنگ لغت یکپارچه ایجاد کنم. هدف من این بود که این کار را به صورت محاسباتی انجام دهم تا بتوان از آن به عنوان یک فهرست معانی چند زبانه برای یک سیستم رایانه‌ای استفاده کرد. معنی چند زبانه که یک مفهوم مستقل از زبان باشد. ایده این بود که یک شبکه از مفاهیم، مانند یک شبکه معنایی، یا چیزی که امروزه به آن گراف دانش می‌گوییم، ایجاد کنیم. هر مفهوم با تمام کلماتی که در زبان‌های مختلف برای بیان مفهوم استفاده می‌شوند، مرتبط است. سپس مفهوم از طریق روابط به مفاهیم دیگر متصل می‌شود.

طرف دیگر BabelNet، بخش دایره‌المعارفی است. این فقط فرهنگ لغت نیست، بلکه محتوای دایره‌المعارفی نیز هست، به عنوان مثال محتوایی در مورد افراد مشهور، مکان‌ها، سازمان‌ها، آلبوم‌ها، هر چیزی که امروزه در ویکی‌پدیا پیدا می‌کنید.

ما معانی را از فرهنگ لغت‌های مختلف گرد هم آوردیم (و آن‌ها باید فرهنگ لغت‌های باز باشند زیرا ما یک منبع باز می‌خواهیم). ما از WordNet شروع کردیم، که محبوب‌ترین فرهنگ لغت محاسباتی انگلیسی است و قبلاً به صورت گراف سازماندهی شده است، و سپس ویکی‌پدیا را به عنوان همتای دایره‌المعارفی در نظر گرفتیم. خوشبختانه، ویکی‌پدیا همچنین حاوی مدخل‌هایی است که در فرهنگ لغت‌ها گنجانده شده‌اند، که به ایجاد ارتباط بین این دو کمک می‌کند اگر کسی - همانطور که ما انجام دادیم - یک الگوریتم مؤثر ایجاد کند که به طور دقیق آن مدخل‌ها را از دو منبع که نشان دهنده معانی یکسان هستند، ادغام کند. یک مدخل ادغام شده حاوی یک ارجاع به صفحه ویکی‌پدیا و یک ارجاع به WordNet و تمام منابع دیگری است که ما ادغام کردیم (مانند Wiktionary و Wikidata). و در نتیجه این، شما یک گراف یکپارچه دارید که حاوی میلیون‌ها مفهوم و نهاد نامگذاری شده است که به یکدیگر متصل هستند. و این کار در صدها زبان انجام می‌شود. ما در سال 2010 شروع کردیم و اکنون، پس از 15 سال، 600 زبان، 23 میلیون مفهوم و نهاد و مقدار زیادی ترجمه، رابطه و غیره داریم. این یک منبع گسترده از دانش است که به عنوان یک مرجع معنایی چند زبانه در کارهایی که در آن اتصال متن به معنا مهم است، مانند رفع ابهام از معنای کلمه، پیوند نهاد و نمایه سازی معنایی عمل می‌کند.

چیزی که من همیشه عمیقاً به آن علاقه مند بوده‌ام، رفع ابهام از معنای کلمات است. هنگام فکر کردن به استفاده از ماشین‌ها برای ترجمه، باید معنای هر کلمه را درک کنید، در غیر این صورت نمی‌توانید ترجمه مناسب را به زبان مقصد انتخاب کنید. با BabelNet، ایده من این بود که یک فهرست مستقل از زبان ایجاد کنم، که به این معنی است که یک مفهوم به زبان بستگی ندارد. وقتی این مفهوم را با یک کلمه در متن مرتبط می‌کنم، آن مفهوم به شکل و زبانی که آن مفهوم با آن بیان شده است بستگی ندارد.

بنابراین، با BabelNet، تیم من و من بر روی رفع ابهام از معنای کلمات در زبان‌ها کار کردیم. در مرحله بعد، من می‌خواستم یک نمایش مستقل از زبان برای کل جمله ایجاد کنم. خوشبختانه، دومین پیشنهاد کمک هزینه من به ERC پذیرفته شد. با این پروژه بعدی، ما این ایده را داشتیم که هر جمله را به عنوان یک گراف کوچک از مفاهیم و نهادهای BabelNet که جمله به هم متصل می‌کند، نشان دهیم. این بسیار چالش برانگیزتر بود و ما هنوز روی آن کار می‌کنیم. این چیزی است که برای سال‌های بسیار طولانی یکی از رویاهای هوش مصنوعی بوده است و مطمئناً هنوز یک چالش سخت است. کار بر روی نمایش‌های ساختاریافته از معانی کل جملات متفاوت است: به عنوان مثال، اگر من پنج جمله در پنج زبان مختلف داشته باشم که دقیقاً یک معنی، دقیقاً یک مفهوم را بیان می‌کنند، فقط یک ترجمه از یکدیگر، ما می‌خواهیم یک نمایش واحد تولید کنیم که مستقل از زبان برای آن پنج جمله باشد. این ایده است.

در زمان BabelNet، ایده‌های من و دستاوردهای تیم من بسیار قابل توجه بود زیرا محققان زیادی در مقیاس بزرگ در حال بررسی چند زبانی نبودند. امروزه، این یک امر مسلم است که یک مدل زبان بزرگ از چندین زبان پشتیبانی می‌کند، اما در سال 2010، این دور از ذهن بود. بنابراین، داشتن یک منبع که یک فهرست مستقل از زبان از معانی را ارائه می‌دهد، یک پیشرفت بزرگ بود. ما در واقع از بسیاری از شرکت‌ها و نهادهای دولتی، از جمله دفتر مالکیت معنوی اتحادیه اروپا (EUIPO) و Adobe، علاقه زیادی به BabelNet دریافت کردیم. این زمانی بود که شرکت اسپین آف ما Babelscape شروع به کار کرد.

بنابراین آیا ظهور LLMها شما را به سمت پیشرفت‌های جدیدی مانند پروژه Minerva سوق داد؟ هدف از این تحقیق چیست؟

با ظهور ChatGPT، ما متوجه شدیم که نیاز به پر کردن شکافی در ایتالیا (و همچنین در کشورهای دیگر) داریم، جایی که دانش آکادمیک در مورد نحوه کار این سیستم‌ها وجود داشت، اما فاقد اجرای عملی بود. در چارچوب یک پروژه بزرگ به نام تحقیقات آینده هوش مصنوعی (FAIR)، که توسط برنامه نسل بعدی اتحادیه اروپا تأمین مالی می‌شود، ما می‌توانستیم پروژه Minerva LLM را با بیش از یک هدف در ذهن شروع کنیم.

اولین هدف ما ایجاد دانش فنی، با تمرکز بر تمرین مهندسی بود. هدف دوم ایجاد مدلی بود که از ابتدا از پیش آموزش داده شده باشد، نه تنها به زبان انگلیسی بلکه به زبان ایتالیایی نیز. بسیاری از مدل‌ها، زمانی که ما پروژه را شروع کردیم، و ما در مورد سال 2023 صحبت می‌کنیم، در ابتدا به زبان انگلیسی آموزش داده شدند، اما نه به زبان ایتالیایی، و فقط متعاقباً با زبان ایتالیایی سازگار شدند. در عوض، ما می‌خواستیم تأثیر آموزش به زبان ایتالیایی را به عنوان اولین زبان اولیه ببینیم. هدف سوم این بود که پروژه را به طور کامل منبع باز کنیم، به طوری که مدل نقش یک "پروژه زنده" را بازی کند که مردم بتوانند در آن مشارکت کنند، و همچنین یک رویکرد شفاف‌تر در مقایسه با مدل‌های منبع باز جریان اصلی. این پروژه به ما تمام دانش دست اول مورد نیاز برای رفتن به سطح بعدی را داد: چگونه می‌توانیم از مرزهای فعلی در NLP فراتر برویم؟ و این کاری است که ما اکنون شروع به انجام آن کرده‌ایم، با توجه به اینکه یک سال طول کشید تا یک مدل با اندازه متوسط ایجاد کنیم. با توجه به بودجه ما، البته نمی‌توانستیم به اندازه GPT-4 یا DeepSeek بزرگ شویم. اما من فکر نمی‌کنم این یک مشکل باشد، زیرا یک جهت‌گیری تحقیقاتی کلیدی که ما در حال مقابله با آن هستیم این است که چگونه اندازه این مدل‌ها را کاهش دهیم. مدل‌های زبان بزرگ فعلی بسیار بزرگ هستند. مدل‌هایی که ما هر روز از آن‌ها استفاده می‌کنیم به مقادیر زیادی برق و آب نیاز دارند که پایدار نیستند: ما مطلقاً باید راه‌هایی را برای توسعه مدل‌های کوچکتر و احتمالاً اتخاذ رویکردهای جدید و کارآمدتر کشف کنیم، و همچنین محدودیت‌های آن‌ها در عقل سلیم و استدلال را نیز در نظر بگیریم.

Minerva همچنین به ما دید و شناخت بیشتری در سطح ملی داده است. طعنه آمیز است زیرا قبل از Minerva من در خارج از کشور بسیار دیده شده بودم، اما در ایتالیا بسیار کمتر. از طریق این پروژه، ما نه تنها در ایتالیا به رسمیت شناخته شده‌ایم، بلکه توجه هر دو مؤسسه و عموم مردم را نیز به خود جلب کرده‌ایم. اکنون حتی افرادی را در خیابان ملاقات می‌کنم که من را به عنوان رهبر پروژه Minerva می‌شناسند!

چه ارتباطی بین کاری که قبل از Minerva انجام دادید و پروژه Minerva وجود دارد؟

کاری که من قبل از این انجام دادم بر روی معناشناسی متمرکز بود: معانی یک کلمه یا یک جمله چیست و چگونه می‌توانیم چنین معانی را با یک کامپیوتر آشکار کنیم؟ اکنون، ما مدل‌های زبان بزرگ داریم که اهمیتی نمی‌دهند که این معنی را آشکار کنند زیرا آن‌ها یک نمایش به اصطلاح پنهان تولید می‌کنند. به یک معنا، این کمی ترسناک است زیرا شما همیشه می‌خواهید یک ماشین پاسخگوتر و قابل توضیح‌تر از یک انسان باشد، و بنابراین درک نکردن کامل اینکه یک سیستم چه چیزی را درک می‌کند و چرا خروجی خاصی را تولید می‌کند، یک چالش قابل توجه است. اینجاست که من فکر می‌کنم تحقیقات ما در مورد معناشناسی (هم معناشناسی واژگانی، یعنی معنای کلمات، و هم معناشناسی در سطح جمله) در واقع بسیار مفید است و می‌تواند این مدل‌ها را قادر سازد تا در آینده قابل تفسیرتر و قابل توضیح‌تر شوند. و این کاری است که ما اکنون روی آن کار می‌کنیم. برای مثال، اخیراً متوجه شدیم که LLMها، اگرچه بسیار روان هستند، اما معنای کلمات را به طور کامل درک نمی‌کنند، به ویژه زمانی که در معانی کمتر رایج استفاده می‌شوند.

با نگاهی به آینده، آیا یک مشکل یا پروژه خاص وجود دارد که به طور خاص از کار کردن روی آن در یک یا دو سال آینده هیجان زده باشید؟

من یک برنامه بلندپروازانه را تصور می‌کنم که هم به معناشناسی و هم به مدل‌های زبان بزرگ می‌پردازد و هدف آن پیشبرد فناوری NLP به سطح بعدی است. این یک تعهد بزرگ است و در حالی که هنوز تمام قطعات را ندارم تا بگویم که به طور کامل در مسیر درستی قرار داریم، نشانه‌های قوی از جایی که می‌خواهم در مرحله بعد بروم دارم. این من را فوق‌العاده هیجان‌زده می‌کند! در واقع، من ممکن است از بسیاری از محققان دیگر هیجان‌زده‌تر باشم، زیرا پتانسیل ترکیب کار گذشته با آنچه در حال حاضر توسعه می‌دهیم را می‌بینم - و اینکه چگونه، با هم، می‌توانند یک پیشرفت واقعی ایجاد کنند. این مانند هیجانی است که هنرمندان هنگام زنده کردن یک اثر جدید احساس می‌کنند!

آیا توصیه‌ای برای دانشجویان دکترا یا محققان جوان دارید؟

من همیشه به آن‌ها می‌گویم که اشتیاق خود را دنبال کنند. اشتیاق چیزی است که من را در یک مسیر پیچیده و چالش برانگیز بدون احساس سنگینی به جلو سوق داد. البته، تلاش همیشه زمانی که سخت کار می‌کنید لازم است، اما زمانی که واقعاً عاشق کاری هستید که انجام می‌دهید و چیزهایی مانند پول را به تنهایی تعقیب نمی‌کنید، در کار رضایت پیدا می‌کنید. داشتن شغلی که شبیه یک سرگرمی است - شغلی که به اندازه کافی خوش شانس هستید که برای آن پول می‌گیرید - یک امتیاز است. و اگر خود را به طور کامل وقف کنید و آن را به درستی انجام دهید، موفقیت به دنبال خواهد داشت - و شاید، در نهایت، حتی پاداش‌های مالی.

آیا سرگرمی‌ها یا علایقی خارج از تحقیقات خود دارید که بخواهید به آن‌ها اشاره کنید؟

سرگرمی اصلی من خارج از تحقیق، خواندن کتاب است. این بهترین راه من برای قطع ارتباط از اینترنت و به طور کلی از دنیای علوم کامپیوتر است (به همین دلیل است که روی کاغذ می‌خوانم). من به ویژه از رمان‌های هیجان‌انگیز و جاسوسی لذت می‌برم - داستان‌هایی که توجه شما را به طور کامل جلب می‌کنند به طوری که همه چیزهای دیگر را فراموش می‌کنید. با این حال، من انواع کتاب‌ها را می‌خوانم. من خیلی زود شروع کردم، به لطف دو نفری که من را در این مسیر راهنمایی کردند: یک معلم و یک دوست. بسیاری از مردم هرگز متوجه نمی‌شوند که از خواندن لذت می‌برند، صرفاً به این دلیل که آن را به یک عادت تبدیل نمی‌کنند، و اگر این دو فرد عزیز نبودند، من هم ممکن بود یکی از آن‌ها باشم. من فقط با چند کتاب شروع کردم و اکنون حدود 10000 کتاب در آپارتمانم دارم. این که آیا من تا به حال موفق به خواندن همه آن‌ها خواهم شد - چه کسی می‌داند؟

درباره روبرتو

روبرتو ناویگلی استاد پردازش زبان طبیعی در دانشگاه ساپینزا رم است، جایی که او گروه NLP ساپینزا را رهبری می‌کند. او دو کمک هزینه ERC در زمینه معناشناسی چندزبانه واژگانی و سطح جمله دریافت کرده است، که در میان 15 پروژه که از طریق آن ERC علم را متحول کرد برجسته شده است. او جوایز متعددی دریافت کرده است، از جمله دو جایزه برجسته مقاله مجله هوش مصنوعی و چندین جایزه برجسته/بهترین مقاله از ACL. او یکی از بنیانگذاران Babelscape، یک شرکت موفق NLP چند زبانه با فناوری عمیق است. او به عنوان ویراستار همکار مجله AI و رئیس مشترک برنامه ACL-IJCNLP 2021 خدمت کرده است. او عضو AAAI، ACL، ELLIS و EurAI است و به عنوان رئیس کل ACL 2025 خدمت می‌کند.