امروزه تقریباً همه نام هوش مصنوعی (Artificial Intelligence یا AI) را شنیدهاند و میلیونها نفر در سراسر جهان در حال حاضر از آن استفاده میکنند یا در معرض آن قرار دارند—از نوشتن ایمیلها توسط ChatGPT گرفته تا کمک به تشخیص پزشکی.
در هسته خود، هوش مصنوعی از الگوریتمها—مجموعهای از دستورالعملهای دقیق ریاضیاتی—استفاده میکند که به یک کامپیوتر میگوید چگونه مجموعهای از عملکردهای پیشرفته را انجام دهد یا واقعیتها را به اطلاعات مفید تبدیل کند. مدلهای زبان بزرگ (Large Language Models یا LLM) که هوش مصنوعی امروزی را به طور فزایندهای قدرتمند میسازند، انواع خاصی از الگوریتمها هستند که از مجموعههای دادهای عظیم و عمدتاً متمرکز یاد میگیرند.
با این حال، تمرکز این مجموعههای دادهای بزرگ، مسائلی را در مورد امنیت، حریم خصوصی و مالکیت دادهها ایجاد میکند—در واقع عبارت "دادهها نفت جدید هستند" نشان میدهد که دادهها به یک منبع حیاتی تبدیل شدهاند و نوآوری و رشد را در اقتصاد دیجیتال امروزی هدایت میکنند.
برای مقابله با این نگرانیها، رویکردی به نام یادگیری فدرال (Federated Learning) در حال حاضر هوش مصنوعی را متحول میکند. برخلاف آموزش مدلهای هوش مصنوعی بر روی مجموعههای دادهای عظیم و متمرکز، یادگیری فدرال به این مدلها اجازه میدهد تا در سراسر شبکهای از دستگاهها (یا سرورها)ی غیرمتمرکز یاد بگیرند و دادههای خام را در منبع خود نگه دارند.
عدم اعتماد به داده ها
پروفسور رشید گوئراوی، رئیس آزمایشگاه محاسبات توزیع شده (Distributed Computing Laboratory یا DCL) در دانشکده علوم کامپیوتر و ارتباطات، توضیح میدهد: «هوش مصنوعی امروزی که با یادگیری فدرال آموزش داده میشود، دادهها را از سراسر جهان جمعآوری میکند—اینترنت، سایر پایگاههای داده بزرگ، بیمارستانها، دستگاههای هوشمند و غیره. این سیستمها بسیار مؤثر هستند، اما در عین حال یک تناقض وجود دارد. چیزی که آنها را بسیار مؤثر میکند، آنها را در برابر یادگیری از دادههای "بد" بسیار آسیبپذیر میکند.»
دادهها میتوانند به دلایل زیادی بد باشند. شاید عدم توجه یا خطای انسانی به این معنی باشد که به اشتباه در یک پایگاه داده وارد شدهاند، شاید از ابتدا اشتباهاتی در دادهها وجود داشته باشد، شاید حسگرها یا سایر ابزارها خراب یا دارای نقص عملکرد باشند، دادههای نادرست یا خطرناک ممکن است به طور مخرب ثبت شوند و غیره. گاهی اوقات، دادهها خوب هستند، اما دستگاه میزبان آن هک یا جعلی است. در هر صورت، اگر از این دادهها برای آموزش هوش مصنوعی استفاده شود، سیستمها کمتر قابل اعتماد و ناامن میشوند.
گوئراوی میگوید: «همه اینها یک سؤال کلیدی را مطرح میکند، آیا میتوانیم سیستمهای هوش مصنوعی قابل اعتماد را بدون اعتماد به هیچ منبع دادهای بسازیم؟» این پروفسور و تیمش پس از یک دهه کار نظری اختصاص داده شده به پرداختن به این چالش، میگویند پاسخ مثبت است! یک کتاب اخیر یافتههای اصلی آنها را خلاصه میکند.
اعتماد به مجموعه داده ها
آنها در همکاری با موسسه ملی تحقیقات علوم و فناوری دیجیتال فرانسه، اکنون در حال به کارگیری ایدههای خود هستند. آنها ByzFL را توسعه دادهاند، یک کتابخانه با استفاده از زبان برنامهنویسی پایتون (Python) که برای محک زدن و بهبود مدلهای یادگیری فدرال در برابر تهدیدهای خصمانه، به ویژه دادههای بد، طراحی شده است.
گوئراوی میپرسد: «ما معتقدیم که اکثریت دادهها خوب هستند، اما چگونه میدانیم به کدام مجموعههای داده نمیتوانیم اعتماد کنیم؟» «کتابخانه ByzFL ما آزمایش میکند که آیا یک سیستم در برابر حملات ناشناخته قبلی قوی است یا خیر و سپس آن سیستم را قویتر میکند. به طور مشخصتر، ما به کاربران نرمافزاری میدهیم تا دادههای بد را برای آزمایش شبیهسازی کنند و همچنین فیلترهای امنیتی را برای اطمینان از استحکام اضافه میکنیم. دادههای بد اغلب به روشی ظریف توزیع میشوند به طوری که بلافاصله قابل مشاهده نیستند.»
ByzFL دادههای خوب را از دادههای بد جدا و مکانیابی نمیکند، بلکه از طرحهای تجمیع قوی (به عنوان مثال، میانه) برای نادیده گرفتن ورودیهای شدید استفاده میکند. به عنوان مثال، اگر سه حسگر دمای 6، 7 و 9 درجه را ثبت کنند، اما یکی دیگر دمای 20- درجه را ثبت کند، کل محاسبه را خراب میکند. نرمافزار ByzFL مقادیر شدید را حذف میکند تا تأثیر دادههای بد محدود شود، در حالی که اطلاعات جمعآوری میشوند.
اطمینان از عملکرد نسل بعدی هوش مصنوعی
انتظار میرود هوش مصنوعی در آیندهای نه چندان دور هر بخش از زندگی ما را لمس کند. گوئراوی استدلال میکند که امروزه اکثر شرکتها از اشکال بسیار ابتدایی هوش مصنوعی استفاده میکنند، به عنوان مثال، پلتفرمهای پخش جریانی (Streaming Platforms) فیلمها را توصیه میکنند یا دستیاران هوش مصنوعی به نوشتن متن کمک میکنند. اگر کسی فیلمی را که توصیه میشود دوست نداشته باشد یا ایمیلی عالی نباشد، مسئله مهمی نیست.
با نگاهی به آینده، برای هر برنامهای که مأموریت حیاتی دارد، مانند تشخیص سرطان، رانندگی با ماشین یا کنترل یک هواپیما، هوش مصنوعی ایمن ضروری است. گوئراوی میگوید: «روزی که واقعاً هوش مصنوعی مولد (Generative AI) را در بیمارستانها، ماشینها یا زیرساختهای حمل و نقل قرار دهیم، فکر میکنم خواهیم دید که ایمنی به دلیل دادههای بد مشکلساز است. بزرگترین چالش در حال حاضر، رفتن از چیزی است که من آن را سیرک حیوانات مینامم به دنیای واقعی با چیزی که بتوانیم به آن اعتماد کنیم. برای برنامههای حیاتی، ما از نقطهای که بتوانیم نگرانی در مورد ایمنی را متوقف کنیم، بسیار دور هستیم. هدف ByzFL کمک به پر کردن این شکاف است.»
نقشی برای سوئیس
این پروفسور نگران است که ممکن است چند حادثه بزرگ رخ دهد تا عموم مردم و سیاستگذاران درک کنند که هوش مصنوعی ایجاد شده تا به امروز نباید برای پزشکی، حمل و نقل یا هر چیز حیاتی استفاده شود و توسعه نسل جدیدی از هوش مصنوعی ایمن و قوی ضروری است.
او در پایان گفت: «من فکر میکنم سوئیس میتواند در اینجا نقشی ایفا کند زیرا ما سنتی از جدیت داریم. ما چیزهایی میسازیم که کار میکنند، میتوانیم از تضمین کیفیت سوئیس برای نشان دادن یک سیستم صدور گواهینامه با استفاده از این نوع نرمافزار استفاده کنیم تا نشان دهیم که هوش مصنوعی واقعاً بدون اعتماد به هیچ جزء فردی ایمن است.»