اعتبار: Pixabay/CC0 Public Domain
اعتبار: Pixabay/CC0 Public Domain

چگونه هوش مصنوعی قابل اعتماد را بدون داده های مورد اعتماد بسازیم

امروزه تقریباً همه نام هوش مصنوعی (Artificial Intelligence یا AI) را شنیده‌اند و میلیون‌ها نفر در سراسر جهان در حال حاضر از آن استفاده می‌کنند یا در معرض آن قرار دارند—از نوشتن ایمیل‌ها توسط ChatGPT گرفته تا کمک به تشخیص پزشکی.

در هسته خود، هوش مصنوعی از الگوریتم‌ها—مجموعه‌ای از دستورالعمل‌های دقیق ریاضیاتی—استفاده می‌کند که به یک کامپیوتر می‌گوید چگونه مجموعه‌ای از عملکردهای پیشرفته را انجام دهد یا واقعیت‌ها را به اطلاعات مفید تبدیل کند. مدل‌های زبان بزرگ (Large Language Models یا LLM) که هوش مصنوعی امروزی را به طور فزاینده‌ای قدرتمند می‌سازند، انواع خاصی از الگوریتم‌ها هستند که از مجموعه‌های داده‌ای عظیم و عمدتاً متمرکز یاد می‌گیرند.

با این حال، تمرکز این مجموعه‌های داده‌ای بزرگ، مسائلی را در مورد امنیت، حریم خصوصی و مالکیت داده‌ها ایجاد می‌کند—در واقع عبارت "داده‌ها نفت جدید هستند" نشان می‌دهد که داده‌ها به یک منبع حیاتی تبدیل شده‌اند و نوآوری و رشد را در اقتصاد دیجیتال امروزی هدایت می‌کنند.

برای مقابله با این نگرانی‌ها، رویکردی به نام یادگیری فدرال (Federated Learning) در حال حاضر هوش مصنوعی را متحول می‌کند. برخلاف آموزش مدل‌های هوش مصنوعی بر روی مجموعه‌های داده‌ای عظیم و متمرکز، یادگیری فدرال به این مدل‌ها اجازه می‌دهد تا در سراسر شبکه‌ای از دستگاه‌ها (یا سرورها)ی غیرمتمرکز یاد بگیرند و داده‌های خام را در منبع خود نگه دارند.

عدم اعتماد به داده ها

پروفسور رشید گوئراوی، رئیس آزمایشگاه محاسبات توزیع شده (Distributed Computing Laboratory یا DCL) در دانشکده علوم کامپیوتر و ارتباطات، توضیح می‌دهد: «هوش مصنوعی امروزی که با یادگیری فدرال آموزش داده می‌شود، داده‌ها را از سراسر جهان جمع‌آوری می‌کند—اینترنت، سایر پایگاه‌های داده بزرگ، بیمارستان‌ها، دستگاه‌های هوشمند و غیره. این سیستم‌ها بسیار مؤثر هستند، اما در عین حال یک تناقض وجود دارد. چیزی که آنها را بسیار مؤثر می‌کند، آنها را در برابر یادگیری از داده‌های "بد" بسیار آسیب‌پذیر می‌کند.»

داده‌ها می‌توانند به دلایل زیادی بد باشند. شاید عدم توجه یا خطای انسانی به این معنی باشد که به اشتباه در یک پایگاه داده وارد شده‌اند، شاید از ابتدا اشتباهاتی در داده‌ها وجود داشته باشد، شاید حسگرها یا سایر ابزارها خراب یا دارای نقص عملکرد باشند، داده‌های نادرست یا خطرناک ممکن است به طور مخرب ثبت شوند و غیره. گاهی اوقات، داده‌ها خوب هستند، اما دستگاه میزبان آن هک یا جعلی است. در هر صورت، اگر از این داده‌ها برای آموزش هوش مصنوعی استفاده شود، سیستم‌ها کمتر قابل اعتماد و ناامن می‌شوند.

گوئراوی می‌گوید: «همه اینها یک سؤال کلیدی را مطرح می‌کند، آیا می‌توانیم سیستم‌های هوش مصنوعی قابل اعتماد را بدون اعتماد به هیچ منبع داده‌ای بسازیم؟» این پروفسور و تیمش پس از یک دهه کار نظری اختصاص داده شده به پرداختن به این چالش، می‌گویند پاسخ مثبت است! یک کتاب اخیر یافته‌های اصلی آنها را خلاصه می‌کند.

اعتماد به مجموعه داده ها

آنها در همکاری با موسسه ملی تحقیقات علوم و فناوری دیجیتال فرانسه، اکنون در حال به کارگیری ایده‌های خود هستند. آنها ByzFL را توسعه داده‌اند، یک کتابخانه با استفاده از زبان برنامه‌نویسی پایتون (Python) که برای محک زدن و بهبود مدل‌های یادگیری فدرال در برابر تهدیدهای خصمانه، به ویژه داده‌های بد، طراحی شده است.

گوئراوی می‌پرسد: «ما معتقدیم که اکثریت داده‌ها خوب هستند، اما چگونه می‌دانیم به کدام مجموعه‌های داده نمی‌توانیم اعتماد کنیم؟» «کتابخانه ByzFL ما آزمایش می‌کند که آیا یک سیستم در برابر حملات ناشناخته قبلی قوی است یا خیر و سپس آن سیستم را قوی‌تر می‌کند. به طور مشخص‌تر، ما به کاربران نرم‌افزاری می‌دهیم تا داده‌های بد را برای آزمایش شبیه‌سازی کنند و همچنین فیلترهای امنیتی را برای اطمینان از استحکام اضافه می‌کنیم. داده‌های بد اغلب به روشی ظریف توزیع می‌شوند به طوری که بلافاصله قابل مشاهده نیستند.»

ByzFL داده‌های خوب را از داده‌های بد جدا و مکان‌یابی نمی‌کند، بلکه از طرح‌های تجمیع قوی (به عنوان مثال، میانه) برای نادیده گرفتن ورودی‌های شدید استفاده می‌کند. به عنوان مثال، اگر سه حسگر دمای 6، 7 و 9 درجه را ثبت کنند، اما یکی دیگر دمای 20- درجه را ثبت کند، کل محاسبه را خراب می‌کند. نرم‌افزار ByzFL مقادیر شدید را حذف می‌کند تا تأثیر داده‌های بد محدود شود، در حالی که اطلاعات جمع‌آوری می‌شوند.

اطمینان از عملکرد نسل بعدی هوش مصنوعی

انتظار می‌رود هوش مصنوعی در آینده‌ای نه چندان دور هر بخش از زندگی ما را لمس کند. گوئراوی استدلال می‌کند که امروزه اکثر شرکت‌ها از اشکال بسیار ابتدایی هوش مصنوعی استفاده می‌کنند، به عنوان مثال، پلتفرم‌های پخش جریانی (Streaming Platforms) فیلم‌ها را توصیه می‌کنند یا دستیاران هوش مصنوعی به نوشتن متن کمک می‌کنند. اگر کسی فیلمی را که توصیه می‌شود دوست نداشته باشد یا ایمیلی عالی نباشد، مسئله مهمی نیست.

با نگاهی به آینده، برای هر برنامه‌ای که مأموریت حیاتی دارد، مانند تشخیص سرطان، رانندگی با ماشین یا کنترل یک هواپیما، هوش مصنوعی ایمن ضروری است. گوئراوی می‌گوید: «روزی که واقعاً هوش مصنوعی مولد (Generative AI) را در بیمارستان‌ها، ماشین‌ها یا زیرساخت‌های حمل و نقل قرار دهیم، فکر می‌کنم خواهیم دید که ایمنی به دلیل داده‌های بد مشکل‌ساز است. بزرگترین چالش در حال حاضر، رفتن از چیزی است که من آن را سیرک حیوانات می‌نامم به دنیای واقعی با چیزی که بتوانیم به آن اعتماد کنیم. برای برنامه‌های حیاتی، ما از نقطه‌ای که بتوانیم نگرانی در مورد ایمنی را متوقف کنیم، بسیار دور هستیم. هدف ByzFL کمک به پر کردن این شکاف است.»

نقشی برای سوئیس

این پروفسور نگران است که ممکن است چند حادثه بزرگ رخ دهد تا عموم مردم و سیاست‌گذاران درک کنند که هوش مصنوعی ایجاد شده تا به امروز نباید برای پزشکی، حمل و نقل یا هر چیز حیاتی استفاده شود و توسعه نسل جدیدی از هوش مصنوعی ایمن و قوی ضروری است.

او در پایان گفت: «من فکر می‌کنم سوئیس می‌تواند در اینجا نقشی ایفا کند زیرا ما سنتی از جدیت داریم. ما چیزهایی می‌سازیم که کار می‌کنند، می‌توانیم از تضمین کیفیت سوئیس برای نشان دادن یک سیستم صدور گواهینامه با استفاده از این نوع نرم‌افزار استفاده کنیم تا نشان دهیم که هوش مصنوعی واقعاً بدون اعتماد به هیچ جزء فردی ایمن است.»