اعتبار: استیو جانسون/دانشگاه ایالتی کارولینای شمالی
اعتبار: استیو جانسون/دانشگاه ایالتی کارولینای شمالی

روش جدید بر مشکل همبستگی‌های کاذب در هوش مصنوعی غلبه می‌کند

مدل‌های هوش مصنوعی اغلب به «همبستگی‌های کاذب» متکی هستند و تصمیماتی را بر اساس اطلاعات بی‌اهمیت و بالقوه گمراه‌کننده می‌گیرند. محققان اکنون دریافته‌اند که این همبستگی‌های کاذب آموخته‌شده را می‌توان به زیرمجموعه بسیار کوچکی از داده‌های آموزشی ردیابی کرد و روشی را به نمایش گذاشته‌اند که بر این مشکل غلبه می‌کند.

یونگ-اون کیم، نویسنده مسئول یک مقاله در این مورد و استادیار علوم کامپیوتر در دانشگاه ایالتی کارولینای شمالی، می‌گوید: «این تکنیک از این نظر جدید است که حتی زمانی که هیچ ایده‌ای در مورد اینکه هوش مصنوعی به چه همبستگی‌های کاذبی متکی است، می‌توانید از آن استفاده کنید.»

او می‌گوید: «اگر از قبل ایده خوبی در مورد اینکه ویژگی‌های کاذب چیست دارید، تکنیک ما یک راه کارآمد و مؤثر برای حل این مشکل است. با این حال، حتی اگر صرفاً مشکلات عملکردی دارید، اما دلیل آن را نمی‌دانید، همچنان می‌توانید از تکنیک ما برای تعیین اینکه آیا همبستگی کاذبی وجود دارد و حل آن مشکل استفاده کنید.»

همبستگی‌های کاذب عموماً ناشی از سوگیری سادگی در طول آموزش هوش مصنوعی هستند. متخصصان از مجموعه‌های داده برای آموزش مدل‌های هوش مصنوعی برای انجام وظایف خاص استفاده می‌کنند. به عنوان مثال، یک مدل هوش مصنوعی می‌تواند برای شناسایی عکس‌های سگ‌ها آموزش داده شود. مجموعه داده‌های آموزشی شامل تصاویری از سگ‌ها است که در آن به هوش مصنوعی گفته می‌شود که یک سگ در عکس وجود دارد.

در طول فرآیند آموزش، هوش مصنوعی شروع به شناسایی ویژگی‌های خاصی می‌کند که می‌تواند از آنها برای شناسایی سگ‌ها استفاده کند. با این حال، اگر بسیاری از سگ‌ها در عکس‌ها قلاده داشته باشند، و از آنجایی که قلاده‌ها عموماً ویژگی‌های کم‌پیچیده‌تری از سگ نسبت به گوش‌ها یا خز هستند، هوش مصنوعی ممکن است از قلاده‌ها به عنوان یک راه ساده برای شناسایی سگ‌ها استفاده کند. اینگونه است که سوگیری سادگی می‌تواند باعث همبستگی‌های کاذب شود.

کیم می‌گوید: «و اگر هوش مصنوعی از قلاده‌ها به عنوان عاملی برای شناسایی سگ‌ها استفاده کند، هوش مصنوعی ممکن است گربه‌هایی را که قلاده دارند به عنوان سگ شناسایی کند.»

تکنیک‌های مرسوم برای رفع مشکلاتی که ناشی از همبستگی‌های کاذب هستند، متکی به این هستند که متخصصان بتوانند ویژگی‌های کاذبی را که باعث ایجاد مشکل می‌شوند، شناسایی کنند. سپس می‌توانند با اصلاح مجموعه‌های داده مورد استفاده برای آموزش مدل هوش مصنوعی، این مشکل را برطرف کنند. به عنوان مثال، متخصصان ممکن است وزن بیشتری به عکس‌هایی در مجموعه داده بدهند که شامل سگ‌هایی هستند که قلاده ندارند.

با این حال، محققان در کار جدید خود نشان می‌دهند که همیشه نمی‌توان ویژگی‌های کاذبی را که باعث ایجاد مشکل می‌شوند، شناسایی کرد - و این امر باعث می‌شود تکنیک‌های مرسوم برای رفع همبستگی‌های کاذب بی‌اثر شوند.

کیم می‌گوید: «هدف ما از این کار توسعه تکنیکی بود که به ما امکان می‌دهد حتی زمانی که هیچ چیز در مورد آن ویژگی‌های کاذب نمی‌دانیم، همبستگی‌های کاذب را قطع کنیم.»

تکنیک جدید متکی بر حذف بخش کوچکی از داده‌های مورد استفاده برای آموزش مدل هوش مصنوعی است.

کیم می‌گوید: «می‌تواند تغییرات قابل توجهی در نمونه‌های داده موجود در مجموعه‌های وجود داشته باشد. برخی از نمونه‌ها می‌توانند بسیار ساده باشند، در حالی که برخی دیگر ممکن است بسیار پیچیده باشند. و ما می‌توانیم میزان "دشوار" بودن هر نمونه را بر اساس نحوه رفتار مدل در طول آموزش اندازه‌گیری کنیم.»

کیم توضیح می‌دهد: «فرضیه ما این بود که دشوارترین نمونه‌ها در مجموعه داده می‌توانند پر سر و صدا و مبهم باشند، و به احتمال زیاد شبکه‌ای را مجبور می‌کنند که به اطلاعات نامربوطی تکیه کند که به عملکرد مدل آسیب می‌زند.»

«با حذف یک لایه کوچک از داده‌های که درک آن دشوار است، شما همچنین نمونه‌های داده سخت را که حاوی ویژگی‌های کاذب هستند حذف می‌کنید. این حذف بر مشکل همبستگی‌های کاذب غلبه می‌کند، بدون اینکه اثرات نامطلوب قابل توجهی ایجاد کند.»

محققان نشان دادند که این تکنیک جدید به نتایج پیشرفته دست می‌یابد - و عملکرد را حتی در مقایسه با کارهای قبلی روی مدل‌هایی که ویژگی‌های کاذب در آنها قابل شناسایی بودند، بهبود می‌بخشد.

مقاله داوری شده، "قطع همبستگی‌های کاذب با هرس داده"، در کنفرانس بین‌المللی یادگیری بازنمایی‌ها (ICLR 2025) که در سنگاپور در تاریخ 24 تا 28 آوریل برگزار می‌شود، ارائه خواهد شد.

اطلاعات بیشتر:
قطع همبستگی‌های کاذب با هرس داده: openreview.net/pdf?id=Bk13Qfu8Ru

ارائه شده توسط دانشگاه ایالتی کارولینای شمالی