یک تیم تحقیقاتی از موسسه فناوری و مهندسی مواد نینگبو (Ningbo Institute of Materials Technology and Engineering) آکادمی علوم چین، یک روش جدید انتخاب ویژگی با حذف آنتروپی نویز در اطلاعات متقابل معرفی کرده است. این مطالعه در نشر شده است در IEEE Transactions on Industrial Informatics.
انتخاب ویژگی، یک گام حیاتی در یادگیری ماشین و دادهکاوی به منظور کاهش ابعاد با حذف ویژگیهای نامربوط یا تکراری انجام میشود و از این طریق عملکرد مدل بهبود مییابد. با این حال، دادههای صنعتی، که اغلب با اندازههای نمونه کوچک و ابعاد بالا مشخص میشوند، چالشهای مهمی از جمله هزینههای محاسباتی بالا و خطر بیشبرازش (overfitting) را ایجاد میکنند.
روشهای سنتی در حفظ دقت هنگام کار با چنین دادههایی، به ویژه در حضور نویز حسگر، که میتواند معیارهای اطلاعات متقابل را مخدوش کرده و عملکرد طبقهبندی را کاهش دهد، با مشکل مواجه میشوند.
برای غلبه بر این محدودیتها، تیم تحقیقاتی یک رویکرد با مدلسازی نویز ویژگی به عنوان یک توزیع نرمال سانسور شده پیشنهاد کرد. با استفاده از اصل حداکثر آنتروپی، آنها آنتروپی نویز را با حل معادله واریانس در انتقال تعیین کردند.
علاوه بر این، محققان یک معیار اطلاعات متقابل بدون نویز برای ارزیابی ارتباط یک برچسب و ویژگیهای خرابشده با نویز توسعه دادند. بنابراین، آنتروپی نویز ویژگی ناشناخته در اطلاعات متقابل حذف شد، در حالی که نمونههای نویزی حفظ شدند و تأثیر نویز در طبقهبندی با نمونههای محدود از بین رفت.
روش پیشنهادی با ارائه یک ارزیابی قابل اعتمادتر از نویز در تمام نمونههای نویزی، از تکنیکهای مرسوم بهتر عمل میکند. با تکیه بر این، محققان یک معیار جدید به نام حداکثر ارتباط بدون نویز و حداقل افزونگی (Maximal Noise-Free Relevance and Minimal Redundancy - MNFR-MR) معرفی کردند که انتخاب ویژگی قوی را تضمین میکند.
این رویکرد یک گلوگاه مهم در پردازش دادههای صنعتی، به ویژه در سناریوهایی که اندازههای نمونه محدود هستند، را برطرف میکند. از آنجایی که صنایع به طور فزایندهای فناوریهای دادهمحور مانند اینترنت اشیا صنعتی (Industrial Internet of Things - IIoT) و دوقلوهای دیجیتال را اتخاذ میکنند، این روش نویدبخش دستیابی به بینشهای عملی و بهبود تصمیمگیری در حوزههای مختلف است.
این مطالعه نه تنها درک نظری انتخاب ویژگی در مجموعهدادههای نویزی و با ابعاد بالا را پیشرفت میدهد، بلکه راهحلهای عملی برای کاربردهای صنعتی دنیای واقعی نیز ارائه میدهد و راه را برای هوش دادهمحور دقیقتر و کارآمدتر هموار میکند.
اطلاعات بیشتر: Chan Xu et al, Robust Feature Selection by Removing Noise Entropy Within Mutual Information for Limited-Sample Industrial Data, IEEE Transactions on Industrial Informatics (2025). DOI: 10.1109/TII.2025.3534417
ارائه شده توسط آکادمی علوم چین