محققان دانشگاه نانجینگ و دانشگاه کارنگی ملون یک رویکرد هوش مصنوعی (Artificial Intelligence) ارائه کردهاند که نحوه یادگیری ماشینها از دادههای گذشته - فرآیندی که به عنوان یادگیری تقویتی آفلاین (offline reinforcement learning) شناخته میشود - را بهبود میبخشد. این نوع یادگیری ماشین برای این که سیستمها بتوانند فقط با استفاده از اطلاعات تاریخی و بدون نیاز به تعامل بیدرنگ با جهان، تصمیمگیری کنند، ضروری است.
با تمرکز بر روابط علت و معلولی معتبر در دادهها، روش جدید سیستمهای خودکار (autonomous systems) - مانند خودروهای بدون راننده و سیستمهای پشتیبانی از تصمیمگیری پزشکی - را قادر میسازد تا انتخابهای ایمنتر و قابلاعتمادتری داشته باشند. این پژوهش در مجله Frontiers of Computer Science منتشر شده است.
از سیگنالهای گمراهکننده تا علیت واقعی: یک الگوی یادگیری جدید
به طور سنتی، یادگیری تقویتی آفلاین با مشکلاتی روبرو بوده است، زیرا گاهی اوقات الگوهای گمراهکنندهای را از دادههای تاریخی مغرضانه دریافت میکند. برای مثال، یادگیری رانندگی را با تماشای فیلمهای فرد دیگری پشت فرمان تصور کنید.
اگر آن راننده همیشه هنگام کاهش سرعت در باران، برفپاککنها (windshield wipers) را روشن کند، ممکن است به اشتباه فکر کنید که روشن کردن برفپاککنها باعث کاهش سرعت خودرو میشود. در واقعیت، عمل ترمز کردن است که باعث کاهش سرعت خودرو میشود.
روش جدید هوش مصنوعی این سوءتفاهم را تصحیح میکند و به سیستم آموزش میدهد که تشخیص دهد عمل ترمز کردن، نه فعال کردن برفپاککنها، مسئول کاهش سرعت خودرو است.
افزایش ایمنی در سیستمهای خودکار
با توانایی شناسایی روابط علت و معلولی واقعی، رویکرد جدید سیستمهای خودکار را بسیار ایمنتر، هوشمندتر و قابلاعتمادتر میکند. صنایعی مانند خودروهای خودران، مراقبتهای بهداشتی و رباتیک به طور قابل توجهی از این موضوع بهرهمند میشوند، زیرا این سیستمها اغلب در زمانی استفاده میشوند که تصمیمگیری دقیق و قابلاعتماد بسیار مهم است.
پروفسور یانگ یو، محقق ارشد، اظهار داشت: "مطالعه ما از قدرت استدلال علّی برای کاهش نویز در دادههای تاریخی استفاده میکند و سیستمها را قادر میسازد تا تصمیماتی بگیرند که هم دقیقتر و هم ایمنتر هستند - پیشرفتی که میتواند نحوه استقرار فناوری خودکار را در صنایع مختلف بهبود بخشد."
برای سیاستگذاران و رهبران صنعت، این یافتهها میتواند از استانداردهای نظارتی بهبود یافته، شیوههای استقرار ایمنتر و افزایش اعتماد عمومی به سیستمهای خودکار پشتیبانی کند. علاوه بر این، از دیدگاه علمی، این تحقیق راه را برای مطالعات قویتر در مورد آگاهی هوش مصنوعی از علیت هموار میکند.
یک رویکرد علّی که از مدلهای سنتی بهتر عمل میکند
محققان دریافتند که مدلهای سنتی هوش مصنوعی گاهی اوقات اقدامات نامرتبط را به عنوان علّت و معلولی مرتبط اشتباه میگیرند، که میتواند منجر به نتایج خطرناکی شود. آنها نشان دادند که بسیاری از این خطاها با گنجاندن ساختار علّی در این مدلها به طور قابل توجهی کاهش مییابد. علاوه بر این، روش جدید - که به عنوان یک رویکرد جدید هوش مصنوعی علّی نامیده میشود - در هنگام آزمایش در سناریوهای عملی، به طور مداوم بهتر از تکنیکهای موجود (یعنی MOPO، MOReL، COMBO، LNCM) عمل کرده است.
برای دستیابی به این نتایج امیدوارکننده، تیم تحقیقاتی روشی را توسعه داد که روابط علّی واقعی را از دادههای تاریخی با استفاده از آزمونهای آماری (statistical tests) تخصصی طراحیشده برای دادههای ترتیبی و پیوسته شناسایی میکند. این رویکرد به طور دقیق به تشخیص علل واقعی در پس اقدامات مشاهدهشده کمک میکند و پیچیدگی محاسباتی (computational complexity) را که اغلب مانع روشهای سنتی میشود، کاهش میدهد و سیستم را کارآمدتر و عملیتر میکند.
این تحقیق درک ما از قابلیتهای هوش مصنوعی را با جاسازی استدلال علّی در یادگیری تقویتی آفلاین افزایش میدهد. این تحقیق بهبودهای عملی در ایمنی و اثربخشی سیستمهای خودکار در زندگی روزمره ارائه میدهد.
اطلاعات بیشتر: Zhengmao Zhu et al, Offline model-based reinforcement learning with causal structured world models, Frontiers of Computer Science (2024). DOI: 10.1007/s11704-024-3946-y
ارائهشده توسط انتشارات آموزش عالی