نقشه حرارتی سه مجموعه داده آفلاین در مدل رانندگی خودرو. اعتبار: مجله Frontiers of Computer Science (۲۰۲۴). DOI: 10.1007/s11704-024-3946-y
نقشه حرارتی سه مجموعه داده آفلاین در مدل رانندگی خودرو. اعتبار: مجله Frontiers of Computer Science (۲۰۲۴). DOI: 10.1007/s11704-024-3946-y

شکستن پیوند نادرست: چگونه مدل‌های علّی، مشکل تعمیم یادگیری تقویتی آفلاین را حل می‌کنند

محققان دانشگاه نانجینگ و دانشگاه کارنگی ملون یک رویکرد هوش مصنوعی (Artificial Intelligence) ارائه کرده‌اند که نحوه یادگیری ماشین‌ها از داده‌های گذشته - فرآیندی که به عنوان یادگیری تقویتی آفلاین (offline reinforcement learning) شناخته می‌شود - را بهبود می‌بخشد. این نوع یادگیری ماشین برای این که سیستم‌ها بتوانند فقط با استفاده از اطلاعات تاریخی و بدون نیاز به تعامل بی‌درنگ با جهان، تصمیم‌گیری کنند، ضروری است.

با تمرکز بر روابط علت و معلولی معتبر در داده‌ها، روش جدید سیستم‌های خودکار (autonomous systems) - مانند خودروهای بدون راننده و سیستم‌های پشتیبانی از تصمیم‌گیری پزشکی - را قادر می‌سازد تا انتخاب‌های ایمن‌تر و قابل‌اعتمادتری داشته باشند. این پژوهش در مجله Frontiers of Computer Science منتشر شده است.

از سیگنال‌های گمراه‌کننده تا علیت واقعی: یک الگوی یادگیری جدید

به طور سنتی، یادگیری تقویتی آفلاین با مشکلاتی روبرو بوده است، زیرا گاهی اوقات الگوهای گمراه‌کننده‌ای را از داده‌های تاریخی مغرضانه دریافت می‌کند. برای مثال، یادگیری رانندگی را با تماشای فیلم‌های فرد دیگری پشت فرمان تصور کنید.

اگر آن راننده همیشه هنگام کاهش سرعت در باران، برف‌پاک‌کن‌ها (windshield wipers) را روشن کند، ممکن است به اشتباه فکر کنید که روشن کردن برف‌پاک‌کن‌ها باعث کاهش سرعت خودرو می‌شود. در واقعیت، عمل ترمز کردن است که باعث کاهش سرعت خودرو می‌شود.

روش جدید هوش مصنوعی این سوءتفاهم را تصحیح می‌کند و به سیستم آموزش می‌دهد که تشخیص دهد عمل ترمز کردن، نه فعال کردن برف‌پاک‌کن‌ها، مسئول کاهش سرعت خودرو است.

افزایش ایمنی در سیستم‌های خودکار

با توانایی شناسایی روابط علت و معلولی واقعی، رویکرد جدید سیستم‌های خودکار را بسیار ایمن‌تر، هوشمندتر و قابل‌اعتمادتر می‌کند. صنایعی مانند خودروهای خودران، مراقبت‌های بهداشتی و رباتیک به طور قابل توجهی از این موضوع بهره‌مند می‌شوند، زیرا این سیستم‌ها اغلب در زمانی استفاده می‌شوند که تصمیم‌گیری دقیق و قابل‌اعتماد بسیار مهم است.

پروفسور یانگ یو، محقق ارشد، اظهار داشت: "مطالعه ما از قدرت استدلال علّی برای کاهش نویز در داده‌های تاریخی استفاده می‌کند و سیستم‌ها را قادر می‌سازد تا تصمیماتی بگیرند که هم دقیق‌تر و هم ایمن‌تر هستند - پیشرفتی که می‌تواند نحوه استقرار فناوری خودکار را در صنایع مختلف بهبود بخشد."

برای سیاست‌گذاران و رهبران صنعت، این یافته‌ها می‌تواند از استانداردهای نظارتی بهبود یافته، شیوه‌های استقرار ایمن‌تر و افزایش اعتماد عمومی به سیستم‌های خودکار پشتیبانی کند. علاوه بر این، از دیدگاه علمی، این تحقیق راه را برای مطالعات قوی‌تر در مورد آگاهی هوش مصنوعی از علیت هموار می‌کند.

یک رویکرد علّی که از مدل‌های سنتی بهتر عمل می‌کند

محققان دریافتند که مدل‌های سنتی هوش مصنوعی گاهی اوقات اقدامات نامرتبط را به عنوان علّت و معلولی مرتبط اشتباه می‌گیرند، که می‌تواند منجر به نتایج خطرناکی شود. آن‌ها نشان دادند که بسیاری از این خطاها با گنجاندن ساختار علّی در این مدل‌ها به طور قابل توجهی کاهش می‌یابد. علاوه بر این، روش جدید - که به عنوان یک رویکرد جدید هوش مصنوعی علّی نامیده می‌شود - در هنگام آزمایش در سناریوهای عملی، به طور مداوم بهتر از تکنیک‌های موجود (یعنی MOPO، MOReL، COMBO، LNCM) عمل کرده است.

برای دستیابی به این نتایج امیدوارکننده، تیم تحقیقاتی روشی را توسعه داد که روابط علّی واقعی را از داده‌های تاریخی با استفاده از آزمون‌های آماری (statistical tests) تخصصی طراحی‌شده برای داده‌های ترتیبی و پیوسته شناسایی می‌کند. این رویکرد به طور دقیق به تشخیص علل واقعی در پس اقدامات مشاهده‌شده کمک می‌کند و پیچیدگی محاسباتی (computational complexity) را که اغلب مانع روش‌های سنتی می‌شود، کاهش می‌دهد و سیستم را کارآمدتر و عملی‌تر می‌کند.

این تحقیق درک ما از قابلیت‌های هوش مصنوعی را با جاسازی استدلال علّی در یادگیری تقویتی آفلاین افزایش می‌دهد. این تحقیق بهبودهای عملی در ایمنی و اثربخشی سیستم‌های خودکار در زندگی روزمره ارائه می‌دهد.

اطلاعات بیشتر: Zhengmao Zhu et al, Offline model-based reinforcement learning with causal structured world models, Frontiers of Computer Science (2024). DOI: 10.1007/s11704-024-3946-y

ارائه‌شده توسط انتشارات آموزش عالی