یک تیم تحقیقاتی به رهبری دانشگاه کرنل، انگشتری مجهز به هوش مصنوعی (AI) و فناوری میکروسونار ابداع کرده است که میتواند بهطور مداوم و آنی، هجی انگشتی در زبان اشاره آمریکایی (ASL) را ردیابی کند.
در شکل کنونی، SpellRing میتواند برای وارد کردن متن به رایانهها یا گوشیهای هوشمند از طریق هجی انگشتی استفاده شود. هجی انگشتی در ASL برای هجی کردن کلماتی مانند اسامی خاص، نامها و اصطلاحات فنی که علامت مشخصی ندارند، به کار میرود. با توسعه بیشتر، این دستگاه بهطور بالقوه میتواند برای ردیابی مداوم کلمات و جملات کامل اشارهشده استفاده شود.
هیونچول لیم، دانشجوی دکترا در رشته علوم اطلاعات گفت: «بسیاری از فناوریهای دیگر که هجی انگشتی در ASL را تشخیص میدهند، توسط جامعه ناشنوایان و کمشنوایان پذیرفته نشدهاند، زیرا سختافزار آنها حجیم و غیرعملی است.» وی افزود: «ما به دنبال توسعه یک انگشتر واحد بودیم تا تمام حرکات ظریف و پیچیده انگشتان در ASL را ثبت کند.»
لیم نویسنده اصلی مقاله «SpellRing: تشخیص هجی انگشتی پیوسته در زبان اشاره آمریکایی با استفاده از یک انگشتر» است که در کنفرانس انجمن ماشینهای محاسباتی (ACM) در زمینه عوامل انسانی در سیستمهای محاسباتی (CHI) که از ۲۶ آوریل تا ۱ مه در یوکوهاما، ژاپن برگزار میشود، ارائه خواهد شد.
SpellRing که توسط لیم و محققان آزمایشگاه رابطهای کامپیوتری هوشمند برای تعاملات آینده (SciFi) در دانشکده محاسبات و علوم اطلاعات Ann S. Bowers کرنل توسعه یافته است، روی انگشت شست قرار میگیرد و مجهز به میکروفون و بلندگو است. این دو قطعه با هم امواج صوتی نامفهوم را ارسال و دریافت میکنند که حرکات دست و انگشتان کاربر را ردیابی میکند، در حالی که یک ژیروسکوپ کوچک حرکت دست را دنبال میکند. این اجزا در داخل یک انگشتر و محفظه چاپ سهبعدی قرار گرفتهاند که بزرگتر از یک سکه ربع دلاری استاندارد آمریکا نیست.
سپس یک الگوریتم یادگیری عمیق (deep-learning) اختصاصی، تصاویر سونار را پردازش کرده و حروف هجیشده انگشتی ASL را بهصورت آنی و با دقتی مشابه بسیاری از سیستمهای موجود که به سختافزار بیشتری نیاز دارند، پیشبینی میکند.
توسعهدهندگان SpellRing را با ۲۰ اشارهگر باتجربه و تازهکار ASL ارزیابی کردند و از آنها خواستند که بهطور طبیعی و پیوسته، مجموعاً بیش از ۲۰,۰۰۰ کلمه با طولهای مختلف را هجی انگشتی کنند. نرخ دقت SpellRing بسته به سختی کلمات، بین ۸۲٪ تا ۹۲٪ بود.
چنگ ژانگ، استادیار علوم اطلاعات (Cornell Bowers CIS) و یکی از نویسندگان همکار مقاله گفت: «همیشه شکافی بین جامعه فنی که ابزارها را توسعه میدهند و جامعه هدف که از آنها استفاده میکنند، وجود دارد.» وی افزود: «ما مقداری از این شکاف را پر کردهایم. ما SpellRing را برای کاربران هدف طراحی کردیم و آنها آن را ارزیابی کردند.»
محققان گفتند که آموزش یک سیستم هوش مصنوعی برای تشخیص ۲۶ شکل دست مرتبط با هر حرف الفبا - به ویژه از آنجا که اشارهگران بهطور طبیعی شکل یک حرف خاص را برای کارایی، سرعت و روان بودن تغییر میدهند - به هیچ وجه ساده نبود. ژانگ که آزمایشگاه SciFi را مدیریت میکند، گفت: «تفاوت بین حروف میتواند قابل توجه باشد. ثبت آن دشوار است.»
SpellRing بر اساس نسخه قبلی از آزمایشگاه SciFi به نام Ring-a-Pose ساخته شده و جدیدترین نمونه در خط مداوم دستگاههای هوشمند مجهز به سونار از این آزمایشگاه است. محققان پیش از این ابزارهایی برای تفسیر حالات دست در واقعیت مجازی، بالاتنه بهصورت سهبعدی، تشخیص گفتار بیصدا، و نگاه و حالات چهره، در میان چندین مورد دیگر، توسعه دادهاند.
فرانسوا گیمبرتییر، استاد علوم اطلاعات (Cornell Bowers CIS) و نویسنده همکار گفت: «در حالی که مدلهای زبان بزرگ در صدر اخبار قرار دارند، یادگیری ماشین امکان حس کردن جهان را به روشهای جدید و غیرمنتظره فراهم میکند، همانطور که این پروژه و پروژههای دیگر در آزمایشگاه نشان میدهند.» وی افزود: «این امر راه را برای دسترسی متنوعتر و فراگیرتر به منابع محاسباتی هموار میکند.»
جین لو، دانشجوی دکترای رشته زبانشناسی که تحقیقاتش بر ASL متمرکز است و یکی از نویسندگان همکار مقاله است، گفت: «میخواستم کمک کنم تا اطمینان حاصل شود که تمام اقدامات ممکن را برای رعایت حقوق جامعه ASL انجام میدهیم.» وی افزود: «هجی انگشتی، اگرچه از منظر فنی ظریف و چالشبرانگیز است، اما تنها بخشی از ASL را تشکیل میدهد و نماینده ASL به عنوان یک زبان نیست. ما هنوز راه درازی در پیش داریم تا دستگاههای مشابهی برای تشخیص کامل ASL توسعه دهیم، اما این یک گام هیجانانگیز در جهت درست است.»
کار آینده لیم شامل ادغام سیستم میکروسونار در عینک برای ثبت حرکات بالاتنه و حالات چهره، برای یک سیستم ترجمه جامعتر ASL خواهد بود.
لیم که دورههای پایه و متوسط ASL را در کرنل به عنوان بخشی از تحقیقات SpellRing خود گذرانده است، گفت: «افراد ناشنوا و کمشنوا برای ASL بیش از دستان خود استفاده میکنند. آنها از حالات چهره، حرکات بالاتنه و حرکات سر استفاده میکنند.» وی افزود: «ASL یک زبان بصری بسیار پیچیده و غنی است.»
سایر نویسندگان همکار عبارتند از: Nam Anh Dang، Dylan Lee، Tianhong Catherine Yu، Jane Lu، Franklin Mingzhe Li، Yiqi Jin، Yan Ma، Xiaojun Bi، François Guimbretière، و Cheng Zhang.
این تحقیق توسط بنیاد ملی علوم تأمین مالی شده است.