هیونچول لیم انگشتر SpellRing را به دست دارد. عکس از لوئیس دی‌پیترو
هیونچول لیم انگشتر SpellRing را به دست دارد. عکس از لوئیس دی‌پیترو

انگشتر هوش مصنوعی کلمات هجی‌شده در زبان اشاره آمریکایی را ردیابی می‌کند

یک تیم تحقیقاتی به رهبری دانشگاه کرنل، انگشتری مجهز به هوش مصنوعی (AI) و فناوری میکروسونار ابداع کرده است که می‌تواند به‌طور مداوم و آنی، هجی انگشتی در زبان اشاره آمریکایی (ASL) را ردیابی کند.

در شکل کنونی، SpellRing می‌تواند برای وارد کردن متن به رایانه‌ها یا گوشی‌های هوشمند از طریق هجی انگشتی استفاده شود. هجی انگشتی در ASL برای هجی کردن کلماتی مانند اسامی خاص، نام‌ها و اصطلاحات فنی که علامت مشخصی ندارند، به کار می‌رود. با توسعه بیشتر، این دستگاه به‌طور بالقوه می‌تواند برای ردیابی مداوم کلمات و جملات کامل اشاره‌شده استفاده شود.

هیونچول لیم، دانشجوی دکترا در رشته علوم اطلاعات گفت: «بسیاری از فناوری‌های دیگر که هجی انگشتی در ASL را تشخیص می‌دهند، توسط جامعه ناشنوایان و کم‌شنوایان پذیرفته نشده‌اند، زیرا سخت‌افزار آن‌ها حجیم و غیرعملی است.» وی افزود: «ما به دنبال توسعه یک انگشتر واحد بودیم تا تمام حرکات ظریف و پیچیده انگشتان در ASL را ثبت کند.»

لیم نویسنده اصلی مقاله «SpellRing: تشخیص هجی انگشتی پیوسته در زبان اشاره آمریکایی با استفاده از یک انگشتر» است که در کنفرانس انجمن ماشین‌های محاسباتی (ACM) در زمینه عوامل انسانی در سیستم‌های محاسباتی (CHI) که از ۲۶ آوریل تا ۱ مه در یوکوهاما، ژاپن برگزار می‌شود، ارائه خواهد شد.

شکلی از مقاله SpellRing: تشخیص هجی انگشتی پیوسته در زبان اشاره آمریکایی با استفاده از یک انگشتر که طرح کلی سیستم را نشان می‌دهد.
شکلی از مقاله SpellRing: تشخیص هجی انگشتی پیوسته در زبان اشاره آمریکایی با استفاده از یک انگشتر که طرح کلی سیستم را نشان می‌دهد.

SpellRing که توسط لیم و محققان آزمایشگاه رابط‌های کامپیوتری هوشمند برای تعاملات آینده (SciFi) در دانشکده محاسبات و علوم اطلاعات Ann S. Bowers کرنل توسعه یافته است، روی انگشت شست قرار می‌گیرد و مجهز به میکروفون و بلندگو است. این دو قطعه با هم امواج صوتی نامفهوم را ارسال و دریافت می‌کنند که حرکات دست و انگشتان کاربر را ردیابی می‌کند، در حالی که یک ژیروسکوپ کوچک حرکت دست را دنبال می‌کند. این اجزا در داخل یک انگشتر و محفظه چاپ سه‌بعدی قرار گرفته‌اند که بزرگتر از یک سکه ربع دلاری استاندارد آمریکا نیست.

سپس یک الگوریتم یادگیری عمیق (deep-learning) اختصاصی، تصاویر سونار را پردازش کرده و حروف هجی‌شده انگشتی ASL را به‌صورت آنی و با دقتی مشابه بسیاری از سیستم‌های موجود که به سخت‌افزار بیشتری نیاز دارند، پیش‌بینی می‌کند.

توسعه‌دهندگان SpellRing را با ۲۰ اشاره‌گر باتجربه و تازه‌کار ASL ارزیابی کردند و از آن‌ها خواستند که به‌طور طبیعی و پیوسته، مجموعاً بیش از ۲۰,۰۰۰ کلمه با طول‌های مختلف را هجی انگشتی کنند. نرخ دقت SpellRing بسته به سختی کلمات، بین ۸۲٪ تا ۹۲٪ بود.

چنگ ژانگ، استادیار علوم اطلاعات (Cornell Bowers CIS) و یکی از نویسندگان همکار مقاله گفت: «همیشه شکافی بین جامعه فنی که ابزارها را توسعه می‌دهند و جامعه هدف که از آن‌ها استفاده می‌کنند، وجود دارد.» وی افزود: «ما مقداری از این شکاف را پر کرده‌ایم. ما SpellRing را برای کاربران هدف طراحی کردیم و آن‌ها آن را ارزیابی کردند.»

محققان گفتند که آموزش یک سیستم هوش مصنوعی برای تشخیص ۲۶ شکل دست مرتبط با هر حرف الفبا - به ویژه از آنجا که اشاره‌گران به‌طور طبیعی شکل یک حرف خاص را برای کارایی، سرعت و روان بودن تغییر می‌دهند - به هیچ وجه ساده نبود. ژانگ که آزمایشگاه SciFi را مدیریت می‌کند، گفت: «تفاوت بین حروف می‌تواند قابل توجه باشد. ثبت آن دشوار است.»

SpellRing بر اساس نسخه قبلی از آزمایشگاه SciFi به نام Ring-a-Pose ساخته شده و جدیدترین نمونه در خط مداوم دستگاه‌های هوشمند مجهز به سونار از این آزمایشگاه است. محققان پیش از این ابزارهایی برای تفسیر حالات دست در واقعیت مجازی، بالاتنه به‌صورت سه‌بعدی، تشخیص گفتار بی‌صدا، و نگاه و حالات چهره، در میان چندین مورد دیگر، توسعه داده‌اند.

فرانسوا گیمبرتی‌یر، استاد علوم اطلاعات (Cornell Bowers CIS) و نویسنده همکار گفت: «در حالی که مدل‌های زبان بزرگ در صدر اخبار قرار دارند، یادگیری ماشین امکان حس کردن جهان را به روش‌های جدید و غیرمنتظره فراهم می‌کند، همانطور که این پروژه و پروژه‌های دیگر در آزمایشگاه نشان می‌دهند.» وی افزود: «این امر راه را برای دسترسی متنوع‌تر و فراگیرتر به منابع محاسباتی هموار می‌کند.»

جین لو، دانشجوی دکترای رشته زبان‌شناسی که تحقیقاتش بر ASL متمرکز است و یکی از نویسندگان همکار مقاله است، گفت: «می‌خواستم کمک کنم تا اطمینان حاصل شود که تمام اقدامات ممکن را برای رعایت حقوق جامعه ASL انجام می‌دهیم.» وی افزود: «هجی انگشتی، اگرچه از منظر فنی ظریف و چالش‌برانگیز است، اما تنها بخشی از ASL را تشکیل می‌دهد و نماینده ASL به عنوان یک زبان نیست. ما هنوز راه درازی در پیش داریم تا دستگاه‌های مشابهی برای تشخیص کامل ASL توسعه دهیم، اما این یک گام هیجان‌انگیز در جهت درست است.»

کار آینده لیم شامل ادغام سیستم میکروسونار در عینک برای ثبت حرکات بالاتنه و حالات چهره، برای یک سیستم ترجمه جامع‌تر ASL خواهد بود.

لیم که دوره‌های پایه و متوسط ASL را در کرنل به عنوان بخشی از تحقیقات SpellRing خود گذرانده است، گفت: «افراد ناشنوا و کم‌شنوا برای ASL بیش از دستان خود استفاده می‌کنند. آن‌ها از حالات چهره، حرکات بالاتنه و حرکات سر استفاده می‌کنند.» وی افزود: «ASL یک زبان بصری بسیار پیچیده و غنی است.»

سایر نویسندگان همکار عبارتند از: Nam Anh Dang، Dylan Lee، Tianhong Catherine Yu، Jane Lu، Franklin Mingzhe Li، Yiqi Jin، Yan Ma، Xiaojun Bi، François Guimbretière، و Cheng Zhang.

این تحقیق توسط بنیاد ملی علوم تأمین مالی شده است.