یک تیم تحقیقاتی به رهبری دانشگاه کرنل، یک حلقه مجهز به هوش مصنوعی را توسعه دادهاند که مجهز به فناوری میکرو-سونار است و میتواند بهطور مداوم - و در زمان واقعی - انگشتنگاری را در زبان اشاره آمریکایی (ASL) ردیابی کند.
در شکل فعلی خود، SpellRing میتواند برای وارد کردن متن به رایانهها یا تلفنهای هوشمند از طریق انگشتنگاری استفاده شود، که در ASL برای املای کلمات بدون علائم مربوطه، مانند اسم خاص، نامها و اصطلاحات فنی استفاده میشود. با توسعه بیشتر، این دستگاه - که اعتقاد بر این است اولین نوع خود است - میتواند با ردیابی مداوم کل کلمات و جملات امضا شده، انقلابی در ترجمه ASL ایجاد کند.
این تحقیق در سرور پیشچاپ arXiv منتشر شده است.
هیونچول لیم، دانشجوی دکترا در رشته علم اطلاعات، گفت: «بسیاری از فناوریهای دیگر که انگشتنگاری را در ASL تشخیص میدهند، توسط جامعه ناشنوایان و کمشنوایان مورد استفاده قرار نگرفتهاند، زیرا سختافزار حجیم و غیرعملی است. ما به دنبال توسعه یک حلقه واحد برای ثبت تمام حرکات ظریف و پیچیده انگشت در ASL بودیم.»
لیم نویسنده اصلی مقاله "SpellRing: تشخیص انگشتنگاری مداوم در زبان اشاره آمریکایی با استفاده از یک حلقه" است که در کنفرانس ماشینهای محاسباتی (CHI) در مورد عوامل انسانی در سیستمهای محاسباتی، ۲۶ آوریل تا ۱ مه در یوکوهاما، ژاپن ارائه خواهد شد.
SpellRing که توسط لیم و محققان در آزمایشگاه رابطهای کامپیوتری هوشمند برای تعاملات آینده (SciFi) در کالج علوم محاسباتی و اطلاعاتی کرنل آن اس. باورز توسعه یافته است، روی انگشت شست پوشیده میشود و مجهز به میکروفون و بلندگو است. این دو با هم امواج صوتی غیرقابل شنیدن را ارسال و دریافت میکنند که حرکات دست و انگشت کاربر را ردیابی میکنند، در حالی که یک مینی ژیروسکوپ حرکت دست را ردیابی میکند. این اجزا در داخل یک حلقه و محفظه چاپ سهبعدی که بزرگتر از یک چهارم استاندارد ایالات متحده نیست، قرار دارند.
سپس یک الگوریتم یادگیری عمیق اختصاصی تصاویر سونار را پردازش میکند و حروف املایی ASL را در زمان واقعی و با دقتی مشابه بسیاری از سیستمهای موجود که به سختافزار بیشتری نیاز دارند، پیشبینی میکند.
توسعهدهندگان SpellRing را با 20 امضاکننده با تجربه و تازهکار ASL ارزیابی کردند و از آنها خواستند که در مجموع بیش از 20000 کلمه با طولهای مختلف را به طور طبیعی و مداوم انگشتنگاری کنند. نرخ دقت SpellRing بسته به دشواری کلمات بین 82٪ و 92٪ بود.
چنگ ژانگ، استادیار علم اطلاعات (Cornell Bowers CIS) و یکی از نویسندگان این مقاله، گفت: "همیشه یک شکاف بین جامعه فنی که ابزارها را توسعه میدهند و جامعه هدف که از آنها استفاده میکنند وجود دارد. ما بخشی از این شکاف را پر کردهایم. ما SpellRing را برای کاربران هدف طراحی کردیم که آن را ارزیابی کردند."
محققان گفتند آموزش یک سیستم هوش مصنوعی برای تشخیص 26 شکل دست مرتبط با هر حرف از الفبا - به ویژه از آنجا که امضاکنندگان به طور طبیعی شکل یک حرف خاص را برای کارایی، سرعت و جریان تغییر میدهند - به دور از ساده بود.
ژانگ، که آزمایشگاه SciFi را رهبری میکند، گفت: "تغییر بین حروف میتواند قابل توجه باشد. ثبت آن دشوار است."
SpellRing بر اساس تکرار قبلی از آزمایشگاه SciFi به نام Ring-a-Pose ساخته شده است و آخرین مورد در خط مداوم دستگاههای هوشمند مجهز به سونار از این آزمایشگاه است. محققان قبلاً ابزارهایی را برای تفسیر حالتهای دست در واقعیت مجازی، قسمت بالایی بدن به صورت سهبعدی، تشخیص گفتار خاموش و حالتهای نگاه و صورت در میان چندین مورد دیگر توسعه دادهاند.
فرانسوا گیمبرتییر، استاد علم اطلاعات (Cornell Bowers CIS) و یکی از نویسندگان این مقاله، گفت: "در حالی که مدلهای زبان بزرگ در اخبار در صدر قرار دارند، یادگیری ماشین این امکان را فراهم میکند که جهان را به روشهای جدید و غیرمنتظرهای حس کنیم، همانطور که این پروژه و سایر پروژهها در آزمایشگاه نشان میدهند. این راه را برای دسترسی متنوعتر و فراگیرتر به منابع محاسباتی هموار میکند."
جین لو، دانشجوی دکترا در رشته زبانشناسی که تحقیقاتش بر روی ASL متمرکز است، گفت: "من میخواستم اطمینان حاصل کنم که تمام اقدامات ممکن را برای انجام درست توسط جامعه ASL انجام دادهایم. انگشتنگاری، در حالی که ظریف و چالشبرانگیز برای ردیابی از دیدگاه فنی است، تنها بخشی از ASL را تشکیل میدهد و نشاندهنده ASL به عنوان یک زبان نیست. ما هنوز راه زیادی در توسعه دستگاههای قابل مقایسه برای تشخیص کامل ASL در پیش داریم، اما این یک گام هیجانانگیز در جهت درست است."
کار آینده لیم شامل ادغام سیستم میکرو-سونار در عینکها برای ثبت حرکات بالاتنه و حالات صورت، برای یک سیستم ترجمه جامعتر ASL خواهد بود.
لیم، که دورههای پایه و متوسط ASL را در کرنل به عنوان بخشی از تحقیقات SpellRing خود گذرانده است، گفت: "افراد ناشنوا و کمشنوا برای ASL از چیزی بیش از دستان خود استفاده میکنند. آنها از حالات صورت، حرکات بالاتنه و حرکات سر استفاده میکنند. ASL یک زبان بصری بسیار پیچیده و پیچیده است."