هیونچول لیم حلقه SpellRing را به دست دارد. اعتبار: لویی دی‌پیتریو/ارائه شده
هیونچول لیم حلقه SpellRing را به دست دارد. اعتبار: لویی دی‌پیتریو/ارائه شده

حلقه هوش مصنوعی کلمات املایی را در زبان اشاره آمریکایی ردیابی می‌کند

یک تیم تحقیقاتی به رهبری دانشگاه کرنل، یک حلقه مجهز به هوش مصنوعی را توسعه داده‌اند که مجهز به فناوری میکرو-سونار است و می‌تواند به‌طور مداوم - و در زمان واقعی - انگشت‌نگاری را در زبان اشاره آمریکایی (ASL) ردیابی کند.

در شکل فعلی خود، SpellRing می‌تواند برای وارد کردن متن به رایانه‌ها یا تلفن‌های هوشمند از طریق انگشت‌نگاری استفاده شود، که در ASL برای املای کلمات بدون علائم مربوطه، مانند اسم خاص، نام‌ها و اصطلاحات فنی استفاده می‌شود. با توسعه بیشتر، این دستگاه - که اعتقاد بر این است اولین نوع خود است - می‌تواند با ردیابی مداوم کل کلمات و جملات امضا شده، انقلابی در ترجمه ASL ایجاد کند.

این تحقیق در سرور پیش‌چاپ arXiv منتشر شده است.

هیونچول لیم، دانشجوی دکترا در رشته علم اطلاعات، گفت: «بسیاری از فناوری‌های دیگر که انگشت‌نگاری را در ASL تشخیص می‌دهند، توسط جامعه ناشنوایان و کم‌شنوایان مورد استفاده قرار نگرفته‌اند، زیرا سخت‌افزار حجیم و غیرعملی است. ما به دنبال توسعه یک حلقه واحد برای ثبت تمام حرکات ظریف و پیچیده انگشت در ASL بودیم.»

لیم نویسنده اصلی مقاله "SpellRing: تشخیص انگشت‌نگاری مداوم در زبان اشاره آمریکایی با استفاده از یک حلقه" است که در کنفرانس ماشین‌های محاسباتی (CHI) در مورد عوامل انسانی در سیستم‌های محاسباتی، ۲۶ آوریل تا ۱ مه در یوکوهاما، ژاپن ارائه خواهد شد.

SpellRing که توسط لیم و محققان در آزمایشگاه رابط‌های کامپیوتری هوشمند برای تعاملات آینده (SciFi) در کالج علوم محاسباتی و اطلاعاتی کرنل آن اس. باورز توسعه یافته است، روی انگشت شست پوشیده می‌شود و مجهز به میکروفون و بلندگو است. این دو با هم امواج صوتی غیرقابل شنیدن را ارسال و دریافت می‌کنند که حرکات دست و انگشت کاربر را ردیابی می‌کنند، در حالی که یک مینی ژیروسکوپ حرکت دست را ردیابی می‌کند. این اجزا در داخل یک حلقه و محفظه چاپ سه‌بعدی که بزرگتر از یک چهارم استاندارد ایالات متحده نیست، قرار دارند.

سپس یک الگوریتم یادگیری عمیق اختصاصی تصاویر سونار را پردازش می‌کند و حروف املایی ASL را در زمان واقعی و با دقتی مشابه بسیاری از سیستم‌های موجود که به سخت‌افزار بیشتری نیاز دارند، پیش‌بینی می‌کند.

توسعه‌دهندگان SpellRing را با 20 امضاکننده با تجربه و تازه‌کار ASL ارزیابی کردند و از آنها خواستند که در مجموع بیش از 20000 کلمه با طول‌های مختلف را به طور طبیعی و مداوم انگشت‌نگاری کنند. نرخ دقت SpellRing بسته به دشواری کلمات بین 82٪ و 92٪ بود.

چنگ ژانگ، استادیار علم اطلاعات (Cornell Bowers CIS) و یکی از نویسندگان این مقاله، گفت: "همیشه یک شکاف بین جامعه فنی که ابزارها را توسعه می‌دهند و جامعه هدف که از آنها استفاده می‌کنند وجود دارد. ما بخشی از این شکاف را پر کرده‌ایم. ما SpellRing را برای کاربران هدف طراحی کردیم که آن را ارزیابی کردند."

محققان گفتند آموزش یک سیستم هوش مصنوعی برای تشخیص 26 شکل دست مرتبط با هر حرف از الفبا - به ویژه از آنجا که امضاکنندگان به طور طبیعی شکل یک حرف خاص را برای کارایی، سرعت و جریان تغییر می‌دهند - به دور از ساده بود.

ژانگ، که آزمایشگاه SciFi را رهبری می‌کند، گفت: "تغییر بین حروف می‌تواند قابل توجه باشد. ثبت آن دشوار است."

SpellRing بر اساس تکرار قبلی از آزمایشگاه SciFi به نام Ring-a-Pose ساخته شده است و آخرین مورد در خط مداوم دستگاه‌های هوشمند مجهز به سونار از این آزمایشگاه است. محققان قبلاً ابزارهایی را برای تفسیر حالت‌های دست در واقعیت مجازی، قسمت بالایی بدن به صورت سه‌بعدی، تشخیص گفتار خاموش و حالت‌های نگاه و صورت در میان چندین مورد دیگر توسعه داده‌اند.

فرانسوا گیمبرتی‌یر، استاد علم اطلاعات (Cornell Bowers CIS) و یکی از نویسندگان این مقاله، گفت: "در حالی که مدل‌های زبان بزرگ در اخبار در صدر قرار دارند، یادگیری ماشین این امکان را فراهم می‌کند که جهان را به روش‌های جدید و غیرمنتظره‌ای حس کنیم، همانطور که این پروژه و سایر پروژه‌ها در آزمایشگاه نشان می‌دهند. این راه را برای دسترسی متنوع‌تر و فراگیرتر به منابع محاسباتی هموار می‌کند."

جین لو، دانشجوی دکترا در رشته زبان‌شناسی که تحقیقاتش بر روی ASL متمرکز است، گفت: "من می‌خواستم اطمینان حاصل کنم که تمام اقدامات ممکن را برای انجام درست توسط جامعه ASL انجام داده‌ایم. انگشت‌نگاری، در حالی که ظریف و چالش‌برانگیز برای ردیابی از دیدگاه فنی است، تنها بخشی از ASL را تشکیل می‌دهد و نشان‌دهنده ASL به عنوان یک زبان نیست. ما هنوز راه زیادی در توسعه دستگاه‌های قابل مقایسه برای تشخیص کامل ASL در پیش داریم، اما این یک گام هیجان‌انگیز در جهت درست است."

کار آینده لیم شامل ادغام سیستم میکرو-سونار در عینک‌ها برای ثبت حرکات بالاتنه و حالات صورت، برای یک سیستم ترجمه جامع‌تر ASL خواهد بود.

لیم، که دوره‌های پایه و متوسط ASL را در کرنل به عنوان بخشی از تحقیقات SpellRing خود گذرانده است، گفت: "افراد ناشنوا و کم‌شنوا برای ASL از چیزی بیش از دستان خود استفاده می‌کنند. آنها از حالات صورت، حرکات بالاتنه و حرکات سر استفاده می‌کنند. ASL یک زبان بصری بسیار پیچیده و پیچیده است."