با استفاده از یک چارچوب ارتباطی جدید که در MIT توسعه یافته است، ربات اشیاء موجود در صحنه را شناسایی و اولویت‌بندی می‌کند تا به‌طور خودکار به انسان‌ها به شیوه‌ای یکپارچه، هوشمندانه و ایمن کمک کند. اعتبار: با تشکر از محققان
با استفاده از یک چارچوب ارتباطی جدید که در MIT توسعه یافته است، ربات اشیاء موجود در صحنه را شناسایی و اولویت‌بندی می‌کند تا به‌طور خودکار به انسان‌ها به شیوه‌ای یکپارچه، هوشمندانه و ایمن کمک کند. اعتبار: با تشکر از محققان

سیستم رباتیک بر روی اشیاء مرتبط برای کمک به انسان‌ها متمرکز می‌شود

رویکردی جدید می‌تواند دستیاران رباتیک بصری را برای محیط‌های خانگی، کاری و انبارها فراهم کند.

برای یک ربات، دنیای واقعی چیزهای زیادی برای دریافت دارد. درک هر نقطه داده در یک صحنه می‌تواند مقدار زیادی تلاش و زمان محاسباتی را ببرد. استفاده از آن اطلاعات برای تصمیم‌گیری در مورد اینکه چگونه به بهترین شکل به یک انسان کمک کنیم، تمرینی دشوارتر است.

اکنون، متخصصان رباتیک MIT راهی برای کاهش نویز داده‌ها دارند تا به ربات‌ها کمک کنند تا بر روی ویژگی‌های موجود در یک صحنه که بیشترین ارتباط را برای کمک به انسان‌ها دارند، متمرکز شوند.

رویکرد آن‌ها، که به‌درستی "ارتباط" نامیده می‌شود، ربات را قادر می‌سازد تا از نشانه‌ها در یک صحنه، مانند اطلاعات صوتی و تصویری، برای تعیین هدف انسان استفاده کند و سپس به سرعت اشیایی را که به احتمال زیاد در تحقق آن هدف مرتبط هستند، شناسایی کند. سپس ربات مجموعه‌ای از مانورها را برای ارائه ایمن اشیاء یا اقدامات مرتبط به انسان انجام می‌دهد.

محققان این رویکرد را با آزمایشی شبیه‌سازی بوفه صبحانه کنفرانس نشان دادند. آن‌ها میز را با میوه‌ها، نوشیدنی‌ها، تنقلات و ظروف مختلف به همراه یک بازوی رباتیک مجهز به میکروفون و دوربین چیدند. با استفاده از رویکرد جدید "ارتباط"، آن‌ها نشان دادند که ربات قادر است به‌درستی هدف انسان را شناسایی کرده و به‌طور مناسب در سناریوهای مختلف به آن‌ها کمک کند.

در یک مورد، ربات نشانه‌های بصری از انسانی را دریافت کرد که دستش را به سمت یک قوطی قهوه آماده دراز می‌کرد و به سرعت به آن شخص شیر و یک چوب همزن داد. در سناریوی دیگر، ربات مکالمه بین دو نفر را که در مورد قهوه صحبت می‌کردند، دریافت کرد و یک قوطی قهوه و خامه‌گیر به آن‌ها پیشنهاد داد.

به‌طور کلی، ربات توانست هدف انسان را با دقت 90 درصد و اشیاء مرتبط را با دقت 96 درصد پیش‌بینی کند. این روش همچنین ایمنی ربات را بهبود بخشید و تعداد برخوردها را در مقایسه با انجام همان وظایف بدون استفاده از روش جدید، بیش از 60 درصد کاهش داد.

کمال یوسف تومی، استاد مهندسی مکانیک در MIT می‌گوید: «این رویکرد فعال‌سازی ارتباط می‌تواند تعامل ربات با انسان‌ها را بسیار آسان‌تر کند. یک ربات مجبور نیست سؤالات زیادی از انسان در مورد نیازهایشان بپرسد. فقط به‌طور فعال از صحنه اطلاعات می‌گیرد تا بفهمد چگونه کمک کند.»

گروه یوسف تومی در حال بررسی این موضوع است که چگونه ربات‌های برنامه‌ریزی‌شده با "ارتباط" می‌توانند در محیط‌های تولید هوشمند و انبار کمک کنند، جایی که آن‌ها ربات‌ها را در کنار انسان‌ها تصور می‌کنند که به‌طور غریزی به آن‌ها کمک می‌کنند.

یوسف تومی به همراه دانشجویان فارغ‌التحصیل، شیائوتونگ ژانگ و دینگچنگ هوانگ، روش جدید خود را در کنفرانس بین‌المللی IEEE در مورد رباتیک و اتوماسیون (ICRA) در ماه مه ارائه خواهند داد. این کار بر اساس مقاله دیگری است که در ICRA در سال قبل ارائه شد.

یافتن تمرکز

رویکرد این تیم از توانایی خود ما برای سنجش آنچه در زندگی روزمره مرتبط است، الهام گرفته شده است. انسان‌ها می‌توانند به لطف ناحیه‌ای از مغز به نام سیستم فعال‌ساز شبکه‌ای (RAS)، حواس‌پرتی‌ها را فیلتر کرده و روی آنچه مهم است تمرکز کنند. RAS دسته‌ای از نورون‌ها در ساقه مغز است که به‌طور ناخودآگاه عمل می‌کند تا محرک‌های غیرضروری را هرس کند، به‌طوری که فرد بتواند به‌طور آگاهانه محرک‌های مرتبط را درک کند. RAS به جلوگیری از بارگذاری حسی کمک می‌کند، به عنوان مثال، ما را از تمرکز بر روی هر مورد در پیشخوان آشپزخانه باز می‌دارد و در عوض به ما کمک می‌کند تا روی ریختن یک فنجان قهوه تمرکز کنیم.

یوسف تومی توضیح می‌دهد: «نکته شگفت‌انگیز این است که این گروه‌های نورون هر چیزی را که مهم نیست فیلتر می‌کنند و سپس مغز را وادار می‌کنند تا روی آنچه در آن زمان مرتبط است تمرکز کند. این اساساً همان چیزی است که پیشنهاد ما است.»

او و تیمش یک سیستم رباتیک توسعه داده‌اند که به‌طور گسترده توانایی RAS را در پردازش و فیلتر کردن انتخابی اطلاعات تقلید می‌کند. این رویکرد از چهار مرحله اصلی تشکیل شده است. اولین مرحله یک مرحله "ادراک" تماشا و یادگیری است که در طی آن یک ربات نشانه‌های صوتی و تصویری را، به عنوان مثال از یک میکروفون و دوربین، دریافت می‌کند که به‌طور مداوم در یک "جعبه ابزار" هوش مصنوعی تغذیه می‌شوند. این جعبه ابزار می‌تواند شامل یک مدل زبانی بزرگ (LLM) باشد که مکالمات صوتی را برای شناسایی کلمات کلیدی و عبارات پردازش می‌کند و الگوریتم‌های مختلفی که اشیاء، انسان‌ها، اقدامات فیزیکی و اهداف وظیفه را تشخیص داده و طبقه‌بندی می‌کنند. جعبه ابزار هوش مصنوعی به گونه‌ای طراحی شده است که به‌طور مداوم در پس‌زمینه اجرا شود، مشابه فیلتر کردن ناخودآگاه که RAS مغز انجام می‌دهد.

مرحله دوم یک مرحله "بررسی ماشه" است که یک بررسی دوره‌ای است که سیستم برای ارزیابی اینکه آیا اتفاق مهمی در حال وقوع است یا خیر، مانند اینکه آیا یک انسان حضور دارد یا خیر، انجام می‌دهد. اگر یک انسان وارد محیط شده باشد، مرحله سوم سیستم فعال می‌شود. این مرحله قلب سیستم این تیم است که برای تعیین ویژگی‌های موجود در محیط که به احتمال زیاد برای کمک به انسان مرتبط هستند، عمل می‌کند.

برای ایجاد ارتباط، محققان الگوریتمی را توسعه دادند که پیش‌بینی‌های بلادرنگ ساخته‌شده توسط جعبه ابزار هوش مصنوعی را دریافت می‌کند. به عنوان مثال، LLM جعبه ابزار ممکن است کلمه کلیدی "قهوه" را دریافت کند و یک الگوریتم طبقه‌بندی عمل ممکن است فردی را که دستش را به سمت یک فنجان دراز می‌کند، به عنوان هدف "درست کردن قهوه" برچسب‌گذاری کند. روش "ارتباط" تیم این اطلاعات را در نظر می‌گیرد تا ابتدا "طبقه" اشیایی را که بیشترین احتمال مرتبط بودن با هدف "درست کردن قهوه" را دارند، تعیین کند. این ممکن است به‌طور خودکار طبقاتی مانند "میوه‌ها" و "تنقلات" را به نفع "فنجان‌ها" و "خامه‌گیرها" فیلتر کند. سپس الگوریتم در طبقات مرتبط بیشتر فیلتر می‌کند تا مرتبط‌ترین "عناصر" را تعیین کند. به عنوان مثال، بر اساس نشانه‌های بصری محیط، سیستم ممکن است یک فنجان نزدیک‌تر به یک فرد را مرتبط‌تر - و مفیدتر - از یک فنجانی که دورتر است، برچسب‌گذاری کند.

در مرحله چهارم و نهایی، ربات سپس اشیاء مرتبط شناسایی‌شده را برمی‌دارد و مسیری را برای دسترسی فیزیکی و ارائه اشیاء به انسان برنامه‌ریزی می‌کند.

حالت کمک‌کننده

محققان سیستم جدید را در آزمایش‌هایی آزمایش کردند که بوفه صبحانه کنفرانس را شبیه‌سازی می‌کنند. آن‌ها این سناریو را بر اساس مجموعه داده‌های اقدامات صبحانه که به‌طور عمومی در دسترس است، انتخاب کردند که شامل فیلم‌ها و تصاویری از فعالیت‌های معمولی است که مردم در طول زمان صبحانه انجام می‌دهند، مانند تهیه قهوه، پخت پنکیک، درست کردن غلات و سرخ کردن تخم‌مرغ. اقدامات در هر ویدیو و تصویر، به همراه هدف کلی (سرخ کردن تخم‌مرغ در مقابل درست کردن قهوه) برچسب‌گذاری شده‌اند.

با استفاده از این مجموعه داده‌ها، تیم الگوریتم‌های مختلف را در جعبه ابزار هوش مصنوعی خود آزمایش کردند، به‌طوری که هنگام دریافت اقدامات یک شخص در یک صحنه جدید، الگوریتم‌ها می‌توانند به طور دقیق وظایف و اهداف انسان و اشیاء مرتبط مرتبط را برچسب‌گذاری و طبقه‌بندی کنند.

در آزمایش‌های خود، آن‌ها یک بازو و گیره رباتیک را راه‌اندازی کردند و به سیستم دستور دادند تا به انسان‌ها هنگام نزدیک شدن به میز پر از نوشیدنی‌ها، تنقلات و ظروف مختلف کمک کند. آن‌ها دریافتند که وقتی هیچ انسانی حضور ندارد، جعبه ابزار هوش مصنوعی ربات به‌طور مداوم در پس‌زمینه کار می‌کند و اشیاء روی میز را برچسب‌گذاری و طبقه‌بندی می‌کند.

هنگامی که در طول بررسی ماشه، ربات انسانی را تشخیص داد، به سرعت توجه کرد، فاز "ارتباط" خود را روشن کرد و به سرعت اشیایی را در صحنه که به احتمال زیاد مرتبط هستند، بر اساس هدف انسان، که توسط جعبه ابزار هوش مصنوعی تعیین می‌شود، شناسایی کرد.

همکار نویسنده، ژانگ می‌گوید: «"ارتباط" می‌تواند ربات را برای تولید کمک‌های یکپارچه، هوشمندانه، ایمن و کارآمد در یک محیط بسیار پویا هدایت کند.»

در آینده، این تیم امیدوار است این سیستم را در سناریوهایی که شبیه محیط‌های کار و انبار هستند و همچنین در سایر وظایف و اهدافی که معمولاً در محیط‌های خانگی انجام می‌شوند، به کار گیرد.

ژانگ می‌گوید: «من می‌خواهم این سیستم را در خانه خود آزمایش کنم تا ببینم، برای مثال، اگر من در حال خواندن روزنامه هستم، شاید بتواند برای من قهوه بیاورد. اگر در حال شستن لباس هستم، می‌تواند برای من یک غلاف لباسشویی بیاورد. اگر در حال تعمیر هستم، می‌تواند برای من یک پیچ‌گوشتی بیاورد. چشم‌انداز ما این است که تعاملات انسان و ربات را ممکن کنیم که می‌توانند بسیار طبیعی‌تر و روان‌تر باشند.»

این تحقیق با حمایت و مشارکت شهرک علمی و فناوری ملک عبدالعزیز (KACST) از طریق مرکز سیستم‌های مهندسی پیچیده در MIT و KACST امکان‌پذیر شد.