برای یک ربات، دنیای واقعی چیزهای زیادی برای دریافت دارد. درک هر نقطه داده در یک صحنه میتواند مقدار زیادی تلاش و زمان محاسباتی را ببرد. استفاده از آن اطلاعات برای تصمیمگیری در مورد اینکه چگونه به بهترین شکل به یک انسان کمک کنیم، تمرینی دشوارتر است.
اکنون، متخصصان رباتیک MIT راهی برای کاهش نویز دادهها دارند تا به رباتها کمک کنند تا بر روی ویژگیهای موجود در یک صحنه که بیشترین ارتباط را برای کمک به انسانها دارند، متمرکز شوند.
رویکرد آنها، که بهدرستی "ارتباط" نامیده میشود، ربات را قادر میسازد تا از نشانهها در یک صحنه، مانند اطلاعات صوتی و تصویری، برای تعیین هدف انسان استفاده کند و سپس به سرعت اشیایی را که به احتمال زیاد در تحقق آن هدف مرتبط هستند، شناسایی کند. سپس ربات مجموعهای از مانورها را برای ارائه ایمن اشیاء یا اقدامات مرتبط به انسان انجام میدهد.
محققان این رویکرد را با آزمایشی شبیهسازی بوفه صبحانه کنفرانس نشان دادند. آنها میز را با میوهها، نوشیدنیها، تنقلات و ظروف مختلف به همراه یک بازوی رباتیک مجهز به میکروفون و دوربین چیدند. با استفاده از رویکرد جدید "ارتباط"، آنها نشان دادند که ربات قادر است بهدرستی هدف انسان را شناسایی کرده و بهطور مناسب در سناریوهای مختلف به آنها کمک کند.
در یک مورد، ربات نشانههای بصری از انسانی را دریافت کرد که دستش را به سمت یک قوطی قهوه آماده دراز میکرد و به سرعت به آن شخص شیر و یک چوب همزن داد. در سناریوی دیگر، ربات مکالمه بین دو نفر را که در مورد قهوه صحبت میکردند، دریافت کرد و یک قوطی قهوه و خامهگیر به آنها پیشنهاد داد.
بهطور کلی، ربات توانست هدف انسان را با دقت 90 درصد و اشیاء مرتبط را با دقت 96 درصد پیشبینی کند. این روش همچنین ایمنی ربات را بهبود بخشید و تعداد برخوردها را در مقایسه با انجام همان وظایف بدون استفاده از روش جدید، بیش از 60 درصد کاهش داد.
کمال یوسف تومی، استاد مهندسی مکانیک در MIT میگوید: «این رویکرد فعالسازی ارتباط میتواند تعامل ربات با انسانها را بسیار آسانتر کند. یک ربات مجبور نیست سؤالات زیادی از انسان در مورد نیازهایشان بپرسد. فقط بهطور فعال از صحنه اطلاعات میگیرد تا بفهمد چگونه کمک کند.»
گروه یوسف تومی در حال بررسی این موضوع است که چگونه رباتهای برنامهریزیشده با "ارتباط" میتوانند در محیطهای تولید هوشمند و انبار کمک کنند، جایی که آنها رباتها را در کنار انسانها تصور میکنند که بهطور غریزی به آنها کمک میکنند.
یوسف تومی به همراه دانشجویان فارغالتحصیل، شیائوتونگ ژانگ و دینگچنگ هوانگ، روش جدید خود را در کنفرانس بینالمللی IEEE در مورد رباتیک و اتوماسیون (ICRA) در ماه مه ارائه خواهند داد. این کار بر اساس مقاله دیگری است که در ICRA در سال قبل ارائه شد.
یافتن تمرکز
رویکرد این تیم از توانایی خود ما برای سنجش آنچه در زندگی روزمره مرتبط است، الهام گرفته شده است. انسانها میتوانند به لطف ناحیهای از مغز به نام سیستم فعالساز شبکهای (RAS)، حواسپرتیها را فیلتر کرده و روی آنچه مهم است تمرکز کنند. RAS دستهای از نورونها در ساقه مغز است که بهطور ناخودآگاه عمل میکند تا محرکهای غیرضروری را هرس کند، بهطوری که فرد بتواند بهطور آگاهانه محرکهای مرتبط را درک کند. RAS به جلوگیری از بارگذاری حسی کمک میکند، به عنوان مثال، ما را از تمرکز بر روی هر مورد در پیشخوان آشپزخانه باز میدارد و در عوض به ما کمک میکند تا روی ریختن یک فنجان قهوه تمرکز کنیم.
یوسف تومی توضیح میدهد: «نکته شگفتانگیز این است که این گروههای نورون هر چیزی را که مهم نیست فیلتر میکنند و سپس مغز را وادار میکنند تا روی آنچه در آن زمان مرتبط است تمرکز کند. این اساساً همان چیزی است که پیشنهاد ما است.»
او و تیمش یک سیستم رباتیک توسعه دادهاند که بهطور گسترده توانایی RAS را در پردازش و فیلتر کردن انتخابی اطلاعات تقلید میکند. این رویکرد از چهار مرحله اصلی تشکیل شده است. اولین مرحله یک مرحله "ادراک" تماشا و یادگیری است که در طی آن یک ربات نشانههای صوتی و تصویری را، به عنوان مثال از یک میکروفون و دوربین، دریافت میکند که بهطور مداوم در یک "جعبه ابزار" هوش مصنوعی تغذیه میشوند. این جعبه ابزار میتواند شامل یک مدل زبانی بزرگ (LLM) باشد که مکالمات صوتی را برای شناسایی کلمات کلیدی و عبارات پردازش میکند و الگوریتمهای مختلفی که اشیاء، انسانها، اقدامات فیزیکی و اهداف وظیفه را تشخیص داده و طبقهبندی میکنند. جعبه ابزار هوش مصنوعی به گونهای طراحی شده است که بهطور مداوم در پسزمینه اجرا شود، مشابه فیلتر کردن ناخودآگاه که RAS مغز انجام میدهد.
مرحله دوم یک مرحله "بررسی ماشه" است که یک بررسی دورهای است که سیستم برای ارزیابی اینکه آیا اتفاق مهمی در حال وقوع است یا خیر، مانند اینکه آیا یک انسان حضور دارد یا خیر، انجام میدهد. اگر یک انسان وارد محیط شده باشد، مرحله سوم سیستم فعال میشود. این مرحله قلب سیستم این تیم است که برای تعیین ویژگیهای موجود در محیط که به احتمال زیاد برای کمک به انسان مرتبط هستند، عمل میکند.
برای ایجاد ارتباط، محققان الگوریتمی را توسعه دادند که پیشبینیهای بلادرنگ ساختهشده توسط جعبه ابزار هوش مصنوعی را دریافت میکند. به عنوان مثال، LLM جعبه ابزار ممکن است کلمه کلیدی "قهوه" را دریافت کند و یک الگوریتم طبقهبندی عمل ممکن است فردی را که دستش را به سمت یک فنجان دراز میکند، به عنوان هدف "درست کردن قهوه" برچسبگذاری کند. روش "ارتباط" تیم این اطلاعات را در نظر میگیرد تا ابتدا "طبقه" اشیایی را که بیشترین احتمال مرتبط بودن با هدف "درست کردن قهوه" را دارند، تعیین کند. این ممکن است بهطور خودکار طبقاتی مانند "میوهها" و "تنقلات" را به نفع "فنجانها" و "خامهگیرها" فیلتر کند. سپس الگوریتم در طبقات مرتبط بیشتر فیلتر میکند تا مرتبطترین "عناصر" را تعیین کند. به عنوان مثال، بر اساس نشانههای بصری محیط، سیستم ممکن است یک فنجان نزدیکتر به یک فرد را مرتبطتر - و مفیدتر - از یک فنجانی که دورتر است، برچسبگذاری کند.
در مرحله چهارم و نهایی، ربات سپس اشیاء مرتبط شناساییشده را برمیدارد و مسیری را برای دسترسی فیزیکی و ارائه اشیاء به انسان برنامهریزی میکند.
حالت کمککننده
محققان سیستم جدید را در آزمایشهایی آزمایش کردند که بوفه صبحانه کنفرانس را شبیهسازی میکنند. آنها این سناریو را بر اساس مجموعه دادههای اقدامات صبحانه که بهطور عمومی در دسترس است، انتخاب کردند که شامل فیلمها و تصاویری از فعالیتهای معمولی است که مردم در طول زمان صبحانه انجام میدهند، مانند تهیه قهوه، پخت پنکیک، درست کردن غلات و سرخ کردن تخممرغ. اقدامات در هر ویدیو و تصویر، به همراه هدف کلی (سرخ کردن تخممرغ در مقابل درست کردن قهوه) برچسبگذاری شدهاند.
با استفاده از این مجموعه دادهها، تیم الگوریتمهای مختلف را در جعبه ابزار هوش مصنوعی خود آزمایش کردند، بهطوری که هنگام دریافت اقدامات یک شخص در یک صحنه جدید، الگوریتمها میتوانند به طور دقیق وظایف و اهداف انسان و اشیاء مرتبط مرتبط را برچسبگذاری و طبقهبندی کنند.
در آزمایشهای خود، آنها یک بازو و گیره رباتیک را راهاندازی کردند و به سیستم دستور دادند تا به انسانها هنگام نزدیک شدن به میز پر از نوشیدنیها، تنقلات و ظروف مختلف کمک کند. آنها دریافتند که وقتی هیچ انسانی حضور ندارد، جعبه ابزار هوش مصنوعی ربات بهطور مداوم در پسزمینه کار میکند و اشیاء روی میز را برچسبگذاری و طبقهبندی میکند.
هنگامی که در طول بررسی ماشه، ربات انسانی را تشخیص داد، به سرعت توجه کرد، فاز "ارتباط" خود را روشن کرد و به سرعت اشیایی را در صحنه که به احتمال زیاد مرتبط هستند، بر اساس هدف انسان، که توسط جعبه ابزار هوش مصنوعی تعیین میشود، شناسایی کرد.
همکار نویسنده، ژانگ میگوید: «"ارتباط" میتواند ربات را برای تولید کمکهای یکپارچه، هوشمندانه، ایمن و کارآمد در یک محیط بسیار پویا هدایت کند.»
در آینده، این تیم امیدوار است این سیستم را در سناریوهایی که شبیه محیطهای کار و انبار هستند و همچنین در سایر وظایف و اهدافی که معمولاً در محیطهای خانگی انجام میشوند، به کار گیرد.
ژانگ میگوید: «من میخواهم این سیستم را در خانه خود آزمایش کنم تا ببینم، برای مثال، اگر من در حال خواندن روزنامه هستم، شاید بتواند برای من قهوه بیاورد. اگر در حال شستن لباس هستم، میتواند برای من یک غلاف لباسشویی بیاورد. اگر در حال تعمیر هستم، میتواند برای من یک پیچگوشتی بیاورد. چشمانداز ما این است که تعاملات انسان و ربات را ممکن کنیم که میتوانند بسیار طبیعیتر و روانتر باشند.»
این تحقیق با حمایت و مشارکت شهرک علمی و فناوری ملک عبدالعزیز (KACST) از طریق مرکز سیستمهای مهندسی پیچیده در MIT و KACST امکانپذیر شد.