اخیراً بحثهای زیادی در مورد هوش مصنوعی چندوجهی وجود داشته است - چگونگی ساخت این سیستمها، گزینههای متن باز، جایگزینهای کوچک مقیاس، و همچنین ابزارهایی برای رسیدگی به انصاف و تعصب در هوش مصنوعی چندوجهی.
با توانایی پردازش همزمان انواع مختلف داده (مانند متن، تصویر، صدا، ویدیو و غیره)، توسعه مستمر هوش مصنوعی چندوجهی نشاندهنده گام بعدی است که به بهبود بیشتر طیف گستردهای از ابزارها کمک میکند - از جمله ابزارهایی برای هوش مصنوعی تولیدی و هوش مصنوعی عامل.
به این ترتیب، بهبود نحوه یافتن اطلاعات مرتبط توسط ماشینها در این طیف رو به رشد از انواع مختلف داده، برای بهبود بیشتر قابلیتهای هوش مصنوعی چندوجهی حیاتی است.
این میتواند به معنای استفاده از یک پیام متنی برای جستجوی یک عکس یا ویدیوی خاص باشد (متن-تصویر، متن-ویدیو)، یا برعکس - فرآیندی که بسیاری از ما قبلاً با آن آشنا هستیم.
نحوه کار بازیابی بینوجهی
هدف از بازیابی بینوجهی، استخراج اطلاعات مربوطه در انواع مختلف داده است. با این حال، این میتواند به دلیل تفاوت در ساختارهای داده، فضاهای ویژگی و نحوه ارائه معنایی آن اطلاعات در وجههای مختلف، چالشبرانگیز باشد.
این منجر به ناهماهنگی بین آن فضاهای معنایی مختلف و مشکلاتی برای مقایسه مستقیم میشود - مشکلی که محققان آن را شکاف وجهی ناهمگن مینامند. در نتیجه، بیشتر تحقیقات در زمینه بازیابی بینوجهی بر یافتن و ایجاد چارچوبهای مشترک برای دادههای چندوجهی متمرکز است، تا بازیابی بینوجهی را تسهیل کند.
یادگیری بازنمایی در بازیابی بینوجهی
برای مقابله با این مشکل، بیشتر روشهای بازیابی بینوجهی معمولاً از آنچه یادگیری بازنمایی نامیده میشود، استفاده میکنند. این فرآیند انواع مختلف دادههای خام و وجهی را به الگوها - یا بازنماییها - ساده میکند که یک ماشین میتواند آن را درک کند تا بتوان آنها را در یک فضا یا چارچوب مشترک نقشهبرداری کرد، بنابراین استخراج اطلاعات مفید را تسهیل میکند. یادگیری بازنمایی به بهبود قابلیت تفسیر، کشف ویژگیهای پنهان و همچنین یادگیری انتقالی را آسانتر میکند.
به طور کلی، این رویکردهای یادگیری بازنمایی در بازیابی بینوجهی را میتوان به دو نوع تقسیم کرد: بازیابی با مقدار واقعی و بازیابی با مقدار دودویی، و همچنین اشکال نظارت شده و نظارت نشده از هر نوع بازیابی.
بازیابی با مقدار واقعی
هدف از بازیابی بینوجهی مبتنی بر مقدار واقعی، تقطیر ویژگیهای کمبعدی و با مقدار واقعی دادههای چندوجهی است، بنابراین اطلاعات معنایی عمیقتری را حفظ میکند.
یک فضای بازنمایی مشترک میتواند بین انواع مختلف داده به اشتراک گذاشته شود، به طوری که مرتبطترین دادهها در مجاورت یکدیگر در آن فضا قرار گیرند.
برای سالهای متمادی، یکی از رایجترین الگوریتمها برای بازیابی بینوجهی، تجزیه و تحلیل همبستگی متعارف (CCA) بود، یک روش آماری کلاسیک که ویژگیها را از دادههای خام استخراج میکند و سپس همبستگی بین بازنماییهای جفتی دادههای بینوجهی - مانند تصاویر و متن - را قبل از تراز کردن آنها در یک زیرفضای مشترک به منظور تسهیل بازیابی بینوجهی، به حداکثر میرساند. با این حال، معایب CCA شامل شکافهای معنایی قابل توجه بین وجههای مختلف است، زیرا برای گرفتن روابط آماری به جای روابط معنایی غیرخطی پیچیدهتر، بهترین استفاده را دارد.
در حالی که روشهای یادگیری بازنمایی با مقدار واقعی به وجههای مختلف داده اجازه میدهند تا مستقیماً اندازهگیری شوند، جنبه منفی این است که این رویکرد به منابع ذخیرهسازی و محاسباتی بیشتری نیاز دارد.
اگرچه طبقهبندی روشهای بازیابی با مقدار واقعی متفاوت است، اما در این دستههای کلی قرار میگیرند، که میتواند نظارت شده یا نظارت نشده باشد:
- بازیابی کمعمق با مقدار واقعی: از تکنیکهای تجزیه و تحلیل آماری برای مدلسازی انجمنهای داده چندوجهی استفاده میکند.
- بازیابی عمیق با مقدار واقعی: شامل یادگیری ویژگیها، بازنماییهای مشترک، روابط معنایی پیچیده و الگوها در انواع مختلف داده، با استفاده از شبکههای عصبی عمیق است.
- مدلهای RNN (شبکه عصبی بازگشتی): عمدتاً برای پردازش دادههای سری زمانی و متوالی (مانند متن، ویدیو) و ترکیب آن با ویژگیهای تصویر استخراج شده از طریق مدلهای CNN (شبکه عصبی کانولوشن) استفاده میشود.
- GAN (شبکه متخاصم مولد): این معماری یادگیری عمیق از اجزای «مولد» و «تمایزگر» رقابتی برای یادگیری توزیع دادهها استفاده میکند. هنگامی که در بازیابی بینوجهی استفاده میشود، مدل را قادر میسازد تا همبستگیها را در انواع مختلف داده یاد بگیرد.
- منظمسازی گراف: با توجه به توانایی آن در جای دادن چندین وجه در یک چارچوب یکپارچه، میتواند طیف گستردهای از همبستگیها بین اشکال مختلف داده را ثبت کند.
- روشهای ترانسفورماتور: معماری ترانسفورماتور بر اساس یک مکانیسم خودتوجهی نوآورانه، به شبکههای یادگیری عمیق اجازه میدهد تا به طور همزمان تمام ورودیهای دریافتی را پردازش کنند، و آن را به یک گزینه موثر برای وظایف بازیابی بینوجهی تبدیل میکند.
بازیابی با مقدار دودویی (هشینگ)
این شکل از یادگیری بازنمایی که به آن بازیابی بینوجهی مبتنی بر هشینگ نیز گفته میشود، دادهها را از وجههای مختلف با فشردهسازی آنها در کد دودویی رمزگذاری میکند، که سپس برای یادگیری به یک فضای دودویی همینگ مشترک منتقل میشود، بنابراین جستجوی کارآمدتر و مقیاسپذیرتر و کاهش نیازهای ذخیرهسازی را امکانپذیر میکند، اگرچه دقت و اطلاعات معنایی ممکن است کمی کاهش یابد. یکی دیگر از مزایای بازیابی هشینگ این است که کدهای هش دودویی کوتاهتر و سادهتر از دادههای اصلی هستند، که به کاهش چیزی که دانشمندان کامپیوتر آن را نفرین ابعاد مینامند، کمک میکند.
در هشینگ نظارت شده و نظارت نشده، توابع هش از طریق یک فرآیند بهینهسازی آموخته میشوند که ناهماهنگیها بین دادههای اصلی و کدهای دودویی را به حداقل میرساند.
تکنیکهای هشینگ بینوجهی را میتوان به سه دسته اصلی تقسیم کرد:
- نظارت شده: از دادههای برچسبگذاری شده برای آموزش توابع هش استفاده میکند، که به حفظ شباهتهای معنایی بین نمونههای جفتی دادههای چندوجهی کمک میکند و در عین حال فاصله همینگ بین نمونههای غیرمنطبق را به حداکثر میرساند. هشینگ بینوجهی نظارت شده را میتوان به صورت کمعمق یا مبتنی بر یادگیری عمیق طبقهبندی کرد.
- نظارت نشده: از دادههای برچسبگذاری شده استفاده نمیکند و در عوض صرفاً از توزیع دادهها به یادگیری، توابع متکی است. این تکنیکها از همبستگی بین وجههای داده برای یادگیری روابط بین آنها که به صورت دودویی رمزگذاری شدهاند، استفاده میکنند. به طور مشابه، روشهای نظارت نشده را نیز میتوان به روشهای بازیابی کمعمق و عمیق تقسیم کرد.
- نیمه نظارت شده: این روشها از مجموعههای داده غنی و بدون برچسب برای بهبود عملکرد یادگیری نظارت شده مدلها استفاده میکنند.
چرا بازیابی بینوجهی مهم است
از آنجایی که اطلاعات به طور فزایندهای چندوجهی و ناهمگن میشوند، رسیدگی به چالشها در زمینه بازیابی بینوجهی حیاتی خواهد بود. این به بستن شکاف بین اشکال مختلف داده کمک میکند، دقت و ارتباط نتایج جستجو را برای کاربران انسانی افزایش میدهد و در عین حال به ماشینها اجازه میدهد تا جهان را به طریقی شبیه به انسان درک کنند.
هنگامی که در دنیای واقعی اعمال میشود، بازیابی بینوجهی را میتوان برای طیف گستردهای از موارد استفاده، مانند تولید خودکار توضیحات دقیق از انواع مختلف محتوا، اهرم کرد. این قابلیتهای دستیارهای صوتی را برای درک پرس و جوهای پیچیده افزایش میدهد، یا به ایجاد تعاملات طبیعیتر و شهودیتر بین انسان و رایانه کمک میکند.
همانطور که بازیابی بینوجهی به تکامل خود ادامه میدهد، مسائلی مانند شکاف وجهی ناهمگن، بهبود تراز معنایی سلسله مراتبی و یادگیری همبستگی غیرخطی بین وجههای مختلف نیاز به توسعه بیشتری خواهد داشت، و همچنین بهبود رابطهای کاربری، حریم خصوصی و امنیت.
ابزارهای بازیابی بینوجهی
برای بررسی عمیقتر تحقیقات موجود در مورد بازیابی بینوجهی و آرایشی سرگیجهآور از ابزارها و مجموعههای داده، میتوانید این فهرست دستهبندی شده را در GitHub، و همچنین این جعبه ابزار، که شامل برخی از مخازن متن باز است، بررسی کنید.
Kimberley Mok یک گزارشگر فناوری و طراحی است که هوش مصنوعی، رباتیک، محاسبات کوانتومی، فرهنگ فناوری و داستانهای علمی را برای The New Stack پوشش میدهد. او که به عنوان معمار آموزش دیده است، همچنین یک تصویرگر و طراح چندرشتهای است که به...
مطالب بیشتری از Kimberley Mok بخوانید