عکس از Merlin Lightpainting از طریق Pexels.
عکس از Merlin Lightpainting از طریق Pexels.

بازیابی بین‌وجهی: چرا برای هوش مصنوعی چندوجهی مهم است

آنچه مهندسان هوش مصنوعی باید در مورد بازیابی بین‌وجهی بدانند - روش‌های جستجویی که انواع مختلف داده یا وجه‌ها را در بر می‌گیرد.

بازیابی بین‌وجهی
فرآیند کلی بازیابی بین‌وجهی. از طریق Z. Han et al.

اخیراً بحث‌های زیادی در مورد هوش مصنوعی چندوجهی وجود داشته است - چگونگی ساخت این سیستم‌ها، گزینه‌های متن باز، جایگزین‌های کوچک مقیاس، و همچنین ابزارهایی برای رسیدگی به انصاف و تعصب در هوش مصنوعی چندوجهی.

با توانایی پردازش همزمان انواع مختلف داده (مانند متن، تصویر، صدا، ویدیو و غیره)، توسعه مستمر هوش مصنوعی چندوجهی نشان‌دهنده گام بعدی است که به بهبود بیشتر طیف گسترده‌ای از ابزارها کمک می‌کند - از جمله ابزارهایی برای هوش مصنوعی تولیدی و هوش مصنوعی عامل.

به این ترتیب، بهبود نحوه یافتن اطلاعات مرتبط توسط ماشین‌ها در این طیف رو به رشد از انواع مختلف داده، برای بهبود بیشتر قابلیت‌های هوش مصنوعی چندوجهی حیاتی است.

این می‌تواند به معنای استفاده از یک پیام متنی برای جستجوی یک عکس یا ویدیوی خاص باشد (متن-تصویر، متن-ویدیو)، یا برعکس - فرآیندی که بسیاری از ما قبلاً با آن آشنا هستیم.

هشینگ بین‌وجهی
چارچوب کلی بازیابی هشینگ بین‌وجهی. از طریق Z. Han et al.

نحوه کار بازیابی بین‌وجهی

هدف از بازیابی بین‌وجهی، استخراج اطلاعات مربوطه در انواع مختلف داده است. با این حال، این می‌تواند به دلیل تفاوت در ساختارهای داده، فضاهای ویژگی و نحوه ارائه معنایی آن اطلاعات در وجه‌های مختلف، چالش‌برانگیز باشد.

این منجر به ناهماهنگی بین آن فضاهای معنایی مختلف و مشکلاتی برای مقایسه مستقیم می‌شود - مشکلی که محققان آن را شکاف وجهی ناهمگن می‌نامند. در نتیجه، بیشتر تحقیقات در زمینه بازیابی بین‌وجهی بر یافتن و ایجاد چارچوب‌های مشترک برای داده‌های چندوجهی متمرکز است، تا بازیابی بین‌وجهی را تسهیل کند.

یادگیری بازنمایی در بازیابی بین‌وجهی

برای مقابله با این مشکل، بیشتر روش‌های بازیابی بین‌وجهی معمولاً از آنچه یادگیری بازنمایی نامیده می‌شود، استفاده می‌کنند. این فرآیند انواع مختلف داده‌های خام و وجهی را به الگوها - یا بازنمایی‌ها - ساده می‌کند که یک ماشین می‌تواند آن را درک کند تا بتوان آن‌ها را در یک فضا یا چارچوب مشترک نقشه‌برداری کرد، بنابراین استخراج اطلاعات مفید را تسهیل می‌کند. یادگیری بازنمایی به بهبود قابلیت تفسیر، کشف ویژگی‌های پنهان و همچنین یادگیری انتقالی را آسان‌تر می‌کند.

به طور کلی، این رویکردهای یادگیری بازنمایی در بازیابی بین‌وجهی را می‌توان به دو نوع تقسیم کرد: بازیابی با مقدار واقعی و بازیابی با مقدار دودویی، و همچنین اشکال نظارت شده و نظارت نشده از هر نوع بازیابی.

بازیابی با مقدار واقعی

هدف از بازیابی بین‌وجهی مبتنی بر مقدار واقعی، تقطیر ویژگی‌های کم‌بعدی و با مقدار واقعی داده‌های چندوجهی است، بنابراین اطلاعات معنایی عمیق‌تری را حفظ می‌کند.

یک فضای بازنمایی مشترک می‌تواند بین انواع مختلف داده به اشتراک گذاشته شود، به طوری که مرتبط‌ترین داده‌ها در مجاورت یکدیگر در آن فضا قرار گیرند.

برای سال‌های متمادی، یکی از رایج‌ترین الگوریتم‌ها برای بازیابی بین‌وجهی، تجزیه و تحلیل همبستگی متعارف (CCA) بود، یک روش آماری کلاسیک که ویژگی‌ها را از داده‌های خام استخراج می‌کند و سپس همبستگی بین بازنمایی‌های جفتی داده‌های بین‌وجهی - مانند تصاویر و متن - را قبل از تراز کردن آن‌ها در یک زیرفضای مشترک به منظور تسهیل بازیابی بین‌وجهی، به حداکثر می‌رساند. با این حال، معایب CCA شامل شکاف‌های معنایی قابل توجه بین وجه‌های مختلف است، زیرا برای گرفتن روابط آماری به جای روابط معنایی غیرخطی پیچیده‌تر، بهترین استفاده را دارد.

در حالی که روش‌های یادگیری بازنمایی با مقدار واقعی به وجه‌های مختلف داده اجازه می‌دهند تا مستقیماً اندازه‌گیری شوند، جنبه منفی این است که این رویکرد به منابع ذخیره‌سازی و محاسباتی بیشتری نیاز دارد.

اگرچه طبقه‌بندی روش‌های بازیابی با مقدار واقعی متفاوت است، اما در این دسته‌های کلی قرار می‌گیرند، که می‌تواند نظارت شده یا نظارت نشده باشد:

  • بازیابی کم‌عمق با مقدار واقعی: از تکنیک‌های تجزیه و تحلیل آماری برای مدل‌سازی انجمن‌های داده چندوجهی استفاده می‌کند.
  • بازیابی عمیق با مقدار واقعی: شامل یادگیری ویژگی‌ها، بازنمایی‌های مشترک، روابط معنایی پیچیده و الگوها در انواع مختلف داده، با استفاده از شبکه‌های عصبی عمیق است.
  • مدل‌های RNN (شبکه عصبی بازگشتی): عمدتاً برای پردازش داده‌های سری زمانی و متوالی (مانند متن، ویدیو) و ترکیب آن با ویژگی‌های تصویر استخراج شده از طریق مدل‌های CNN (شبکه عصبی کانولوشن) استفاده می‌شود.
  • GAN (شبکه متخاصم مولد): این معماری یادگیری عمیق از اجزای «مولد» و «تمایزگر» رقابتی برای یادگیری توزیع داده‌ها استفاده می‌کند. هنگامی که در بازیابی بین‌وجهی استفاده می‌شود، مدل را قادر می‌سازد تا همبستگی‌ها را در انواع مختلف داده یاد بگیرد.
  • منظم‌سازی گراف: با توجه به توانایی آن در جای دادن چندین وجه در یک چارچوب یکپارچه، می‌تواند طیف گسترده‌ای از همبستگی‌ها بین اشکال مختلف داده را ثبت کند.
  • روش‌های ترانسفورماتور: معماری ترانسفورماتور بر اساس یک مکانیسم خودتوجهی نوآورانه، به شبکه‌های یادگیری عمیق اجازه می‌دهد تا به طور همزمان تمام ورودی‌های دریافتی را پردازش کنند، و آن را به یک گزینه موثر برای وظایف بازیابی بین‌وجهی تبدیل می‌کند.

بازیابی با مقدار دودویی (هشینگ)

این شکل از یادگیری بازنمایی که به آن بازیابی بین‌وجهی مبتنی بر هشینگ نیز گفته می‌شود، داده‌ها را از وجه‌های مختلف با فشرده‌سازی آن‌ها در کد دودویی رمزگذاری می‌کند، که سپس برای یادگیری به یک فضای دودویی همینگ مشترک منتقل می‌شود، بنابراین جستجوی کارآمدتر و مقیاس‌پذیرتر و کاهش نیازهای ذخیره‌سازی را امکان‌پذیر می‌کند، اگرچه دقت و اطلاعات معنایی ممکن است کمی کاهش یابد. یکی دیگر از مزایای بازیابی هشینگ این است که کدهای هش دودویی کوتاه‌تر و ساده‌تر از داده‌های اصلی هستند، که به کاهش چیزی که دانشمندان کامپیوتر آن را نفرین ابعاد می‌نامند، کمک می‌کند.

در هشینگ نظارت شده و نظارت نشده، توابع هش از طریق یک فرآیند بهینه‌سازی آموخته می‌شوند که ناهماهنگی‌ها بین داده‌های اصلی و کدهای دودویی را به حداقل می‌رساند.

تکنیک‌های هشینگ بین‌وجهی را می‌توان به سه دسته اصلی تقسیم کرد:

  • نظارت شده: از داده‌های برچسب‌گذاری شده برای آموزش توابع هش استفاده می‌کند، که به حفظ شباهت‌های معنایی بین نمونه‌های جفتی داده‌های چندوجهی کمک می‌کند و در عین حال فاصله همینگ بین نمونه‌های غیرمنطبق را به حداکثر می‌رساند. هشینگ بین‌وجهی نظارت شده را می‌توان به صورت کم‌عمق یا مبتنی بر یادگیری عمیق طبقه‌بندی کرد.
  • نظارت نشده: از داده‌های برچسب‌گذاری شده استفاده نمی‌کند و در عوض صرفاً از توزیع داده‌ها به یادگیری، توابع متکی است. این تکنیک‌ها از همبستگی بین وجه‌های داده برای یادگیری روابط بین آن‌ها که به صورت دودویی رمزگذاری شده‌اند، استفاده می‌کنند. به طور مشابه، روش‌های نظارت نشده را نیز می‌توان به روش‌های بازیابی کم‌عمق و عمیق تقسیم کرد.
  • نیمه نظارت شده: این روش‌ها از مجموعه‌های داده غنی و بدون برچسب برای بهبود عملکرد یادگیری نظارت شده مدل‌ها استفاده می‌کنند.

چرا بازیابی بین‌وجهی مهم است

از آنجایی که اطلاعات به طور فزاینده‌ای چندوجهی و ناهمگن می‌شوند، رسیدگی به چالش‌ها در زمینه بازیابی بین‌وجهی حیاتی خواهد بود. این به بستن شکاف بین اشکال مختلف داده کمک می‌کند، دقت و ارتباط نتایج جستجو را برای کاربران انسانی افزایش می‌دهد و در عین حال به ماشین‌ها اجازه می‌دهد تا جهان را به طریقی شبیه به انسان درک کنند.

هنگامی که در دنیای واقعی اعمال می‌شود، بازیابی بین‌وجهی را می‌توان برای طیف گسترده‌ای از موارد استفاده، مانند تولید خودکار توضیحات دقیق از انواع مختلف محتوا، اهرم کرد. این قابلیت‌های دستیارهای صوتی را برای درک پرس و جوهای پیچیده افزایش می‌دهد، یا به ایجاد تعاملات طبیعی‌تر و شهودی‌تر بین انسان و رایانه کمک می‌کند.

همانطور که بازیابی بین‌وجهی به تکامل خود ادامه می‌دهد، مسائلی مانند شکاف وجهی ناهمگن، بهبود تراز معنایی سلسله مراتبی و یادگیری همبستگی غیرخطی بین وجه‌های مختلف نیاز به توسعه بیشتری خواهد داشت، و همچنین بهبود رابط‌های کاربری، حریم خصوصی و امنیت.

ابزارهای بازیابی بین‌وجهی

برای بررسی عمیق‌تر تحقیقات موجود در مورد بازیابی بین‌وجهی و آرایشی سرگیجه‌آور از ابزارها و مجموعه‌های داده، می‌توانید این فهرست دسته‌بندی شده را در GitHub، و همچنین این جعبه ابزار، که شامل برخی از مخازن متن باز است، بررسی کنید.

Kimberley Mok یک گزارشگر فناوری و طراحی است که هوش مصنوعی، رباتیک، محاسبات کوانتومی، فرهنگ فناوری و داستان‌های علمی را برای The New Stack پوشش می‌دهد. او که به عنوان معمار آموزش دیده است، همچنین یک تصویرگر و طراح چندرشته‌ای است که به...

مطالب بیشتری از Kimberley Mok بخوانید