تیم تحقیقات هوش مصنوعی بنیادین (FAIR) در متا، از پنج پروژه برای پیشبرد تلاشهای این شرکت در زمینه هوش ماشین پیشرفته (AMI) خبر داده است.
آخرین نسخههای متا بهشدت بر بهبود ادراک هوش مصنوعی - توانایی ماشینها در پردازش و تفسیر اطلاعات حسی - همراه با پیشرفتهایی در مدلسازی زبان، رباتیک و عوامل هوش مصنوعی مشارکتی متمرکز است.
متا اظهار داشت که هدف آن ایجاد ماشینهایی است "که قادر به کسب، پردازش و تفسیر اطلاعات حسی در مورد دنیای اطراف ما هستند و قادر به استفاده از این اطلاعات برای تصمیمگیری با هوش و سرعت شبیه به انسان هستند."
این پنج نسخه جدید نشاندهنده تلاشهای متنوع اما مرتبط برای دستیابی به این هدف بلندپروازانه است.
رمزگذار ادراک: متا "دید" هوش مصنوعی را تقویت میکند
محوریترین بخش نسخههای جدید، رمزگذار ادراک (Perception Encoder) است که بهعنوان یک رمزگذار دید در مقیاس بزرگ توصیف شده و برای برتری در وظایف مختلف تصویر و ویدیو طراحی شده است.
رمزگذارهای دید بهعنوان "چشم" برای سیستمهای هوش مصنوعی عمل میکنند و به آنها امکان میدهند دادههای بصری را درک کنند.
متا بر چالش فزاینده ساخت رمزگذارها تأکید میکند که نیازهای هوش مصنوعی پیشرفته را برآورده کند و نیازمند قابلیتهایی است که دید و زبان را به هم پیوند دهد، بهطور مؤثر تصاویر و ویدیوها را مدیریت کند و در شرایط چالشبرانگیز، از جمله حملات خصمانه احتمالی، مقاوم باقی بماند.
به گفته متا، رمزگذار ایدهآل باید طیف گستردهای از مفاهیم را تشخیص دهد در حالی که جزئیات ظریف را متمایز میکند - مثالهایی مانند تشخیص "یک سفرهماهی که در زیر بستر دریا پنهان شده است، شناسایی یک سهره طلایی کوچک در پسزمینه یک تصویر، یا گرفتن یک آگونی در حال جستوخیز در یک دوربین دید در شب حیات وحش."
متا ادعا میکند که رمزگذار ادراک (Perception Encoder) "عملکرد فوقالعادهای در طبقهبندی و بازیابی تصاویر و ویدیوها بدون آموزش قبلی (zero-shot) دارد و از تمام مدلهای منبع باز و اختصاصی موجود برای چنین وظایفی پیشی میگیرد."
علاوه بر این، گزارش شده است که نقاط قوت ادراکی آن به خوبی به وظایف زبانی نیز منتقل میشود.
گفته میشود زمانی که رمزگذار با یک مدل زبانی بزرگ (LLM) همسو شود، در زمینههایی مانند پاسخگویی بصری به سؤالات (VQA)، شرح تصاویر، درک اسناد و اتصال متن به مناطق خاص تصویر، از دیگر رمزگذارهای دید بهتر عمل میکند. همچنین گزارش شده است که عملکرد را در وظایفی که بهطور سنتی برای LLMها دشوار است، مانند درک روابط فضایی (به عنوان مثال، "اگر یک شیء در پشت دیگری باشد") یا حرکت دوربین نسبت به یک شیء، بهبود میبخشد.
متا گفت: "همانطور که رمزگذار ادراک شروع به ادغام در برنامههای جدید میکند، ما مشتاقیم ببینیم که چگونه قابلیتهای دید پیشرفته آن، سیستمهای هوش مصنوعی تواناتر را فعال میکند."
مدل زبانی ادراک (PLM): تحقیقات باز در زمینه دید-زبان
تکمیلکننده رمزگذار، مدل زبانی ادراک (PLM) است، یک مدل دید-زبانی باز و قابل بازتولید که هدف آن انجام وظایف پیچیده تشخیص بصری است.
PLM با استفاده از دادههای مصنوعی در مقیاس بزرگ همراه با مجموعهدادههای دید-زبانی باز، به صراحت و بدون استخراج دانش از مدلهای اختصاصی خارجی آموزش داده شده است.
تیم FAIR با تشخیص شکافهایی در دادههای درک ویدیو موجود، 2.5 میلیون نمونه جدید با برچسب انسانی جمعآوری کرد که بر پاسخگویی به سؤالات و شرح تصاویر فضایی-زمانی با جزئیات دقیق متمرکز بود. متا ادعا میکند که این "بزرگترین مجموعه داده از نوع خود تا به امروز" را تشکیل میدهد.
PLM در نسخههای 1، 3 و 8 میلیارد پارامتری ارائه میشود که نیازهای تحقیقات آکادمیک را که نیاز به شفافیت دارند، برآورده میکند.
متا در کنار مدلها، PLM-VideoBench را نیز منتشر میکند، یک معیار جدید که بهطور خاص برای آزمایش قابلیتهایی طراحی شده است که اغلب توسط معیارهای موجود از دست میروند، یعنی "درک فعالیتهای دقیق و استدلال فضایی-زمانی."
متا امیدوار است که ترکیب مدلهای باز، مجموعه داده بزرگ و معیار چالشبرانگیز، جامعه منبع باز را توانمند کند.
متا Locate 3D: دادن آگاهی موقعیتی به رباتها
پل ارتباطی بین دستورات زبانی و عمل فیزیکی، متا Locate 3D است. هدف این مدل سرتاسری این است که به رباتها اجازه دهد تا اشیاء را در یک محیط سه بعدی بر اساس پرسشهای زبان طبیعی با واژگان باز، به دقت محلیسازی کنند.
متا Locate 3D ابرهای نقطه سه بعدی را مستقیماً از حسگرهای RGB-D (مانند حسگرهای موجود در برخی رباتها یا دوربینهای سنجش عمق) پردازش میکند. با توجه به یک درخواست متنی، مانند "گلدان گل نزدیک کنسول تلویزیون"، سیستم روابط فضایی و زمینه را در نظر میگیرد تا نمونه شیء صحیح را مشخص کند و آن را از، مثلاً، "گلدان روی میز" متمایز کند.
این سیستم از سه بخش اصلی تشکیل شده است: یک مرحله پیش پردازش که ویژگیهای دو بعدی را به ابرهای نقطه سه بعدی تبدیل میکند. رمزگذار 3D-JEPA (یک مدل از پیش آموزشدیده که یک نمایش سه بعدی زمینهای از جهان ایجاد میکند)؛ و رمزگشای Locate 3D که نمایش سه بعدی و پرسش زبانی را برای خروجی جعبههای محدودکننده و ماسک برای اشیاء مشخص شده، میگیرد.
متا در کنار مدل، یک مجموعه داده جدید و قابل توجه برای محلیسازی اشیاء بر اساس عبارات ارجاعی منتشر میکند. این مجموعه داده شامل 130,000 حاشیهنویسی زبانی در 1,346 صحنه از مجموعهدادههای ARKitScenes، ScanNet و ScanNet++ است که به طور موثر دادههای حاشیهنویسی شده موجود در این زمینه را دو برابر میکند.
متا این فناوری را برای توسعه سیستمهای روباتیک تواناتر، از جمله پروژه ربات PARTNR خود، بسیار مهم میداند و تعامل و همکاری طبیعیتر بین انسان و ربات را ممکن میسازد.
تبدیلکننده نهان بایت پویا: مدلسازی زبانی کارآمد و قوی
پس از تحقیقات منتشر شده در اواخر سال 2024، متا اکنون وزنهای مدل خود را برای تبدیلکننده نهان بایت پویا 8 میلیارد پارامتری منتشر میکند.
این معماری نشاندهنده تغییری از مدلهای زبانی سنتی مبتنی بر توکنبندی است و در عوض در سطح بایت عمل میکند. متا ادعا میکند که این رویکرد عملکرد قابل مقایسهای در مقیاس بزرگ به دست میآورد و در عین حال بهبودهای قابل توجهی در کارایی و استحکام استنتاج ارائه میدهد.
LLMهای سنتی متن را به "توکن"ها تقسیم میکنند، که میتواند با غلط املایی، کلمات جدید یا ورودیهای خصمانه مشکل داشته باشد. مدلهای سطح بایت، بایتهای خام را پردازش میکنند و به طور بالقوه انعطافپذیری بیشتری ارائه میدهند.
متا گزارش میدهد که تبدیلکننده نهان بایت پویا "از مدلهای مبتنی بر توکنبندی در وظایف مختلف بهتر عمل میکند، با یک مزیت استحکام متوسط +7 امتیاز (در HellaSwag آشفته) و رسیدن به +55 امتیاز در وظایف از معیار درک توکن CUTE."
متا با انتشار وزنها در کنار پایگاه کد به اشتراک گذاشته شده قبلی، جامعه تحقیقاتی را تشویق میکند تا این رویکرد جایگزین برای مدلسازی زبان را بررسی کنند.
استدلالگر مشارکتی: متا عوامل هوش مصنوعی با هوش اجتماعی را پیش میبرد
آخرین نسخه، استدلالگر مشارکتی (Collaborative Reasoner)، به چالش پیچیده ایجاد عوامل هوش مصنوعی که بتوانند به طور موثر با انسانها یا سایر هوش مصنوعیها همکاری کنند، میپردازد.
متا خاطرنشان میکند که همکاری انسان اغلب نتایج برتری به همراه دارد و هدف آن القای قابلیتهای مشابه در هوش مصنوعی برای کارهایی مانند کمک به تکالیف یا آمادگی برای مصاحبه شغلی است.
چنین همکاری نه تنها به حل مسئله نیاز دارد، بلکه به مهارتهای اجتماعی مانند ارتباط، همدلی، ارائه بازخورد و درک حالات ذهنی دیگران (نظریه ذهن) نیز نیاز دارد که اغلب در طول چندین نوبت مکالمه آشکار میشود.
روشهای فعلی آموزش و ارزیابی LLM اغلب این جنبههای اجتماعی و مشارکتی را نادیده میگیرند. علاوه بر این، جمعآوری دادههای مکالمه مرتبط پرهزینه و دشوار است.
استدلالگر مشارکتی یک چارچوب برای ارزیابی و افزایش این مهارتها فراهم میکند. این چارچوب شامل وظایف هدفمحوری است که نیاز به استدلال چند مرحلهای دارد که از طریق گفتگو بین دو عامل به دست میآید. این چارچوب تواناییهایی مانند مخالفت سازنده، متقاعد کردن یک شریک و دستیابی به بهترین راه حل مشترک را آزمایش میکند.
ارزیابیهای متا نشان داد که مدلهای فعلی برای استفاده مداوم از همکاری برای نتایج بهتر تلاش میکنند. برای رفع این مشکل، آنها یک تکنیک خودبهبودی با استفاده از دادههای تعامل مصنوعی پیشنهاد میکنند که در آن یک عامل LLM با خودش همکاری میکند.
تولید این دادهها در مقیاس بزرگ توسط یک موتور مدلسازی با کارایی بالا به نام Matrix امکانپذیر میشود. استفاده از این رویکرد در وظایف استدلال ریاضی، علمی و اجتماعی، گزارش شده است که در مقایسه با عملکرد "زنجیره تفکر" استاندارد یک LLM منفرد، تا 29.4٪ بهبود داشته است.
متا با منبع باز کردن تولید دادهها و خط لوله مدلسازی، هدف آن ترویج تحقیقات بیشتر در مورد ایجاد "عوامل اجتماعی که میتوانند با انسانها و سایر عوامل همکاری کنند" است.
این پنج نسخه در مجموع بر سرمایهگذاری سنگین مداوم متا در تحقیقات بنیادی هوش مصنوعی، بهویژه تمرکز بر بلوکهای سازنده ماشینهایی که میتوانند جهان را به روشهای انسانمانند درک، بفهمند و با آن تعامل داشته باشند، تأکید میکنند.
همچنین ببینید: متا مدلهای هوش مصنوعی را با استفاده از دادههای کاربران اتحادیه اروپا آموزش میدهد