تیم تحقیقات هوش مصنوعی بنیادین (FAIR) در متا، پنج پروژه را برای پیشبرد تلاش این شرکت در زمینه هوش ماشین پیشرفته (AMI) با تقویت چشمگیر قابلیت‌های ادراکی برای موارد استفاده از جمله رباتیک و عوامل، معرفی می‌کند.
تیم تحقیقات هوش مصنوعی بنیادین (FAIR) در متا، پنج پروژه را برای پیشبرد تلاش این شرکت در زمینه هوش ماشین پیشرفته (AMI) با تقویت چشمگیر قابلیت‌های ادراکی برای موارد استفاده از جمله رباتیک و عوامل، معرفی می‌کند.

پیشرفت‌های متا FAIR در هوش مصنوعی انسان‌نما با پنج نسخه اصلی

تیم تحقیقات هوش مصنوعی بنیادین (FAIR) در متا، از پنج پروژه برای پیشبرد تلاش‌های این شرکت در زمینه هوش ماشین پیشرفته (AMI) خبر داده است.

آخرین نسخه‌های متا به‌شدت بر بهبود ادراک هوش مصنوعی - توانایی ماشین‌ها در پردازش و تفسیر اطلاعات حسی - همراه با پیشرفت‌هایی در مدل‌سازی زبان، رباتیک و عوامل هوش مصنوعی مشارکتی متمرکز است.

متا اظهار داشت که هدف آن ایجاد ماشین‌هایی است "که قادر به کسب، پردازش و تفسیر اطلاعات حسی در مورد دنیای اطراف ما هستند و قادر به استفاده از این اطلاعات برای تصمیم‌گیری با هوش و سرعت شبیه به انسان هستند."

این پنج نسخه جدید نشان‌دهنده تلاش‌های متنوع اما مرتبط برای دستیابی به این هدف بلندپروازانه است.

رمزگذار ادراک: متا "دید" هوش مصنوعی را تقویت می‌کند

محوری‌ترین بخش نسخه‌های جدید، رمزگذار ادراک (Perception Encoder) است که به‌عنوان یک رمزگذار دید در مقیاس بزرگ توصیف شده و برای برتری در وظایف مختلف تصویر و ویدیو طراحی شده است.

رمزگذارهای دید به‌عنوان "چشم" برای سیستم‌های هوش مصنوعی عمل می‌کنند و به آن‌ها امکان می‌دهند داده‌های بصری را درک کنند.

متا بر چالش فزاینده ساخت رمزگذارها تأکید می‌کند که نیازهای هوش مصنوعی پیشرفته را برآورده کند و نیازمند قابلیت‌هایی است که دید و زبان را به هم پیوند دهد، به‌طور مؤثر تصاویر و ویدیوها را مدیریت کند و در شرایط چالش‌برانگیز، از جمله حملات خصمانه احتمالی، مقاوم باقی بماند.

به گفته متا، رمزگذار ایده‌آل باید طیف گسترده‌ای از مفاهیم را تشخیص دهد در حالی که جزئیات ظریف را متمایز می‌کند - مثال‌هایی مانند تشخیص "یک سفره‌ماهی که در زیر بستر دریا پنهان شده است، شناسایی یک سهره طلایی کوچک در پس‌زمینه یک تصویر، یا گرفتن یک آگونی در حال جست‌وخیز در یک دوربین دید در شب حیات وحش."

متا ادعا می‌کند که رمزگذار ادراک (Perception Encoder) "عملکرد فوق‌العاده‌ای در طبقه‌بندی و بازیابی تصاویر و ویدیوها بدون آموزش قبلی (zero-shot) دارد و از تمام مدل‌های منبع باز و اختصاصی موجود برای چنین وظایفی پیشی می‌گیرد."

علاوه بر این، گزارش شده است که نقاط قوت ادراکی آن به خوبی به وظایف زبانی نیز منتقل می‌شود.

گفته می‌شود زمانی که رمزگذار با یک مدل زبانی بزرگ (LLM) همسو شود، در زمینه‌هایی مانند پاسخگویی بصری به سؤالات (VQA)، شرح تصاویر، درک اسناد و اتصال متن به مناطق خاص تصویر، از دیگر رمزگذارهای دید بهتر عمل می‌کند. همچنین گزارش شده است که عملکرد را در وظایفی که به‌طور سنتی برای LLMها دشوار است، مانند درک روابط فضایی (به عنوان مثال، "اگر یک شیء در پشت دیگری باشد") یا حرکت دوربین نسبت به یک شیء، بهبود می‌بخشد.

متا گفت: "همانطور که رمزگذار ادراک شروع به ادغام در برنامه‌های جدید می‌کند، ما مشتاقیم ببینیم که چگونه قابلیت‌های دید پیشرفته آن، سیستم‌های هوش مصنوعی تواناتر را فعال می‌کند."

مدل زبانی ادراک (PLM): تحقیقات باز در زمینه دید-زبان

تکمیل‌کننده رمزگذار، مدل زبانی ادراک (PLM) است، یک مدل دید-زبانی باز و قابل بازتولید که هدف آن انجام وظایف پیچیده تشخیص بصری است.

PLM با استفاده از داده‌های مصنوعی در مقیاس بزرگ همراه با مجموعه‌داده‌های دید-زبانی باز، به صراحت و بدون استخراج دانش از مدل‌های اختصاصی خارجی آموزش داده شده است.

تیم FAIR با تشخیص شکاف‌هایی در داده‌های درک ویدیو موجود، 2.5 میلیون نمونه جدید با برچسب انسانی جمع‌آوری کرد که بر پاسخگویی به سؤالات و شرح تصاویر فضایی-زمانی با جزئیات دقیق متمرکز بود. متا ادعا می‌کند که این "بزرگترین مجموعه داده از نوع خود تا به امروز" را تشکیل می‌دهد.

PLM در نسخه‌های 1، 3 و 8 میلیارد پارامتری ارائه می‌شود که نیازهای تحقیقات آکادمیک را که نیاز به شفافیت دارند، برآورده می‌کند.

متا در کنار مدل‌ها، PLM-VideoBench را نیز منتشر می‌کند، یک معیار جدید که به‌طور خاص برای آزمایش قابلیت‌هایی طراحی شده است که اغلب توسط معیارهای موجود از دست می‌روند، یعنی "درک فعالیت‌های دقیق و استدلال فضایی-زمانی."

متا امیدوار است که ترکیب مدل‌های باز، مجموعه داده بزرگ و معیار چالش‌برانگیز، جامعه منبع باز را توانمند کند.

متا Locate 3D: دادن آگاهی موقعیتی به ربات‌ها

پل ارتباطی بین دستورات زبانی و عمل فیزیکی، متا Locate 3D است. هدف این مدل سرتاسری این است که به ربات‌ها اجازه دهد تا اشیاء را در یک محیط سه بعدی بر اساس پرسش‌های زبان طبیعی با واژگان باز، به دقت محلی‌سازی کنند.

متا Locate 3D ابرهای نقطه سه بعدی را مستقیماً از حسگرهای RGB-D (مانند حسگرهای موجود در برخی ربات‌ها یا دوربین‌های سنجش عمق) پردازش می‌کند. با توجه به یک درخواست متنی، مانند "گلدان گل نزدیک کنسول تلویزیون"، سیستم روابط فضایی و زمینه را در نظر می‌گیرد تا نمونه شیء صحیح را مشخص کند و آن را از، مثلاً، "گلدان روی میز" متمایز کند.

این سیستم از سه بخش اصلی تشکیل شده است: یک مرحله پیش پردازش که ویژگی‌های دو بعدی را به ابرهای نقطه سه بعدی تبدیل می‌کند. رمزگذار 3D-JEPA (یک مدل از پیش آموزش‌دیده که یک نمایش سه بعدی زمینه‌ای از جهان ایجاد می‌کند)؛ و رمزگشای Locate 3D که نمایش سه بعدی و پرسش زبانی را برای خروجی جعبه‌های محدودکننده و ماسک برای اشیاء مشخص شده، می‌گیرد.

متا در کنار مدل، یک مجموعه داده جدید و قابل توجه برای محلی‌سازی اشیاء بر اساس عبارات ارجاعی منتشر می‌کند. این مجموعه داده شامل 130,000 حاشیه‌نویسی زبانی در 1,346 صحنه از مجموعه‌داده‌های ARKitScenes، ScanNet و ScanNet++ است که به طور موثر داده‌های حاشیه‌نویسی شده موجود در این زمینه را دو برابر می‌کند.

متا این فناوری را برای توسعه سیستم‌های روباتیک تواناتر، از جمله پروژه ربات PARTNR خود، بسیار مهم می‌داند و تعامل و همکاری طبیعی‌تر بین انسان و ربات را ممکن می‌سازد.

تبدیل‌کننده نهان بایت پویا: مدل‌سازی زبانی کارآمد و قوی

پس از تحقیقات منتشر شده در اواخر سال 2024، متا اکنون وزن‌های مدل خود را برای تبدیل‌کننده نهان بایت پویا 8 میلیارد پارامتری منتشر می‌کند.

این معماری نشان‌دهنده تغییری از مدل‌های زبانی سنتی مبتنی بر توکن‌بندی است و در عوض در سطح بایت عمل می‌کند. متا ادعا می‌کند که این رویکرد عملکرد قابل مقایسه‌ای در مقیاس بزرگ به دست می‌آورد و در عین حال بهبودهای قابل توجهی در کارایی و استحکام استنتاج ارائه می‌دهد.

LLMهای سنتی متن را به "توکن"ها تقسیم می‌کنند، که می‌تواند با غلط املایی، کلمات جدید یا ورودی‌های خصمانه مشکل داشته باشد. مدل‌های سطح بایت، بایت‌های خام را پردازش می‌کنند و به طور بالقوه انعطاف‌پذیری بیشتری ارائه می‌دهند.

متا گزارش می‌دهد که تبدیل‌کننده نهان بایت پویا "از مدل‌های مبتنی بر توکن‌بندی در وظایف مختلف بهتر عمل می‌کند، با یک مزیت استحکام متوسط ​​+7 امتیاز (در HellaSwag آشفته) و رسیدن به +55 امتیاز در وظایف از معیار درک توکن CUTE."

متا با انتشار وزن‌ها در کنار پایگاه کد به اشتراک گذاشته شده قبلی، جامعه تحقیقاتی را تشویق می‌کند تا این رویکرد جایگزین برای مدل‌سازی زبان را بررسی کنند.

استدلال‌گر مشارکتی: متا عوامل هوش مصنوعی با هوش اجتماعی را پیش می‌برد

آخرین نسخه، استدلال‌گر مشارکتی (Collaborative Reasoner)، به چالش پیچیده ایجاد عوامل هوش مصنوعی که بتوانند به طور موثر با انسان‌ها یا سایر هوش مصنوعی‌ها همکاری کنند، می‌پردازد.

متا خاطرنشان می‌کند که همکاری انسان اغلب نتایج برتری به همراه دارد و هدف آن القای قابلیت‌های مشابه در هوش مصنوعی برای کارهایی مانند کمک به تکالیف یا آمادگی برای مصاحبه شغلی است.

چنین همکاری نه تنها به حل مسئله نیاز دارد، بلکه به مهارت‌های اجتماعی مانند ارتباط، همدلی، ارائه بازخورد و درک حالات ذهنی دیگران (نظریه ذهن) نیز نیاز دارد که اغلب در طول چندین نوبت مکالمه آشکار می‌شود.

روش‌های فعلی آموزش و ارزیابی LLM اغلب این جنبه‌های اجتماعی و مشارکتی را نادیده می‌گیرند. علاوه بر این، جمع‌آوری داده‌های مکالمه مرتبط پرهزینه و دشوار است.

استدلال‌گر مشارکتی یک چارچوب برای ارزیابی و افزایش این مهارت‌ها فراهم می‌کند. این چارچوب شامل وظایف هدف‌محوری است که نیاز به استدلال چند مرحله‌ای دارد که از طریق گفتگو بین دو عامل به دست می‌آید. این چارچوب توانایی‌هایی مانند مخالفت سازنده، متقاعد کردن یک شریک و دستیابی به بهترین راه حل مشترک را آزمایش می‌کند.

ارزیابی‌های متا نشان داد که مدل‌های فعلی برای استفاده مداوم از همکاری برای نتایج بهتر تلاش می‌کنند. برای رفع این مشکل، آن‌ها یک تکنیک خودبهبودی با استفاده از داده‌های تعامل مصنوعی پیشنهاد می‌کنند که در آن یک عامل LLM با خودش همکاری می‌کند.

تولید این داده‌ها در مقیاس بزرگ توسط یک موتور مدل‌سازی با کارایی بالا به نام Matrix امکان‌پذیر می‌شود. استفاده از این رویکرد در وظایف استدلال ریاضی، علمی و اجتماعی، گزارش شده است که در مقایسه با عملکرد "زنجیره تفکر" استاندارد یک LLM منفرد، تا 29.4٪ بهبود داشته است.

متا با منبع باز کردن تولید داده‌ها و خط لوله مدل‌سازی، هدف آن ترویج تحقیقات بیشتر در مورد ایجاد "عوامل اجتماعی که می‌توانند با انسان‌ها و سایر عوامل همکاری کنند" است.

این پنج نسخه در مجموع بر سرمایه‌گذاری سنگین مداوم متا در تحقیقات بنیادی هوش مصنوعی، به‌ویژه تمرکز بر بلوک‌های سازنده ماشین‌هایی که می‌توانند جهان را به روش‌های انسان‌مانند درک، بفهمند و با آن تعامل داشته باشند، تأکید می‌کنند.

همچنین ببینید: متا مدل‌های هوش مصنوعی را با استفاده از داده‌های کاربران اتحادیه اروپا آموزش می‌دهد