فریم‌ورک گایا AMD استنتاج LLM محلی را به سخت‌افزار مصرف‌کننده می‌آورد - InfoQ

AMD گایا (GAIA) ، یک پروژه متن‌باز را منتشر کرده است که به توسعه‌دهندگان اجازه می‌دهد مدل‌های زبانی بزرگ (LLM) را به صورت محلی بر روی ماشین‌های ویندوزی با شتاب‌دهی سخت‌افزاری AMD اجرا کنند.

این فریم‌ورک از تولید تقویت‌شده با بازیابی (RAG) پشتیبانی می‌کند و شامل ابزارهایی برای فهرست‌بندی منابع داده محلی است. گایا (GAIA) به منظور ارائه یک جایگزین برای LLM های میزبانی‌شده بر روی یک ارائه‌دهنده خدمات ابری (CSP) طراحی شده است.

از آنجا که گایا (GAIA) به طور کامل بر روی دستگاه اجرا می‌شود، به ویژه در محیط‌های حساس به تأخیر یا قطع شده مانند گردش‌های کاری توسعه‌دهندگان، برنامه‌های کاربردی متمرکز بر حفظ حریم خصوصی و دستگاه‌های مستقر در میدان، جذاب است.

حفاظت‌های بهبود یافته حاکمیت داده گایا (GAIA) داده‌های حساس یا اختصاصی را بر روی دستگاه کاربر نگه می‌دارد و از انتقال از طریق شبکه‌های خارجی جلوگیری می‌کند. استنتاج به صورت محلی رخ می‌دهد و در مقایسه با رفت و برگشت به APIهای از راه دور، تأخیر را کاهش می‌دهد.

گایا (GAIA) طوری طراحی شده است که برای توسعه‌دهندگان با حداقل تنظیمات قابل دسترسی باشد و یک API محلی سازگار با Open-AI ارائه می‌دهد که می‌تواند به طور کامل بر روی سخت‌افزار درجه مصرف‌کننده اجرا شود. این شامل یک رابط اعلان ساده، یک چت با هدف عمومی ("Chaty")، یک دستیار جستجوی ویدیو که می‌تواند رونوشت‌های YouTube را تجزیه کند و یک عامل شخصیت مولد به نام "Joker" است. باطن که به این عوامل خدمت می‌کند، توسط Lemonade SDK ، که از زمان اجرای ONNX و زیرساخت TurnkeyML AMD استفاده می‌کند، تغذیه می‌شود. عوامل با یک فروشگاه بردار محلی که از طریق یک خط لوله جذب و جاسازی سند پر شده است، تعامل دارند. داده‌های خارجی تجزیه، به بردار تبدیل می‌شوند و از طریق یک موتور پرس و جو مشابه، قابل جستجو می‌شوند.

رویکرد معماری اصلی حول RAG می‌چرخد، یک الگوی که پاسخ‌های مدل را با گنجاندن اسناد فهرست‌شده خارجی در اعلان، افزایش می‌دهد. گایا (GAIA) ابزارهایی را برای فهرست‌بندی انواع منابع محتوا (فایل‌های markdown ، رونوشت‌ها، مخازن GitHub ) فراهم می‌کند و آن‌ها را با استفاده از یک مدل جاسازی محلی برداری می‌کند. این جاسازی‌ها در زمان اجرا ذخیره و پرس و جو می‌شوند تا تکمیل‌های مرتبط با متن را ارائه دهند.

گایا (GAIA) در دو نوع ارائه می‌شود: یک نصب‌کننده استاندارد ویندوز و یک نسخه ترکیبی با شتاب سخت‌افزاری که برای سیستم‌های AMD Ryzen مجهز به GPU های یکپارچه و واحدهای پردازش عصبی (NPU) بهینه‌سازی شده است. در حالی که مجموعه ابزارها در سطح منبع مستقل از پلتفرم است، AMD بیان می‌کند که مسیر ترکیبی جایی است که تلاش‌های بهینه‌سازی آینده بر آن متمرکز خواهد شد، به ویژه برای دستگاه‌های دارای پشتیبانی از Ryzen AI. AMD می‌خواهد اجرای مدل را بر روی سخت‌افزار عصبی اختصاصی خود فشار دهد تا بار CPU و مصرف انرژی را کاهش دهد.

با قرار دادن گایا (GAIA) به عنوان یک جایگزین کلاینت سنگین برای LLM های مبتنی بر ابر، AMD با سایر ابزارهای محلی-اول که هدف آن‌ها توسعه‌دهندگان، علاقه‌مندان و سناریوهای محاسبات لبه است، رقابت می‌کند. تلاش‌های مشابهی مانند ChatRTX ، LM Studio و Ollama بخشی از یک روند معماری گسترده‌تر برای نزدیک‌تر کردن استنتاج به صاحبان مدل، کاهش خطراتی مانند حفظ حریم خصوصی، محدودیت نرخ API و قفل شدن فروشنده است که اغلب با استفاده از خدمات مدیریت‌شده ابری مرتبط است - جهتی که AMD به طور صریح در اعلامیه گایا (GAIA) خود به آن اذعان دارد.

کد منبع تحت مجوز MIT در GitHub در دسترس است و شامل گزینه‌های استقرار مبتنی بر Docker ، پیکربندی‌های مدل از پیش تعیین شده و پشتیبانی از اجرا بر روی CPU ها، GPU ها و NPU ها است. اگرچه این پروژه در نسخه‌های اولیه خود است، اما نشان‌دهنده جاه‌طلبی رو به رشد AMD برای اکوسیستم توسعه‌دهندگان هوش مصنوعی نه تنها از طریق سیلیکون خود، بلکه از طریق ابزارهای باز است که از گردش‌های کاری کاربردی در دنیای واقعی پشتیبانی می‌کنند.