مدل‌های زبانی بزرگ (LLMs) در HuggingFace
مدل‌های زبانی بزرگ (LLMs) در HuggingFace

چرا Hugging Face ذخیره‌سازی Xet را جایگزین Git LFS می‌کند؟

Hugging Face انتقال مخازن مدل‌ها و مجموعه‌های داده خود به ذخیره‌سازی Xet را برای هاب خود آغاز کرده است.

Hugging Face یکی از برجسته‌ترین پلتفرم‌ها برای میزبانی مدل‌های هوش مصنوعی است. چه یک مدل هوش مصنوعی توسط ByteDance، گوگل یا یک استارتاپ توسعه یافته باشد، احتمالاً آن را در این پلتفرم خواهید یافت.

در سال ۲۰۲۴، Hugging Face شرکت XetHub، یک شرکت مستقر در سیاتل که پلتفرمی برای ساخت و استقرار برنامه‌های کاربردی هوش مصنوعی مولد (GenAI) بود، را

تا از فناوری‌های آن برای تغییر به نسخه بهتری از ذخیره‌سازی فایل‌های بزرگ Git (Git LFS) به عنوان پشتیبان ذخیره‌سازی برای مخازن هاب خود استفاده کند.

با گذشت زمان و رسیدن به سال ۲۰۲۵، Hugging Face

اولین مخازن مدل‌ها و مجموعه‌های داده خود از LFS به ذخیره‌سازی Xet کرده است.

محدودیت‌های ذخیره‌سازی Git LFS برای مخازن هوش مصنوعی

یک افزونه متن‌باز Git برای نسخه‌بندی فایل‌های بزرگ است. این افزونه فایل‌هایی مانند صدا، ویدیو، مجموعه‌های داده و گرافیک را با اشاره‌گرهای متنی در داخل Git جایگزین می‌کند، در حالی که خود فایل را به طور جداگانه روی یک سرور راه دور ذخیره می‌کند.

در زمان نگارش این گزارش، Hugging Face هنوز از این فناوری در ترکیب با Amazon S3، یک سرویس ذخیره‌سازی ابری، برای ذخیره‌سازی راه دور استفاده می‌کند. تا ۲۰ سپتامبر ۲۰۲۴، حجم کل فایل‌های میزبانی شده توسط Hugging Face به رقم چشمگیر ۲۹ پتابایت رسید.

آمار Hugging Face
آمار Hugging Face

با این حال، این شرکت توضیح داد که مخازن موجود در هاب Hugging Face با مخازن پلتفرم‌های توسعه نرم‌افزار متفاوت هستند. آن‌ها

که اگرچه LFS برای فایل‌های بزرگ طراحی شده بود، اما نوع فایل‌ها در هوش مصنوعی به طور قابل توجهی بزرگتر است. در نتیجه، این شرکت همیشه قصد داشت در مقطعی به پشتیبان ذخیره‌سازی و نسخه‌بندی بهینه‌سازی شده خود منتقل شود.

Hugging Face در یک پست وبلاگی

: «LFS حذف داده‌های تکراری را در سطح فایل انجام می‌دهد. حتی ویرایش‌های کوچک نیز باعث ایجاد یک نسخه جدید برای آپلود کامل می‌شوند؛ این امر برای فایل‌های چند گیگابایتی که در بسیاری از مخازن هاب یافت می‌شوند، دردسرساز است.»

معرفی ذخیره‌سازی Xet و کاربردهای آن برای Hugging Face

برای غلبه بر محدودیت‌های Git LFS که در بالا ذکر شد، Hugging Face شروع به پیاده‌سازی ذخیره‌سازی Xet کرد.

Hugging Face

: «هنگامی که فایلی با پشتیبانی ذخیره‌سازی Xet به‌روزرسانی می‌شود، تنها داده‌های اصلاح‌شده به ذخیره‌سازی راه دور آپلود می‌شوند که به طور قابل توجهی در انتقال‌های شبکه صرفه‌جویی می‌کند. برای بسیاری از گردش‌های کاری، مانند به‌روزرسانی‌های افزایشی نقاط بازبینی (checkpoints) مدل یا افزودن/درج داده‌های جدید در یک مجموعه داده، این امر سرعت تکرار را برای شما و همکارانتان بهبود می‌بخشد.»

ذخیره‌سازی Xet از تکنیک تقسیم‌بندی مبتنی بر محتوا (CDC یا content-defined chunking) برای حذف داده‌های تکراری در سطح بایت استفاده می‌کند. هنگامی که بخش کوچکی از فراداده در یک مدل GGUF اصلاح می‌شود، فقط تکه‌های (chunks) تغییر یافته منتقل می‌شوند. علاوه بر این، از یک

برای محاسبه تکه‌ها استفاده می‌شود. ذخیره‌سازی Xet همچنین سازگاری عقب‌گرد با Git LFS را ارائه می‌دهد.

با این مزایای فنی، Hugging Face موارد استفاده آتی را شناسایی کرد که در آن کاربران نیازی به بارگذاری مجدد یک فایل ذخیره‌سازی داده ۱۰ گیگابایتی پس از افزودن تنها یک ردیف نخواهند داشت. در عوض، آن‌ها می‌توانند به سادگی چند تکه تغییر یافته، از جمله ردیف جدید، را دوباره آپلود کنند.

این شرکت مثالی را به اشتراک گذاشت که در آن نسخه پشتیبانی شده توسط Xet از مخزن gemma-2-9b-it-GGUF در مجموع ۹۷ گیگابایت حجم داشت که تقریباً ۹۴ گیگابایت صرفه‌جویی به همراه داشت، در حالی که اندازه اصلی مدل ۱۹۱ گیگابایت بود. این موضوع به صرفه‌جویی نزدیک به ۵۰٪ در فضای ذخیره‌سازی اشاره دارد که باید دانلود آن را برای همه آسان‌تر کند.

مرورگر شما از تگ ویدیو پشتیبانی نمی‌کند.

موفقیت Hugging Face در انتقال

در تاریخ ۱۸ مارس، Hugging Face

برای اولین مرحله انتقال مخازن خود به اشتراک گذاشت.

آن‌ها اظهار داشتند که این انتقال تقریباً ۶٪ از ترافیک دانلود هاب را به زیرساخت Xet خود منتقل کرده است. در این فرآیند، Hugging Face تمام مخازن هدف را به حجم ۴.۵ ترابایت به ذخیره‌سازی Xet منتقل کرد.

بار شبکه Hugging Face
آمار بار شبکه Hugging Face

در حالی که آن‌ها با چالش‌هایی مانند عدم توازن بار غیرمنتظره و سربار دانلود (همانطور که در تصویر بالا نشان داده شده است) در سیستم ذخیره‌سازی خود مواجه شدند، انتقال اولیه موفقیت‌آمیز بود و Xet اکنون در هاب Hugging Face فعال است.

کاربران پلتفرم Hugging Face می‌توانند از مزایای آن با انتظار کمتر برای آپلود یا دانلود و تکرارهای سریع‌تر روی فایل‌های بزرگ بهره‌مند شوند.

این شرکت کاربران را تشویق می‌کند تا برای بهره‌مندی از مزایا، به hf_xet ارتقا دهند، اگرچه کلاینت‌های قدیمی از طریق LFS Bridge سازگار باقی خواهند ماند.