Hugging Face یکی از برجستهترین پلتفرمها برای میزبانی مدلهای هوش مصنوعی است. چه یک مدل هوش مصنوعی توسط ByteDance، گوگل یا یک استارتاپ توسعه یافته باشد، احتمالاً آن را در این پلتفرم خواهید یافت.
در سال ۲۰۲۴، Hugging Face شرکت XetHub، یک شرکت مستقر در سیاتل که پلتفرمی برای ساخت و استقرار برنامههای کاربردی هوش مصنوعی مولد (GenAI) بود، را
تا از فناوریهای آن برای تغییر به نسخه بهتری از ذخیرهسازی فایلهای بزرگ Git (Git LFS) به عنوان پشتیبان ذخیرهسازی برای مخازن هاب خود استفاده کند.با گذشت زمان و رسیدن به سال ۲۰۲۵، Hugging Face
اولین مخازن مدلها و مجموعههای داده خود از LFS به ذخیرهسازی Xet کرده است.محدودیتهای ذخیرهسازی Git LFS برای مخازن هوش مصنوعی
در زمان نگارش این گزارش، Hugging Face هنوز از این فناوری در ترکیب با Amazon S3، یک سرویس ذخیرهسازی ابری، برای ذخیرهسازی راه دور استفاده میکند. تا ۲۰ سپتامبر ۲۰۲۴، حجم کل فایلهای میزبانی شده توسط Hugging Face به رقم چشمگیر ۲۹ پتابایت رسید.
با این حال، این شرکت توضیح داد که مخازن موجود در هاب Hugging Face با مخازن پلتفرمهای توسعه نرمافزار متفاوت هستند. آنها
که اگرچه LFS برای فایلهای بزرگ طراحی شده بود، اما نوع فایلها در هوش مصنوعی به طور قابل توجهی بزرگتر است. در نتیجه، این شرکت همیشه قصد داشت در مقطعی به پشتیبان ذخیرهسازی و نسخهبندی بهینهسازی شده خود منتقل شود.Hugging Face در یک پست وبلاگی
: «LFS حذف دادههای تکراری را در سطح فایل انجام میدهد. حتی ویرایشهای کوچک نیز باعث ایجاد یک نسخه جدید برای آپلود کامل میشوند؛ این امر برای فایلهای چند گیگابایتی که در بسیاری از مخازن هاب یافت میشوند، دردسرساز است.»معرفی ذخیرهسازی Xet و کاربردهای آن برای Hugging Face
برای غلبه بر محدودیتهای Git LFS که در بالا ذکر شد، Hugging Face شروع به پیادهسازی ذخیرهسازی Xet کرد.
Hugging Face
: «هنگامی که فایلی با پشتیبانی ذخیرهسازی Xet بهروزرسانی میشود، تنها دادههای اصلاحشده به ذخیرهسازی راه دور آپلود میشوند که به طور قابل توجهی در انتقالهای شبکه صرفهجویی میکند. برای بسیاری از گردشهای کاری، مانند بهروزرسانیهای افزایشی نقاط بازبینی (checkpoints) مدل یا افزودن/درج دادههای جدید در یک مجموعه داده، این امر سرعت تکرار را برای شما و همکارانتان بهبود میبخشد.»ذخیرهسازی Xet از تکنیک تقسیمبندی مبتنی بر محتوا (CDC یا content-defined chunking) برای حذف دادههای تکراری در سطح بایت استفاده میکند. هنگامی که بخش کوچکی از فراداده در یک مدل GGUF اصلاح میشود، فقط تکههای (chunks) تغییر یافته منتقل میشوند. علاوه بر این، از یک
برای محاسبه تکهها استفاده میشود. ذخیرهسازی Xet همچنین سازگاری عقبگرد با Git LFS را ارائه میدهد.با این مزایای فنی، Hugging Face موارد استفاده آتی را شناسایی کرد که در آن کاربران نیازی به بارگذاری مجدد یک فایل ذخیرهسازی داده ۱۰ گیگابایتی پس از افزودن تنها یک ردیف نخواهند داشت. در عوض، آنها میتوانند به سادگی چند تکه تغییر یافته، از جمله ردیف جدید، را دوباره آپلود کنند.
این شرکت مثالی را به اشتراک گذاشت که در آن نسخه پشتیبانی شده توسط Xet از مخزن gemma-2-9b-it-GGUF در مجموع ۹۷ گیگابایت حجم داشت که تقریباً ۹۴ گیگابایت صرفهجویی به همراه داشت، در حالی که اندازه اصلی مدل ۱۹۱ گیگابایت بود. این موضوع به صرفهجویی نزدیک به ۵۰٪ در فضای ذخیرهسازی اشاره دارد که باید دانلود آن را برای همه آسانتر کند.
مرورگر شما از تگ ویدیو پشتیبانی نمیکند.
موفقیت Hugging Face در انتقال
در تاریخ ۱۸ مارس، Hugging Face
برای اولین مرحله انتقال مخازن خود به اشتراک گذاشت.آنها اظهار داشتند که این انتقال تقریباً ۶٪ از ترافیک دانلود هاب را به زیرساخت Xet خود منتقل کرده است. در این فرآیند، Hugging Face تمام مخازن هدف را به حجم ۴.۵ ترابایت به ذخیرهسازی Xet منتقل کرد.
در حالی که آنها با چالشهایی مانند عدم توازن بار غیرمنتظره و سربار دانلود (همانطور که در تصویر بالا نشان داده شده است) در سیستم ذخیرهسازی خود مواجه شدند، انتقال اولیه موفقیتآمیز بود و Xet اکنون در هاب Hugging Face فعال است.
کاربران پلتفرم Hugging Face میتوانند از مزایای آن با انتظار کمتر برای آپلود یا دانلود و تکرارهای سریعتر روی فایلهای بزرگ بهرهمند شوند.
این شرکت کاربران را تشویق میکند تا برای بهرهمندی از مزایا، به hf_xet ارتقا دهند، اگرچه کلاینتهای قدیمی از طریق LFS Bridge سازگار باقی خواهند ماند.