بر اساس مطالعهای که توسط یک محقق دانشگاه میشیگان رهبری شده است، سیستم ارتباطی جمعی جدیدی به نام OptiReduce، با تعیین مرزهای زمانی به جای انتظار برای هماهنگی همه سرورها، آموزش هوش مصنوعی و یادگیری ماشینی را در چندین سرور ابری سرعت میبخشد.
در حالی که مقداری داده به دلیل زمانهای انتظار (timeout) از دست میرود، OptiReduce دادههای از دست رفته را تخمین میزند و سریعتر از رقبای خود به دقت هدف میرسد. نتایج این تحقیق امروز در سمپوزیوم USENIX در مورد طراحی و پیادهسازی سیستمهای شبکهای در فیلادلفیا، پنسیلوانیا ارائه شد.
همانطور که اندازه مدلهای هوش مصنوعی و یادگیری ماشینی در حال افزایش است، آموزش آنها نیاز به همکاری چندین سرور یا گده در فرآیندی به نام یادگیری عمیق توزیعشده دارد. هنگام انجام آموزش در مراکز رایانش ابری، تراکم و تاخیرها در محیط مشترک به دلیل پردازش همزمان بارهای کاری متعدد رخ میدهد.
برای غلبه بر این مانع، تیم تحقیق رویکردی را پیشنهاد میکند که مشابه انتقال از CPUهای عمومی، که قادر به مدیریت آموزش هوش مصنوعی و یادگیری ماشینی نبودند، به GPUهای خاص حوزه با کارایی و عملکرد بالاتر در آموزش است.
محمد شهباز، استادیار علوم کامپیوتر و مهندسی در دانشگاه میشیگان و نویسنده مسئول این مطالعه، میگوید: "ما در مورد ارتباط همان اشتباه را تکرار کردهایم؛ با استفاده از عمومیترین روش انتقال داده. کاری که اِنویدیا برای محاسبات انجام داده است، ما در حال تلاش برای انجام آن برای ارتباطات هستیم—انتقال از عمومی به خاص حوزه برای جلوگیری از گلوگاهها."
تاکنون، سیستمهای یادگیری عمیق توزیعشده نیازمند ارتباط کامل و قابل اعتماد بین سرورهای منفرد بودهاند. این منجر به کندی در انتهای فرآیند میشود زیرا مدل منتظر میماند تا همه سرورها به هم برسند قبل از ادامه کار.
به جای انتظار برای سرورهای کند، OptiReduce محدودیتهای زمانی برای ارتباط سرورها معرفی میکند و بدون انتظار برای تکمیل کار همه سرورها، فرآیند را ادامه میدهد. برای رعایت مرزهای زمانی و در عین حال به حداکثر رساندن ارتباط مفید، این محدودیتها به صورت انطباقی در دورههای شبکه خلوت کوتاهتر و در دورههای شلوغ طولانیتر میشوند.
در حالی که مقداری اطلاعات در این فرآیند از دست میرود، OptiReduce از انعطافپذیری سیستمهای یادگیری عمیق با استفاده از تکنیکهای ریاضی برای تخمین دادههای از دست رفته و به حداقل رساندن تاثیر آن بهره میبرد.
ارتضا واریچ، دانشجوی دکتری علوم کامپیوتر در دانشگاه پردو و نویسنده اول این مطالعه، میگوید: "ما با چالش کشیدن نیاز به قابلیت اطمینان ۱۰۰ درصدی که در بارهای کاری سنتی مورد نیاز است، در حال بازتعریف پشته محاسباتی برای هوش مصنوعی و یادگیری ماشینی هستیم. با پذیرش قابلیت اطمینان محدود، بارهای کاری یادگیری ماشینی به طور قابل توجهی سریعتر اجرا میشوند بدون به خطر انداختن دقت."
تیم تحقیق OptiReduce را در مقابل مدلهای موجود در یک کلاستر مجازی محلی—سرورهای شبکهای که منابع را به اشتراک میگذارند—و یک بستر آزمایش عمومی برای برنامههای ابری مشترک، CloudLab، آزمایش کردند. پس از آموزش چندین مدل شبکه عصبی، آنها سرعت دستیابی مدلها به دقت هدف، معروف به زمان تا رسیدن به دقت، و میزان دادههای از دست رفته را اندازهگیری کردند.
OptiReduce از مدلهای موجود پیشی گرفت و در مقایسه با Gloo به ۷۰% سرعت بیشتری در زمان تا رسیدن به دقت دست یافت و در مقایسه با NCCL هنگام کار در محیط ابری مشترک ۳۰% سریعتر بود.
هنگام آزمایش محدودیت میزان دادهای که میتوان در زمانهای انتظار از دست داد، آنها دریافتند که مدلها میتوانند حدود ۵% از دادهها را بدون قربانی کردن عملکرد از دست بدهند. مدلهای بزرگتر—شامل Llama 4، Mistral 7B، Falcon، Qwen و Gemini—در برابر از دست دادن داده انعطافپذیری بیشتری داشتند در حالی که مدلهای کوچکتر آسیبپذیرتر بودند.
شهباز گفت: "OptiReduce اولین گام در جهت بهبود عملکرد و کاهش گلوگاههای ارتباطی با بهرهگیری از ویژگیهای خاص حوزه یادگیری ماشینی بود. به عنوان گام بعدی، ما اکنون در حال بررسی نحوه انتقال از حمل و نقل مبتنی بر نرمافزار به حمل و نقل سطح سختافزار در NIC هستیم تا به سمت صدها گیگابیت در ثانیه پیش برویم."
اِنویدیا، VMware Research و Feldera نیز در این تحقیق مشارکت داشتند.
اطلاعات بیشتر:
ارجاع کامل: "OptiReduce: Resilient and tail-optimal AllReduce for distributed deep learning in the cloud," Ertza Warraich, Omer Shabtai, Khalid Manaa, Shay Vargaftik, Yonatan Piasetzky, Matty Kadosh, Lalith Suresh, and Muhammad Shahbaz, USENIX Symposium on Networked Systems Design and Implementation (2025). www.usenix.org/conference/nsdi … resentation/warraich
ارائه شده توسط دانشکده مهندسی دانشگاه میشیگان