OptiReduce با کاهش تعداد مراحل با پارامتر Incast و تعیین مرز برای تاخیر مسیر، تاخیر را در مقایسه با روش‌های قبلی مانند Ring AllReduce بهبود می‌بخشد. اعتبار: آزمایشگاه شهباز
OptiReduce با کاهش تعداد مراحل با پارامتر Incast و تعیین مرز برای تاخیر مسیر، تاخیر را در مقایسه با روش‌های قبلی مانند Ring AllReduce بهبود می‌بخشد. اعتبار: آزمایشگاه شهباز

کمال، دشمن خوبی در یادگیری عمیق توزیع‌شده در فضای ابری است

بر اساس مطالعه‌ای که توسط یک محقق دانشگاه میشیگان رهبری شده است، سیستم ارتباطی جمعی جدیدی به نام OptiReduce، با تعیین مرزهای زمانی به جای انتظار برای هماهنگی همه سرورها، آموزش هوش مصنوعی و یادگیری ماشینی را در چندین سرور ابری سرعت می‌بخشد.

در حالی که مقداری داده به دلیل زمان‌های انتظار (timeout) از دست می‌رود، OptiReduce داده‌های از دست رفته را تخمین می‌زند و سریع‌تر از رقبای خود به دقت هدف می‌رسد. نتایج این تحقیق امروز در سمپوزیوم USENIX در مورد طراحی و پیاده‌سازی سیستم‌های شبکه‌ای در فیلادلفیا، پنسیلوانیا ارائه شد.

همانطور که اندازه مدل‌های هوش مصنوعی و یادگیری ماشینی در حال افزایش است، آموزش آن‌ها نیاز به همکاری چندین سرور یا گده در فرآیندی به نام یادگیری عمیق توزیع‌شده دارد. هنگام انجام آموزش در مراکز رایانش ابری، تراکم و تاخیرها در محیط مشترک به دلیل پردازش همزمان بارهای کاری متعدد رخ می‌دهد.

برای غلبه بر این مانع، تیم تحقیق رویکردی را پیشنهاد می‌کند که مشابه انتقال از CPUهای عمومی، که قادر به مدیریت آموزش هوش مصنوعی و یادگیری ماشینی نبودند، به GPUهای خاص حوزه با کارایی و عملکرد بالاتر در آموزش است.

محمد شهباز، استادیار علوم کامپیوتر و مهندسی در دانشگاه میشیگان و نویسنده مسئول این مطالعه، می‌گوید: "ما در مورد ارتباط همان اشتباه را تکرار کرده‌ایم؛ با استفاده از عمومی‌ترین روش انتقال داده. کاری که اِنویدیا برای محاسبات انجام داده است، ما در حال تلاش برای انجام آن برای ارتباطات هستیم—انتقال از عمومی به خاص حوزه برای جلوگیری از گلوگاه‌ها."

تاکنون، سیستم‌های یادگیری عمیق توزیع‌شده نیازمند ارتباط کامل و قابل اعتماد بین سرورهای منفرد بوده‌اند. این منجر به کندی در انتهای فرآیند می‌شود زیرا مدل منتظر می‌ماند تا همه سرورها به هم برسند قبل از ادامه کار.

به جای انتظار برای سرورهای کند، OptiReduce محدودیت‌های زمانی برای ارتباط سرورها معرفی می‌کند و بدون انتظار برای تکمیل کار همه سرورها، فرآیند را ادامه می‌دهد. برای رعایت مرزهای زمانی و در عین حال به حداکثر رساندن ارتباط مفید، این محدودیت‌ها به صورت انطباقی در دوره‌های شبکه خلوت کوتاه‌تر و در دوره‌های شلوغ طولانی‌تر می‌شوند.

در حالی که مقداری اطلاعات در این فرآیند از دست می‌رود، OptiReduce از انعطاف‌پذیری سیستم‌های یادگیری عمیق با استفاده از تکنیک‌های ریاضی برای تخمین داده‌های از دست رفته و به حداقل رساندن تاثیر آن بهره می‌برد.

ارتضا واریچ، دانشجوی دکتری علوم کامپیوتر در دانشگاه پردو و نویسنده اول این مطالعه، می‌گوید: "ما با چالش کشیدن نیاز به قابلیت اطمینان ۱۰۰ درصدی که در بارهای کاری سنتی مورد نیاز است، در حال بازتعریف پشته محاسباتی برای هوش مصنوعی و یادگیری ماشینی هستیم. با پذیرش قابلیت اطمینان محدود، بارهای کاری یادگیری ماشینی به طور قابل توجهی سریع‌تر اجرا می‌شوند بدون به خطر انداختن دقت."

تیم تحقیق OptiReduce را در مقابل مدل‌های موجود در یک کلاستر مجازی محلی—سرورهای شبکه‌ای که منابع را به اشتراک می‌گذارند—و یک بستر آزمایش عمومی برای برنامه‌های ابری مشترک، CloudLab، آزمایش کردند. پس از آموزش چندین مدل شبکه عصبی، آن‌ها سرعت دستیابی مدل‌ها به دقت هدف، معروف به زمان تا رسیدن به دقت، و میزان داده‌های از دست رفته را اندازه‌گیری کردند.

OptiReduce از مدل‌های موجود پیشی گرفت و در مقایسه با Gloo به ۷۰% سرعت بیشتری در زمان تا رسیدن به دقت دست یافت و در مقایسه با NCCL هنگام کار در محیط ابری مشترک ۳۰% سریع‌تر بود.

هنگام آزمایش محدودیت میزان داده‌ای که می‌توان در زمان‌های انتظار از دست داد، آن‌ها دریافتند که مدل‌ها می‌توانند حدود ۵% از داده‌ها را بدون قربانی کردن عملکرد از دست بدهند. مدل‌های بزرگ‌تر—شامل Llama 4، Mistral 7B، Falcon، Qwen و Gemini—در برابر از دست دادن داده انعطاف‌پذیری بیشتری داشتند در حالی که مدل‌های کوچک‌تر آسیب‌پذیرتر بودند.

شهباز گفت: "OptiReduce اولین گام در جهت بهبود عملکرد و کاهش گلوگاه‌های ارتباطی با بهره‌گیری از ویژگی‌های خاص حوزه یادگیری ماشینی بود. به عنوان گام بعدی، ما اکنون در حال بررسی نحوه انتقال از حمل و نقل مبتنی بر نرم‌افزار به حمل و نقل سطح سخت‌افزار در NIC هستیم تا به سمت صدها گیگابیت در ثانیه پیش برویم."

اِنویدیا، VMware Research و Feldera نیز در این تحقیق مشارکت داشتند.

اطلاعات بیشتر:

ارجاع کامل: "OptiReduce: Resilient and tail-optimal AllReduce for distributed deep learning in the cloud," Ertza Warraich, Omer Shabtai, Khalid Manaa, Shay Vargaftik, Yonatan Piasetzky, Matty Kadosh, Lalith Suresh, and Muhammad Shahbaz, USENIX Symposium on Networked Systems Design and Implementation (2025). www.usenix.org/conference/nsdi … resentation/warraich

ارائه شده توسط دانشکده مهندسی دانشگاه میشیگان

ارجاع:کمال، دشمن خوبی در یادگیری عمیق توزیع‌شده در فضای ابری است (2025، آوریل 29)بازیابی شده در 29 آوریل 2025از https://techxplore.com/news/2025-04-enemy-good-deep-cloud.html
این سند مشمول حق نشر است. به جز هرگونه استفاده منصفانه برای اهداف مطالعه خصوصی یا تحقیق، هیچ بخشی از آن را نمی‌توان بدون اجازه کتبی تکثیر کرد. محتوا فقط برای اهداف اطلاعاتی ارائه شده است.