آموزش: استنتاج بدون سرور با شتاب‌دهنده GPU با استفاده از Google Cloud Run

اخیراً، گوگل کلود پشتیبانی از GPU را برای پلتفرم بدون سرور Cloud Run راه‌اندازی کرده است. این ویژگی به توسعه‌دهندگان امکان می‌دهد تا استنتاج بدون سرور مدل‌های مستقر شده در Cloud Run را تسریع کنند.

در این آموزش، مراحل استقرار مدل زبان بزرگ (LLM) Llama 3.1 با 8 میلیارد پارامتر را بر روی یک سرویس Cloud Run مبتنی بر GPU به شما نشان خواهم داد. ما از سرور Text Generation Inference (TGI) از Hugging Face به عنوان سرور مدل و موتور استنتاج استفاده خواهیم کرد.

این راهنما فرض می‌کند که شما می‌توانید به Google Cloud دسترسی داشته باشید و gcloud CLI را بر روی دستگاه خود نصب و پیکربندی کرده‌اید.

مرحله 1 - مقداردهی اولیه محیط

بیایید با تعریف متغیرهای محیطی مورد نیاز برای پیکربندی Cloud Run شروع کنیم:

export PROJECT_ID=YOUR_GCP_PROJECT
export LOCATION=us-central1
export CONTAINER_URI=us-docker.pkg.dev/deeplearning-platform-release/gcr.io/huggingface-text-generation-inference-cu121.2-2.ubuntu2204.py310
export SERVICE_NAME=text-generation-inference

از آنجایی که Cloud Run یک ایمیج کانتینر را به عنوان واحد استقرار انتظار دارد، ما از کانتینر رسمی Deep Learning از Hugging Face استفاده می‌کنیم که از قبل در Google Cloud Artifact Registry ذخیره شده است.

ایمیج us-docker.pkg.dev/deeplearning-platform-release/gcr.io/huggingface-text-generation-inference-cu121.2-2.ubuntu2204.py310 نشان‌دهنده ایمیج کانتینر رسمی TGI است که ما آن را در Cloud Run مستقر خواهیم کرد.

مرحله بعدی پیکربندی gcloud CLI برای استفاده از پروژه و منطقه صحیح است. دستورات زیر را برای مقداردهی اولیه محیط اجرا کنید.

gcloud auth login
gcloud config set project $PROJECT_ID

در نهایت، اطمینان حاصل کنید که Cloud Run API برای پروژه شما فعال شده است.

gcloud services enable run.googleapis.com

مرحله 2 - استقرار سرور مدل TGI

ما آماده استقرار سرور Text Generation Inference در Google Cloud هستیم. برای استقرار، دستور زیر را اجرا کنید.

gcloud beta run deploy $SERVICE_NAME \
 --image=$CONTAINER_URI \ --args="--model-id=hugging-quants/Meta-Llama-3.1-8B-Instruct-AWQ-INT4,--quantize=awq,--max-concurrent-requests=64" \
 --set-env-vars="HF_HUB_ENABLE_HF_TRANSFER=1, HF_TOKEN=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" \
 --port=8080 \
 --cpu=4 \
 --memory=16Gi \
 --no-cpu-throttling \
 --gpu=1 \
 --gpu-type=nvidia-l4 \
 --max-instances=1 \
 --concurrency=64 \
 --region=$LOCATION \
 --no-allow-unauthenticated

پارامتر --image ایمیج کانتینر ذخیره شده در Google Cloud Artifact registry را مشخص می‌کند که در متغیر محیطی مقداردهی اولیه کردیم.

سوییچ --args نام مدل را همانطور که در مخزن Hugging Face ظاهر می‌شود، ارسال می‌کند. برای افزایش توان عملیاتی، ما از یک مدل کوانتیزه‌شده int4 استفاده می‌کنیم که می‌تواند تا 64 درخواست همزمان را مدیریت کند.

مهم‌ترین مجموعه آرگومان‌ها gpu=1 و --gpu-type=nvidia-l4 است که سرویس را مجبور می‌کند از شتاب‌دهنده GPU استفاده کند.

ما نمی‌خواهیم از احراز هویت ناشناس استفاده کنیم. بنابراین، سوییچ --no-allow-unauthenticated سرویس گیرنده را مجبور می‌کند از احراز هویت مبتنی بر Google Cloud استفاده کند.

صبر کنید تا دستور به پایان برسد، و شما باید بتوانید سرویس را در Google Cloud Console مشاهده کنید. علامت تیک سبز نشان می‌دهد که سرویس مستقر شده و در حال اجرا است.

مرحله 3 - انجام استنتاج

با استقرار مدل در Cloud Run، اکنون می‌توانیم استنتاج را در برابر endpoint انجام دهیم. قبل از آن، بیایید پروکسی را اجرا کنیم تا سرویس را در دستگاه محلی خود در معرض دید قرار دهیم. این یک تکنیک مفید برای آزمایش یک سرویس مستقر شده در Cloud Run است.

gcloud run services proxy $SERVICE_NAME --region $LOCATION

اکنون می‌توانیم از دستور cURL برای آزمایش endpoint استنتاج استفاده کنیم.

curl http://localhost:8080/v1/chat/completions \ -X POST \ -H 'Content-Type: application/json' \ -d '{\ "model": "tgi",\ "messages": [{\ "role": "system",\ "content": "You are a helpful assistant."\ }, {\ "role": "user",\ "content": "What is the capital of France?"\ }],\ "max_tokens": 128\ }'

از آنجایی که Hugging Face TGI یک endpoint سازگار با OpenAI را در معرض دید قرار می‌دهد، ما همچنین می‌توانیم از کتابخانه OpenAI Python استاندارد برای صحبت با سرویس استفاده کنیم.

ماژول OpenAI Python را نصب کنید.

pip install --upgrade openai

اکنون می‌توانیم کد زیر را برای آزمایش سرویس اجرا کنیم.

from openai import OpenAI

client = OpenAI(
 base_url="http://localhost:8080/v1/",
 api_key="-",
)

chat_completion = client.chat.completions.create(
 model="tgi",
 messages=[
 {"role": "system", "content": "You are a helpful assistant."},
 {"role": "user", "content": "What is the capital of France?"},
 ],
 max_tokens=128,
)

اولین درخواست زمان می‌برد زیرا مدل دانلود می‌شود. با این حال، تماس‌های بعدی سریع‌تر خواهند بود زیرا مدل کش شده و به راحتی در دسترس قرار می‌گیرد.

جدا از TGI، استقرار سایر سرورهای مدل مانند vLLM در Google Cloud Run امکان پذیر است.

https://thenewstack.io/tutorial-gpu-accelerated-serverless-inference-with-google-cloud-run/