اعتبار: تصویر تولید شده توسط VentureBeat با StableDiffusion 3.5 Large
اعتبار: تصویر تولید شده توسط VentureBeat با StableDiffusion 3.5 Large

تائو داده‌ها: چگونه دیتابریکس تنظیم دقیق LLM هوش مصنوعی را بدون برچسب داده بهینه می‌کند

مدل‌های هوش مصنوعی تنها به اندازه داده‌هایی که برای آموزش یا تنظیم دقیق آن‌ها استفاده می‌شود، خوب عمل می‌کنند.

داده‌های برچسب‌گذاری شده در بخش عمده‌ای از تاریخچه یادگیری ماشین (ML) و هوش مصنوعی مولد، عنصری بنیادی بوده‌اند. داده‌های برچسب‌گذاری شده اطلاعاتی هستند که برای کمک به مدل‌های هوش مصنوعی در درک زمینه در طول آموزش، تگ‌گذاری می‌شوند.

در حالی که شرکت‌ها برای پیاده‌سازی برنامه‌های کاربردی هوش مصنوعی رقابت می‌کنند، گلوگاه پنهان اغلب فناوری نیست - بلکه فرآیند چند ماهه جمع‌آوری، مدیریت و برچسب‌گذاری داده‌های خاص دامنه است. این "مالیات برچسب‌گذاری داده‌ها" رهبران فنی را مجبور کرده است بین به تأخیر انداختن استقرار یا پذیرش عملکرد پایین‌تر از حد مطلوب از مدل‌های عمومی، یکی را انتخاب کنند.

دیتابریکس (Databricks) مستقیماً این چالش را هدف قرار داده است.

این هفته، این شرکت پژوهشی را در مورد رویکرد جدیدی به نام بهینه‌سازی تطبیقی زمان-آزمون (Test-time Adaptive Optimization - TAO) منتشر کرد. ایده اصلی پشت این رویکرد، فعال کردن تنظیم دقیق مدل‌های زبان بزرگ (LLM) در سطح سازمانی با استفاده تنها از داده‌های ورودی است که شرکت‌ها از قبل در اختیار دارند - بدون نیاز به برچسب - در حالی که به نتایجی دست می‌یابد که از تنظیم دقیق سنتی روی هزاران نمونه برچسب‌گذاری شده بهتر عمل می‌کند. دیتابریکس کار خود را به عنوان فروشنده پلتفرم دیتا لیک‌هاوس (data lakehouse) آغاز کرد و در سال‌های اخیر به طور فزاینده‌ای بر روی هوش مصنوعی تمرکز کرده است. دیتابریکس شرکت MosaicML را به مبلغ ۱.۳ میلیارد دلار خریداری کرد و به طور پیوسته در حال ارائه ابزارهایی است که به توسعه‌دهندگان کمک می‌کند به سرعت برنامه‌های هوش مصنوعی بسازند. تیم تحقیقاتی موزاییک در دیتابریکس، روش جدید TAO را توسعه داده است.

براندون کوی، مدیر یادگیری تقویتی و دانشمند ارشد تحقیقاتی در دیتابریکس به ونچربیت گفت: «به دست آوردن داده‌های برچسب‌گذاری شده دشوار است و برچسب‌های ضعیف مستقیماً به خروجی‌های ضعیف منجر می‌شوند، به همین دلیل است که آزمایشگاه‌های پیشرو از فروشندگان برچسب‌گذاری داده برای خرید داده‌های گران‌قیمت با حاشیه‌نویسی انسانی استفاده می‌کنند. ما می‌خواهیم مشتریان را در جایی که هستند ملاقات کنیم؛ برچسب‌ها مانعی برای پذیرش هوش مصنوعی سازمانی بودند و با TAO، دیگر اینطور نیست.»

نوآوری فنی: چگونه TAO تنظیم دقیق LLM را بازآفرینی می‌کند

در هسته خود، TAO پارادایم نحوه شخصی‌سازی مدل‌ها توسط توسعه‌دهندگان برای دامنه‌های خاص را تغییر می‌دهد.

به جای رویکرد متعارف تنظیم دقیق نظارت‌شده، که نیازمند نمونه‌های جفت ورودی-خروجی است، TAO از یادگیری تقویتی و کاوش سیستماتیک برای بهبود مدل‌ها تنها با استفاده از پرس‌وجوهای نمونه استفاده می‌کند.

خط لوله فنی از چهار مکانیزم متمایز استفاده می‌کند که با هم کار می‌کنند:

تولید پاسخ اکتشافی: سیستم نمونه‌های ورودی بدون برچسب را می‌گیرد و با استفاده از تکنیک‌های پیشرفته مهندسی پرامپت که فضای راه‌حل را کاوش می‌کنند، چندین پاسخ بالقوه برای هر کدام تولید می‌کند.

مدل‌سازی پاداش کالیبره شده برای سازمان: پاسخ‌های تولید شده توسط مدل پاداش دیتابریکس (DBRM) ارزیابی می‌شوند، که به طور خاص برای ارزیابی عملکرد در وظایف سازمانی با تأکید بر صحت مهندسی شده است.

بهینه‌سازی مدل مبتنی بر یادگیری تقویتی: پارامترهای مدل سپس از طریق یادگیری تقویتی بهینه می‌شوند، که اساساً به مدل آموزش می‌دهد تا مستقیماً پاسخ‌های با امتیاز بالا تولید کند.

چرخ لنگر داده پیوسته: با تعامل کاربران با سیستم مستقر شده، ورودی‌های جدید به طور خودکار جمع‌آوری می‌شوند و یک حلقه خود-بهبود بدون تلاش اضافی برای برچسب‌گذاری انسانی ایجاد می‌کنند.

محاسبات زمان-آزمون ایده جدیدی نیست. OpenAI از محاسبات زمان-آزمون برای توسعه مدل استدلال o1 استفاده کرد و DeepSeek تکنیک‌های مشابهی را برای آموزش مدل R1 به کار برد. آنچه TAO را از سایر روش‌های محاسبات زمان-آزمون متمایز می‌کند این است که در حالی که از محاسبات اضافی در طول آموزش استفاده می‌کند، مدل تنظیم شده نهایی هزینه استنتاجی مشابه مدل اصلی دارد. این یک مزیت حیاتی برای استقرارهای تولیدی ارائه می‌دهد که در آن هزینه‌های استنتاج با استفاده افزایش می‌یابد.

کوی توضیح داد: «TAO تنها به عنوان بخشی از فرآیند آموزش از محاسبات اضافی استفاده می‌کند؛ هزینه استنتاج مدل را پس از آموزش افزایش نمی‌دهد. در بلندمدت، ما فکر می‌کنیم TAO و رویکردهای محاسبات زمان-آزمون مانند o1 و R1 مکمل یکدیگر خواهند بود - شما می‌توانید هر دو را انجام دهید.»

معیارها برتری عملکرد شگفت‌انگیز نسبت به تنظیم دقیق سنتی را نشان می‌دهند

تحقیقات دیتابریکس نشان می‌دهد که TAO نه تنها با تنظیم دقیق سنتی مطابقت دارد - بلکه از آن پیشی می‌گیرد. در چندین معیار مرتبط با سازمان، دیتابریکس ادعا می‌کند که این رویکرد با وجود استفاده از تلاش انسانی به مراتب کمتر، بهتر است.

در FinanceBench (یک معیار پرسش و پاسخ اسناد مالی)، TAO عملکرد Llama 3.1 8B را ۲۴.۷ درصد و Llama 3.3 70B را ۱۳.۴ درصد بهبود بخشید. برای تولید SQL با استفاده از معیار BIRD-SQL که با گویش دیتابریکس تطبیق داده شده است، TAO به ترتیب بهبودهای ۱۹.۱ و ۸.۷ درصدی را ارائه داد.

قابل توجه‌تر از همه، Llama 3.3 70B تنظیم شده با TAO به عملکرد GPT-4o و o3-mini در این معیارها نزدیک شد - مدل‌هایی که معمولاً هزینه اجرای آن‌ها در محیط‌های تولیدی ۱۰ تا ۲۰ برابر بیشتر است.

این یک پیشنهاد ارزش قانع‌کننده برای تصمیم‌گیرندگان فنی ارائه می‌دهد: توانایی استقرار مدل‌های کوچک‌تر و مقرون‌به‌صرفه‌تر که عملکردی قابل مقایسه با همتایان برتر خود در وظایف خاص دامنه دارند، بدون هزینه‌های گسترده برچسب‌گذاری که به طور سنتی مورد نیاز است.

نمودار مقایسه‌ای عملکرد روش TAO با تنظیم دقیق سنتی
نمودار نمایش‌دهنده داده‌های TAO

TAO مزیت زمان ورود به بازار را برای شرکت‌ها فراهم می‌کند

در حالی که TAO با فعال کردن استفاده از مدل‌های کوچک‌تر و کارآمدتر، مزایای هزینه آشکاری را ارائه می‌دهد، بزرگترین ارزش آن ممکن است در تسریع زمان ورود به بازار برای ابتکارات هوش مصنوعی باشد.

کوی تأکید کرد: «ما فکر می‌کنیم TAO چیزی با ارزش‌تر از پول را برای شرکت‌ها ذخیره می‌کند: زمان آن‌ها را ذخیره می‌کند. به دست آوردن داده‌های برچسب‌گذاری شده معمولاً نیازمند عبور از مرزهای سازمانی، راه‌اندازی فرآیندهای جدید، واداشتن کارشناسان موضوعی به انجام برچسب‌گذاری و تأیید کیفیت است. شرکت‌ها ماه‌ها وقت ندارند تا چندین واحد تجاری را فقط برای نمونه‌سازی یک مورد استفاده از هوش مصنوعی هماهنگ کنند.»

این فشرده‌سازی زمان یک مزیت استراتژیک ایجاد می‌کند. به عنوان مثال، یک شرکت خدمات مالی که در حال پیاده‌سازی یک راه‌حل تجزیه و تحلیل قرارداد است، می‌تواند با استفاده تنها از قراردادهای نمونه، استقرار و تکرار را آغاز کند، به جای اینکه منتظر بماند تا تیم‌های حقوقی هزاران سند را برچسب‌گذاری کنند. به طور مشابه، سازمان‌های مراقبت‌های بهداشتی می‌توانند سیستم‌های پشتیبانی تصمیم‌گیری بالینی را تنها با استفاده از پرس‌وجوهای پزشکان، بدون نیاز به پاسخ‌های کارشناسی جفت شده، بهبود بخشند.

کوی گفت: «محققان ما زمان زیادی را صرف صحبت با مشتریانمان می‌کنند، چالش‌های واقعی را که هنگام ساخت سیستم‌های هوش مصنوعی با آن‌ها روبرو هستند درک می‌کنند و فناوری‌های جدیدی را برای غلبه بر این چالش‌ها توسعه می‌دهند. ما در حال حاضر TAO را در بسیاری از برنامه‌های کاربردی سازمانی به کار می‌بریم و به مشتریان کمک می‌کنیم تا به طور مداوم مدل‌های خود را تکرار و بهبود بخشند.»

این به چه معناست برای تصمیم‌گیرندگان فنی

برای شرکت‌هایی که به دنبال پیشرو بودن در پذیرش هوش مصنوعی هستند، TAO نشان‌دهنده یک نقطه عطف بالقوه در نحوه استقرار سیستم‌های هوش مصنوعی تخصصی است. دستیابی به عملکرد با کیفیت بالا و خاص دامنه بدون مجموعه داده‌های برچسب‌گذاری شده گسترده، یکی از مهم‌ترین موانع پیاده‌سازی گسترده هوش مصنوعی را برطرف می‌کند.

این رویکرد به ویژه برای سازمان‌هایی با گنجینه‌های غنی از داده‌های بدون ساختار و الزامات خاص دامنه اما منابع محدود برای برچسب‌گذاری دستی مفید است - دقیقاً موقعیتی که بسیاری از شرکت‌ها در آن قرار دارند.

همانطور که هوش مصنوعی به طور فزاینده‌ای برای مزیت رقابتی محوری می‌شود، فناوری‌هایی که زمان از مفهوم تا استقرار را فشرده می‌کنند و همزمان عملکرد را بهبود می‌بخشند، رهبران را از عقب‌ماندگان جدا خواهند کرد. به نظر می‌رسد TAO آماده است تا چنین فناوری‌ای باشد و به طور بالقوه شرکت‌ها را قادر می‌سازد تا قابلیت‌های هوش مصنوعی تخصصی را به جای ماه‌ها یا فصل‌ها، در عرض چند هفته پیاده‌سازی کنند.

در حال حاضر، TAO فقط در پلتفرم دیتابریکس موجود است و در پیش‌نمایش خصوصی قرار دارد.