مدلهای هوش مصنوعی تنها به اندازه دادههایی که برای آموزش یا تنظیم دقیق آنها استفاده میشود، خوب عمل میکنند.
دادههای برچسبگذاری شده در بخش عمدهای از تاریخچه یادگیری ماشین (ML) و هوش مصنوعی مولد، عنصری بنیادی بودهاند. دادههای برچسبگذاری شده اطلاعاتی هستند که برای کمک به مدلهای هوش مصنوعی در درک زمینه در طول آموزش، تگگذاری میشوند.
در حالی که شرکتها برای پیادهسازی برنامههای کاربردی هوش مصنوعی رقابت میکنند، گلوگاه پنهان اغلب فناوری نیست - بلکه فرآیند چند ماهه جمعآوری، مدیریت و برچسبگذاری دادههای خاص دامنه است. این "مالیات برچسبگذاری دادهها" رهبران فنی را مجبور کرده است بین به تأخیر انداختن استقرار یا پذیرش عملکرد پایینتر از حد مطلوب از مدلهای عمومی، یکی را انتخاب کنند.
دیتابریکس (Databricks) مستقیماً این چالش را هدف قرار داده است.
این هفته، این شرکت پژوهشی را در مورد رویکرد جدیدی به نام بهینهسازی تطبیقی زمان-آزمون (Test-time Adaptive Optimization - TAO) منتشر کرد. ایده اصلی پشت این رویکرد، فعال کردن تنظیم دقیق مدلهای زبان بزرگ (LLM) در سطح سازمانی با استفاده تنها از دادههای ورودی است که شرکتها از قبل در اختیار دارند - بدون نیاز به برچسب - در حالی که به نتایجی دست مییابد که از تنظیم دقیق سنتی روی هزاران نمونه برچسبگذاری شده بهتر عمل میکند. دیتابریکس کار خود را به عنوان فروشنده پلتفرم دیتا لیکهاوس (data lakehouse) آغاز کرد و در سالهای اخیر به طور فزایندهای بر روی هوش مصنوعی تمرکز کرده است. دیتابریکس شرکت MosaicML را به مبلغ ۱.۳ میلیارد دلار خریداری کرد و به طور پیوسته در حال ارائه ابزارهایی است که به توسعهدهندگان کمک میکند به سرعت برنامههای هوش مصنوعی بسازند. تیم تحقیقاتی موزاییک در دیتابریکس، روش جدید TAO را توسعه داده است.
براندون کوی، مدیر یادگیری تقویتی و دانشمند ارشد تحقیقاتی در دیتابریکس به ونچربیت گفت: «به دست آوردن دادههای برچسبگذاری شده دشوار است و برچسبهای ضعیف مستقیماً به خروجیهای ضعیف منجر میشوند، به همین دلیل است که آزمایشگاههای پیشرو از فروشندگان برچسبگذاری داده برای خرید دادههای گرانقیمت با حاشیهنویسی انسانی استفاده میکنند. ما میخواهیم مشتریان را در جایی که هستند ملاقات کنیم؛ برچسبها مانعی برای پذیرش هوش مصنوعی سازمانی بودند و با TAO، دیگر اینطور نیست.»
نوآوری فنی: چگونه TAO تنظیم دقیق LLM را بازآفرینی میکند
در هسته خود، TAO پارادایم نحوه شخصیسازی مدلها توسط توسعهدهندگان برای دامنههای خاص را تغییر میدهد.
به جای رویکرد متعارف تنظیم دقیق نظارتشده، که نیازمند نمونههای جفت ورودی-خروجی است، TAO از یادگیری تقویتی و کاوش سیستماتیک برای بهبود مدلها تنها با استفاده از پرسوجوهای نمونه استفاده میکند.
خط لوله فنی از چهار مکانیزم متمایز استفاده میکند که با هم کار میکنند:
تولید پاسخ اکتشافی: سیستم نمونههای ورودی بدون برچسب را میگیرد و با استفاده از تکنیکهای پیشرفته مهندسی پرامپت که فضای راهحل را کاوش میکنند، چندین پاسخ بالقوه برای هر کدام تولید میکند.
مدلسازی پاداش کالیبره شده برای سازمان: پاسخهای تولید شده توسط مدل پاداش دیتابریکس (DBRM) ارزیابی میشوند، که به طور خاص برای ارزیابی عملکرد در وظایف سازمانی با تأکید بر صحت مهندسی شده است.
بهینهسازی مدل مبتنی بر یادگیری تقویتی: پارامترهای مدل سپس از طریق یادگیری تقویتی بهینه میشوند، که اساساً به مدل آموزش میدهد تا مستقیماً پاسخهای با امتیاز بالا تولید کند.
چرخ لنگر داده پیوسته: با تعامل کاربران با سیستم مستقر شده، ورودیهای جدید به طور خودکار جمعآوری میشوند و یک حلقه خود-بهبود بدون تلاش اضافی برای برچسبگذاری انسانی ایجاد میکنند.
محاسبات زمان-آزمون ایده جدیدی نیست. OpenAI از محاسبات زمان-آزمون برای توسعه مدل استدلال o1 استفاده کرد و DeepSeek تکنیکهای مشابهی را برای آموزش مدل R1 به کار برد. آنچه TAO را از سایر روشهای محاسبات زمان-آزمون متمایز میکند این است که در حالی که از محاسبات اضافی در طول آموزش استفاده میکند، مدل تنظیم شده نهایی هزینه استنتاجی مشابه مدل اصلی دارد. این یک مزیت حیاتی برای استقرارهای تولیدی ارائه میدهد که در آن هزینههای استنتاج با استفاده افزایش مییابد.
کوی توضیح داد: «TAO تنها به عنوان بخشی از فرآیند آموزش از محاسبات اضافی استفاده میکند؛ هزینه استنتاج مدل را پس از آموزش افزایش نمیدهد. در بلندمدت، ما فکر میکنیم TAO و رویکردهای محاسبات زمان-آزمون مانند o1 و R1 مکمل یکدیگر خواهند بود - شما میتوانید هر دو را انجام دهید.»
معیارها برتری عملکرد شگفتانگیز نسبت به تنظیم دقیق سنتی را نشان میدهند
تحقیقات دیتابریکس نشان میدهد که TAO نه تنها با تنظیم دقیق سنتی مطابقت دارد - بلکه از آن پیشی میگیرد. در چندین معیار مرتبط با سازمان، دیتابریکس ادعا میکند که این رویکرد با وجود استفاده از تلاش انسانی به مراتب کمتر، بهتر است.
در FinanceBench (یک معیار پرسش و پاسخ اسناد مالی)، TAO عملکرد Llama 3.1 8B را ۲۴.۷ درصد و Llama 3.3 70B را ۱۳.۴ درصد بهبود بخشید. برای تولید SQL با استفاده از معیار BIRD-SQL که با گویش دیتابریکس تطبیق داده شده است، TAO به ترتیب بهبودهای ۱۹.۱ و ۸.۷ درصدی را ارائه داد.
قابل توجهتر از همه، Llama 3.3 70B تنظیم شده با TAO به عملکرد GPT-4o و o3-mini در این معیارها نزدیک شد - مدلهایی که معمولاً هزینه اجرای آنها در محیطهای تولیدی ۱۰ تا ۲۰ برابر بیشتر است.
این یک پیشنهاد ارزش قانعکننده برای تصمیمگیرندگان فنی ارائه میدهد: توانایی استقرار مدلهای کوچکتر و مقرونبهصرفهتر که عملکردی قابل مقایسه با همتایان برتر خود در وظایف خاص دامنه دارند، بدون هزینههای گسترده برچسبگذاری که به طور سنتی مورد نیاز است.
TAO مزیت زمان ورود به بازار را برای شرکتها فراهم میکند
در حالی که TAO با فعال کردن استفاده از مدلهای کوچکتر و کارآمدتر، مزایای هزینه آشکاری را ارائه میدهد، بزرگترین ارزش آن ممکن است در تسریع زمان ورود به بازار برای ابتکارات هوش مصنوعی باشد.
کوی تأکید کرد: «ما فکر میکنیم TAO چیزی با ارزشتر از پول را برای شرکتها ذخیره میکند: زمان آنها را ذخیره میکند. به دست آوردن دادههای برچسبگذاری شده معمولاً نیازمند عبور از مرزهای سازمانی، راهاندازی فرآیندهای جدید، واداشتن کارشناسان موضوعی به انجام برچسبگذاری و تأیید کیفیت است. شرکتها ماهها وقت ندارند تا چندین واحد تجاری را فقط برای نمونهسازی یک مورد استفاده از هوش مصنوعی هماهنگ کنند.»
این فشردهسازی زمان یک مزیت استراتژیک ایجاد میکند. به عنوان مثال، یک شرکت خدمات مالی که در حال پیادهسازی یک راهحل تجزیه و تحلیل قرارداد است، میتواند با استفاده تنها از قراردادهای نمونه، استقرار و تکرار را آغاز کند، به جای اینکه منتظر بماند تا تیمهای حقوقی هزاران سند را برچسبگذاری کنند. به طور مشابه، سازمانهای مراقبتهای بهداشتی میتوانند سیستمهای پشتیبانی تصمیمگیری بالینی را تنها با استفاده از پرسوجوهای پزشکان، بدون نیاز به پاسخهای کارشناسی جفت شده، بهبود بخشند.
کوی گفت: «محققان ما زمان زیادی را صرف صحبت با مشتریانمان میکنند، چالشهای واقعی را که هنگام ساخت سیستمهای هوش مصنوعی با آنها روبرو هستند درک میکنند و فناوریهای جدیدی را برای غلبه بر این چالشها توسعه میدهند. ما در حال حاضر TAO را در بسیاری از برنامههای کاربردی سازمانی به کار میبریم و به مشتریان کمک میکنیم تا به طور مداوم مدلهای خود را تکرار و بهبود بخشند.»
این به چه معناست برای تصمیمگیرندگان فنی
برای شرکتهایی که به دنبال پیشرو بودن در پذیرش هوش مصنوعی هستند، TAO نشاندهنده یک نقطه عطف بالقوه در نحوه استقرار سیستمهای هوش مصنوعی تخصصی است. دستیابی به عملکرد با کیفیت بالا و خاص دامنه بدون مجموعه دادههای برچسبگذاری شده گسترده، یکی از مهمترین موانع پیادهسازی گسترده هوش مصنوعی را برطرف میکند.
این رویکرد به ویژه برای سازمانهایی با گنجینههای غنی از دادههای بدون ساختار و الزامات خاص دامنه اما منابع محدود برای برچسبگذاری دستی مفید است - دقیقاً موقعیتی که بسیاری از شرکتها در آن قرار دارند.
همانطور که هوش مصنوعی به طور فزایندهای برای مزیت رقابتی محوری میشود، فناوریهایی که زمان از مفهوم تا استقرار را فشرده میکنند و همزمان عملکرد را بهبود میبخشند، رهبران را از عقبماندگان جدا خواهند کرد. به نظر میرسد TAO آماده است تا چنین فناوریای باشد و به طور بالقوه شرکتها را قادر میسازد تا قابلیتهای هوش مصنوعی تخصصی را به جای ماهها یا فصلها، در عرض چند هفته پیادهسازی کنند.
در حال حاضر، TAO فقط در پلتفرم دیتابریکس موجود است و در پیشنمایش خصوصی قرار دارد.