در حوزه در حال تحول پردازش زبان طبیعی (NLP)، برچسبگذاری دادهها همچنان یک گام حیاتی در آموزش مدلهای یادگیری ماشین است. در حالی که تقاضا برای دادههای برچسبخورده با کیفیت بالا همچنان در حال رشد است، دو سال گذشته باعث تغییر قابل توجهی از حاشیهنویسی دستی به روشهای خودکار شده است (اشارهای هوشمندانه به "prompt"). برچسبگذاری دستی سنتی اغلب زمانبر، پرهزینه و مستعد ناهماهنگی است و مقیاسپذیری مؤثر پروژهها را دشوار میکند.
برای پرداختن به این چالشها، سازمانها به طور فزایندهای به سمت حاشیهنویسی خودکار با LLM روی میآورند — یعنی بهرهگیری از مدلهای زبان بزرگ (LLMs) برای خودکارسازی و بهینهسازی فرآیند برچسبگذاری. آزمایشگاههای LLM دیتاسور (Datasaur's LLM Labs) یک راهحل قدرتمند ارائه میدهد که به کاربران امکان میدهد با LLMهای مختلف آزمایش کنند، پیکربندیهای آنها را بهینه سازند و آنها را برای حاشیهنویسی کارآمد و با کیفیت دادهها به کار گیرند. این راهنما نحوه استفاده از آزمایشگاههای LLM دیتاسور برای خودکارسازی برچسبگذاری دادهها، آزمایش با چندین مدل و استفاده از برچسبگذاری رباتیک (robo-labeling) برای دستیابی به اجماع بین هوش مصنوعی و حاشیهنویسان انسانی را بررسی میکند.
مقدمهای بر حاشیهنویسی خودکار دادهها با LLM
روشهای سنتی حاشیهنویسی دادهها به شدت به برچسبگذاری دستی متکی هستند و نیازمند تیمهایی از حاشیهنویسان برای برچسبزدن دقیق دادهها هستند — فرآیندی کند، پرهزینه و مستعد خطا. با پیچیدهتر شدن کاربردهای یادگیری ماشین، تقاضا برای دادههای برچسبخورده با کیفیت بالا به شدت افزایش یافته است و حاشیهنویسی کاملاً دستی را به طور فزایندهای ناپایدار میکند.
با ظهور مدلهای زبان بزرگ (LLMs)، اکنون امکان خودکارسازی ۵۰ تا ۸۰ درصد از فرآیند برچسبگذاری، کاهش هزینهها و زمان لازم برای دستیابی به بینش وجود دارد. آزمایشگاههای LLM دیتاسور به تیمها اجازه میدهد تا LLMها را در جریان کاری حاشیهنویسی خود ادغام کنند و از برچسبگذاری خودکار با LLM برای انجام بخش عمده کار استفاده کنند، در حالی که انسانها نتایج را بررسی و اصلاح میکنند.
حفظ انسان در حلقه (HITL)
به جای اتکای صرف به برچسبگذاری خودکار با هوش مصنوعی یا حاشیهنویسی کاملاً دستی، مؤثرترین رویکرد یک سیستم انسان-در-حلقه (Human-in-the-Loop - HITL) است: استفاده از برچسبزنندگان و بازبینان انسانی در حالی که از LLMها برای برچسبگذاری خودکار استفاده میشود. HITL تضمین میکند:
- کارایی و مقیاسپذیری: LLMها برچسبهای اولیه را تولید میکنند و بار کاری دستی را به میزان قابل توجهی کاهش میدهند.
- دقت و کنترل: بازبینان انسانی برچسبهای تولید شده توسط هوش مصنوعی را تأیید و تصحیح میکنند و کیفیت را تضمین کرده و خطاهای سیستماتیک را از بین میبرند.
- اجماع و پالایش: با مقایسه خروجیهای چندگانه LLM و اصلاحات انسانی، سازمانها میتوانند به برچسبهای مبتنی بر اجماع با اطمینان بالا دست یابند.
بنابراین چگونه از برچسبگذاری به کمک LLM با فرآیند HITL برای تضمین کارایی و کیفیت استفاده کنیم؟ بیایید شروع کنیم!
الف) نحوه استفاده از LLMها برای خودکارسازی برچسبگذاری دادهها با دیتاسور
محیط آزمایشی LLM دیتاسور (Datasaur's LLM Sandbox) به کاربران امکان میدهد تا قبل از به کارگیری مدلهای پایه برای برچسبگذاری کمکی، چندین مدل را آزمایش و مقایسه کنند. این یک محیط کنترل شده فراهم میکند که در آن میتوانید مدلهایی مانند Claude، ChatGPT، Llama و موارد دیگر را آزمایش کنید تا مشخص شود کدام یک برای وظیفه حاشیهنویسی شما مناسبتر است.
انتخاب و پیکربندی یک مدل
LLMهای زیادی در بازار وجود دارند و هر هفته شاهد نوآوریهای جدیدی هستیم. آزمایشگاههای LLM به کاربران امکان مقایسه و تضاد هر LLM موجود در بازار را میدهد. برای شروع با برچسبگذاری خودکار با LLM، یک مدل پایه از OpenAI، AWS Bedrock، Microsoft Azure، HuggingFace یا سایر ارائهدهندگان موجود در آزمایشگاههای LLM دیتاسور انتخاب کنید. هر مدل نقاط قوت منحصر به فردی دارد — برخی ممکن است در درک زمینه بهتر باشند، در حالی که برخی دیگر ممکن است برای سرعت یا هزینه بهینه شده باشند.
هنگامی که مدلی را انتخاب کردید، آن را با ارائه دستورالعملهای واضح کاربر و سیستم، از جمله نمونههایی از دادههای به درستی برچسبگذاری شده، پیکربندی کنید. تحقیقات نشان میدهد که هرچه یک LLM نمونههای بیشتری داشته باشد، کیفیت خروجیهای آن بالاتر خواهد بود. این مرحله تضمین میکند که مدل برچسبهای ساختاریافته و مرتبطی را برای مجموعه داده شما تولید میکند.
ارزیابی عملکرد مدل
به جای اتکا به یک LLM واحد، با چندین مدل آزمایش کنید تا عملکرد آنها را مقایسه کنید. از آزمایش پرامپت (prompt testing) استفاده کنید تا ببینید مدلهای مختلف چگونه دادههای یکسان را برچسبگذاری میکنند. عوامل کلیدی مانند موارد زیر را در نظر بگیرید:
- دقت: آیا مدل اطلاعات را به درستی دستهبندی یا استخراج میکند؟
- سازگاری: آیا نتایج قابل اعتمادی در نمونههای مختلف تولید میکند؟
- هزینه و سرعت: مدل با چه سرعتی درخواستها را پردازش میکند و هزینههای API مرتبط چقدر است؟
با استفاده از دیتاسور، میتوانید از همه این LLMها بدون نیاز به ایجاد حسابهای جداگانه برای هر کدام استفاده کنید و دیتاسور برای این کار هزینهای دریافت نمیکند — هزینه استفاده از دیتاسور برای همه LLMها همان هزینهای خواهد بود که با ایجاد حسابهای جداگانه برای هر کدام میپردازید.
استقرار و ادغام بهترین مدل
هنگامی که مؤثرترین LLM را برای مورد استفاده خود شناسایی کردید، آن را برای پروژه NLP خود مستقر کنید. این مدل اکنون به عنوان یک حاشیهنویس خودکار عمل میکند و به برچسبگذاری دادهها کمک میکند در حالی که به بازبینان انسانی اجازه میدهد خروجیهای آن را تأیید و اصلاح کنند.
با استفاده از این گردش کار برچسبگذاری خودکار با LLM، تیمها میتوانند تا ۸۰٪ از وظایف حاشیهنویسی خود را خودکار کنند، در زمان صرفهجویی کنند، هزینهها را کاهش دهند و دقت و سازگاری برچسبگذاری را بهبود بخشند — همه اینها در حالی که نظارت انسانی را در جایی که بیشترین نیاز وجود دارد حفظ میکنند.
برای مراحل دقیق، به مستندات محیط آزمایشی LLM دیتاسور مراجعه کنید.
اکنون به فضای کاری NLP برویم تا LLM پیکربندی شده خود را برای برچسبگذاری خودکار دادههایمان متصل کنیم.
ب) کنترل کیفیت (QA) نتایج
با پیکربندی برنامههای LLM و آمادهسازی آنها برای برچسبگذاری دادههای ما، میتوانیم مجموعه داده خود را آپلود کنیم. از آنجا، میتوانیم LLM خود را برای برچسبگذاری دادههایمان متصل کنیم. هنگامی که LLM برچسبها را برمیگرداند، قادر خواهید بود عملکرد برنامه خود را در برچسبگذاری دادههایتان به طور واقعی تجزیه و تحلیل کنید. به عنوان مثال، اگر در حال اجرای یک پروژه برچسبگذاری تشخیص موجودیت نامدار (NER) بودیم و سعی میکردیم برچسبهای سازمان و تاریخ را در مجموعه داده خود اجرا کنیم — به راحتی میتوانیم ببینیم چه مقدار از مجموعه داده شما پوشش داده شده است و کدام نمونههای تاریخ و سازمانها ثبت نشدهاند. با این حال، فراتر از دیدن پوشش LLM، میتوانیم تعدادی استراتژی را برای اطمینان از کیفیت خروجی اجرا کنیم.
کنترل کیفیت (QA) نتایج
استقرار چندین LLM پیکربندی شده
هر LLM پیکربندی شده میتواند به عنوان یک برچسبزننده مستقل عمل کند و به کاربران امکان میدهد خروجیهای آنها را مستقیماً در حالت بازبینی دیتاسور (Reviewer Mode) مقایسه کنند. کاربران میتوانند یک آستانه اجماع تعیین کنند تا به راحتی اختلافات بین LLMهای مختلف را پیدا کنند.
این کار چندین مزیت دارد. به شما امکان میدهد یک گردش کار چند مرحلهای (multipass) برای برچسبگذاری دادهها ایجاد کنید. این بدان معناست که هر برنامه LLM به طور مستقل برچسبها را به همان مجموعه داده دقیق اعمال میکند. یعنی شما قادر به بررسی تفاوتها و توافقات بین مدلها هستید. دیتاسور تنها پلتفرم موجود در بازار با این قابلیتهای چند مرحلهای است.
ایجاد اجماع
با به کارگیری چندین مدل برای برچسبگذاری مجموعه داده یکسان، کاربران میتوانند حوزههای توافق و اختلاف را شناسایی کنند. همچنین میتوانید یک برنامه LLM و یک برچسبزننده انسانی (در حالت برچسبزننده خود) را به یک مجموعه داده اعمال کنید تا بتوانید مدل را در مقابل انسان به عنوان بازبین مقایسه کنید. در هر صورت، این رویکرد مبتنی بر اجماع، قابلیت اطمینان حاشیهنویسیها را افزایش میدهد و مواردی را که ممکن است به مداخله انسانی نیاز داشته باشند، برجسته میکند. بازبینان میتوانند تضادها را با اجماع ارزیابی کرده و برچسبها را تصحیح کنند. آنها همچنین میتوانند از این اطلاعات برای بهبود دستورالعملهای برنامه LLM استفاده کنند (بازگشت به مرحله ۱).
استفاده از گزارشهای تحلیلی برای ارزیابی عملکرد:
کاربران میتوانند از جدول توافق بین حاشیهنویسان (Inter-Annotator Agreement - IAA) در تحلیلهای دیتاسور برای ارزیابی عملکرد LLM پیکربندی شده خود در برابر برچسبزنندگان انسانی استفاده کنند. این یک رویکرد مبتنی بر داده برای انتخاب مؤثرترین LLM برای نیازهای حاشیهنویسی آنها فراهم میکند. شما به وضوح خواهید دانست که برنامه LLM شما در طول تاریخ در برابر فرآیند کنترل کیفیت چگونه عمل کرده است: چه تعداد برچسب رد شده، پذیرفته شده، یا برچسبگذاری شده است. این بینشها برای درک اثربخشی مدل شما حیاتی هستند.
با استفاده از چندین LLM پیکربندی شده و ارزیابی عملکرد آنها از طریق حالت بازبینی دیتاسور و استفاده از گزارشهای کنترل کیفیت پلتفرم، کاربران میتوانند به طور مکرر مدلهای خود را برای دقت بهینه حاشیهنویسی پیکربندی کنند: تضمین تعادل بین اتوماسیون و تخصص انسانی.
نتیجهگیری
آزمایشگاههای LLM دیتاسور با ادغام LLMهای پیشرفته در گردش کار، چشمانداز حاشیهنویسی دادهها را ساده میکند. با به کارگیری مجموعهای از مدلهای مختلف برای برچسبگذاری خودکار، تیمها میتوانند به حاشیهنویسی کارآمد، دقیق و مقیاسپذیر دست یابند. این همافزایی بین هوش مصنوعی و تخصص انسانی نه تنها جدول زمانی پروژهها را تسریع میکند، بلکه کیفیت کلی پروژههای NLP را نیز افزایش میدهد.
درباره نویسنده در زمینه برچسبگذاری خودکار با LLM
ایوان لی (Ivan Lee) با مدرک کارشناسی علوم کامپیوتر از دانشگاه استنفورد فارغالتحصیل شد، سپس دوره کارشناسی ارشد خود را رها کرد تا اولین شرکت بازیهای موبایلی خود، Loki Studios را تأسیس کند. پس از جذب سرمایه سازمانی و ساخت یک بازی سودآور، Loki توسط یاهو خریداری شد. لی ۱۰ سال بعد را صرف ساخت محصولات هوش مصنوعی در یاهو و اپل کرد و متوجه شد که شکافی در ارائه خدمات به تکامل سریع فناوریهای پردازش زبان طبیعی (NLP) وجود دارد. او دیتاسور را برای تمرکز بر دموکراتیک کردن دسترسی به NLP و LLMها ساخت. دیتاسور ۸ میلیون دلار سرمایه مخاطرهآمیز از سرمایهگذاران درجه یک مانند Initialized Capital، گرگ براکمن (رئیس، OpenAI) و کالوین فرنچ-اون (مدیر ارشد فناوری، Segment) جذب کرده است و به شرکتهایی مانند گوگل، نتفلیکس، کوالتریکس، اسپاتیفای، افبیآی و غیره خدمات ارائه میدهد.