وکتارا چارچوب متن باز برای ارزیابی RAG را راه اندازی کرد
پالو آلتو، 19 فروردین 1404 - وکتارا، پلتفرمی برای تولید تقویتشده با بازیابی سازمانی (RAG) و عوامل و دستیارهای مجهز به هوش مصنوعی، امروز از راهاندازی Open RAG Eval، چارچوب ارزیابی RAG متن باز خود خبر داد.
این چارچوب، که با همکاری محققان دانشگاه واترلو توسعه یافته است، به کاربران سازمانی اجازه میدهد تا کیفیت پاسخ را برای هر جزء و پیکربندی سیستمهای RAG خود ارزیابی کنند تا به سرعت و به طور مداوم دقت و قابلیت اطمینان عوامل هوش مصنوعی و سایر ابزارهای خود را بهینه کنند.
عمر عوضالله، بنیانگذار و مدیرعامل وکتارا، گفت: «پیادهسازیهای هوش مصنوعی - بهویژه برای سیستمهای RAG فعال - روز به روز پیچیدهتر میشوند. گردشهای کاری پیچیده، افزایش نگرانیهای امنیتی و مشاهدهپذیری همراه با مقررات قریبالوقوع، سازمانها را به سمت استقرار سیستمهای RAG سفارشی در حین پرواز به روشهای فزایندهای سوق میدهد. برای جلوگیری از به خطر انداختن کل استراتژیهای هوش مصنوعی خود، این سازمانها به روشی سازگار و دقیق برای ارزیابی عملکرد و کیفیت نیاز دارند. وکتارا با همکاری با پروفسور جیمی لین و تیم استثنایی او در دانشگاه واترلو، به طور فعال با Open RAG Eval ما این چالش را برطرف میکند.»
پروفسور جیمی لین، رئیس David R. Cheriton در دانشکده علوم کامپیوتر در دانشگاه واترلو است. او و اعضای تیمش در ایجاد معیارها و مجموعهدادههای در سطح جهانی برای ارزیابی بازیابی اطلاعات پیشگام هستند.
پروفسور لین گفت: «عوامل هوش مصنوعی و سایر سیستمها به طور فزایندهای در نحوه عملکرد شرکتها در امروز و نحوه برنامهریزی آنها برای رشد در آینده، محوریت پیدا میکنند. برای استفاده از وعدههایی که این فناوریها ارائه میدهند، سازمانها به روشهای ارزیابی قوی نیاز دارند که دقت علمی و کاربرد عملی را برای ارزیابی و بهینهسازی مستمر سیستمهای RAG خود ترکیب کنند. تیم من و من از همکاری با وکتارا برای ارائه یافتههای تحقیقاتی خود به شرکتها به گونهای که دقت و قابلیت اطمینان سیستمهای هوش مصنوعی را در سراسر جهان پیش ببرد، هیجانزده هستیم.»
Open RAG Eval برای تعیین صحت و سودمندی پاسخهای ارائه شده به درخواستهای کاربر، بسته به اجزا و پیکربندی یک پشته RAG سازمانی طراحی شده است. این چارچوب کیفیت پاسخ را با توجه به دو دسته معیار اصلی ارزیابی میکند: معیارهای بازیابی و معیارهای تولید.
کاربران Open RAG Eval میتوانند از این تکرار اول پلتفرم برای کمک به اطلاعرسانی به توسعهدهندگان این سیستمها در مورد نحوه عملکرد یک خط لوله RAG در امتداد معیارهای انتخابشده استفاده کنند. با بررسی این دستههای معیار، یک ارزیاب میتواند سیستمهای «جعبه سیاه» را بر اساس امتیازهای جداگانه یا تجمیعشده مقایسه کند.
به عنوان مثال، نمره پایین ارتباط ممکن است نشان دهد که کاربر باید خط لوله بازیابی سیستم را ارتقا یا پیکربندی مجدد کند، یا اینکه هیچ اطلاعات مرتبطی در مجموعه داده وجود ندارد. در همین حال، نمرات تولید کمتر از حد انتظار ممکن است به این معنی باشد که سیستم باید از یک LLM قویتر استفاده کند - در مواردی که، برای مثال، پاسخ تولید شده شامل توهمات است - یا اینکه کاربر باید درخواستهای RAG خود را به روز کند.
چارچوب جدید برای ارزیابی یکپارچه هر خط لوله RAG، از جمله پلتفرم GenAI خود وکتارا یا هر راه حل RAG سفارشی دیگر طراحی شده است.
Open RAG Eval به تیمهای هوش مصنوعی کمک میکند تا چنین چالشهای استقرار و پیکربندی دنیای واقعی را حل کنند:
? آیا از تکهتکه کردن توکن ثابت استفاده کنیم یا تکهتکه کردن معنایی؛
? آیا از جستجوی ترکیبی یا برداری استفاده کنیم و چه مقداری را برای لامبدا در استقرارهای جستجوی ترکیبی استفاده کنیم.
?
? از کدام LLM استفاده کنیم و چگونه درخواستهای RAG را بهینه کنیم؛
? از کدام آستانه برای تشخیص و اصلاح توهم استفاده کنیم و موارد دیگر.
تصمیم وکتارا برای راهاندازی Open RAG Eval به عنوان یک ابزار متنباز با مجوز Apache 2.0، نشاندهنده سابقه موفقیت این شرکت در ایجاد سایر استانداردهای صنعت در کاهش توهم با مدل ارزیابی توهمات Hughes (HHEM) متنباز خود است که بیش از 3.5 میلیون بار در Hugging Face دانلود شده است.
از آنجایی که سیستمهای هوش مصنوعی به سرعت در حال رشد هستند - به ویژه با افزایش عامل - و با ادامه تکامل تکنیکهای RAG، سازمانها به چارچوبهای ارزیابی هوش مصنوعی باز و قابل گسترش نیاز دارند تا به آنها کمک کند تا انتخابهای درستی داشته باشند. این امر به سازمانها اجازه میدهد تا از دادههای خود نیز استفاده کنند، معیارهای خود را اضافه کنند و سیستمهای موجود خود را در برابر گزینههای جایگزین نوظهور اندازه گیری کنند. رویکرد منبع باز و قابل گسترش وکتارا به Open RAG Eval کمک میکند تا با فعال کردن مشارکتهای مداوم از جامعه هوش مصنوعی، از این پویاییها جلوتر بماند و در عین حال اطمینان حاصل کند که پیادهسازی هر معیار ارزیابی پیشنهادی و مشارکت شده به خوبی درک شده و برای بررسی و بهبود باز است.