تصویری از داده‌های باینری
تصویری از داده‌های باینری

وکتارا چارچوب متن باز برای ارزیابی RAG را راه اندازی کرد

وکتارا چارچوب متن باز برای ارزیابی RAG را راه اندازی کرد

پالو آلتو، 19 فروردین 1404 - وکتارا، پلتفرمی برای تولید تقویت‌شده با بازیابی سازمانی (RAG) و عوامل و دستیارهای مجهز به هوش مصنوعی، امروز از راه‌اندازی Open RAG Eval، چارچوب ارزیابی RAG متن باز خود خبر داد.

این چارچوب، که با همکاری محققان دانشگاه واترلو توسعه یافته است، به کاربران سازمانی اجازه می‌دهد تا کیفیت پاسخ را برای هر جزء و پیکربندی سیستم‌های RAG خود ارزیابی کنند تا به سرعت و به طور مداوم دقت و قابلیت اطمینان عوامل هوش مصنوعی و سایر ابزارهای خود را بهینه کنند.

عمر عوض‌الله، بنیانگذار و مدیرعامل وکتارا، گفت: «پیاده‌سازی‌های هوش مصنوعی - به‌ویژه برای سیستم‌های RAG فعال - روز به روز پیچیده‌تر می‌شوند. گردش‌های کاری پیچیده، افزایش نگرانی‌های امنیتی و مشاهده‌پذیری همراه با مقررات قریب‌الوقوع، سازمان‌ها را به سمت استقرار سیستم‌های RAG سفارشی در حین پرواز به روش‌های فزاینده‌ای سوق می‌دهد. برای جلوگیری از به خطر انداختن کل استراتژی‌های هوش مصنوعی خود، این سازمان‌ها به روشی سازگار و دقیق برای ارزیابی عملکرد و کیفیت نیاز دارند. وکتارا با همکاری با پروفسور جیمی لین و تیم استثنایی او در دانشگاه واترلو، به طور فعال با Open RAG Eval ما این چالش را برطرف می‌کند.»

پروفسور جیمی لین، رئیس David R. Cheriton در دانشکده علوم کامپیوتر در دانشگاه واترلو است. او و اعضای تیمش در ایجاد معیارها و مجموعه‌داده‌های در سطح جهانی برای ارزیابی بازیابی اطلاعات پیشگام هستند.

پروفسور لین گفت: «عوامل هوش مصنوعی و سایر سیستم‌ها به طور فزاینده‌ای در نحوه عملکرد شرکت‌ها در امروز و نحوه برنامه‌ریزی آن‌ها برای رشد در آینده، محوریت پیدا می‌کنند. برای استفاده از وعده‌هایی که این فناوری‌ها ارائه می‌دهند، سازمان‌ها به روش‌های ارزیابی قوی نیاز دارند که دقت علمی و کاربرد عملی را برای ارزیابی و بهینه‌سازی مستمر سیستم‌های RAG خود ترکیب کنند. تیم من و من از همکاری با وکتارا برای ارائه یافته‌های تحقیقاتی خود به شرکت‌ها به گونه‌ای که دقت و قابلیت اطمینان سیستم‌های هوش مصنوعی را در سراسر جهان پیش ببرد، هیجان‌زده هستیم.»

Open RAG Eval برای تعیین صحت و سودمندی پاسخ‌های ارائه شده به درخواست‌های کاربر، بسته به اجزا و پیکربندی یک پشته RAG سازمانی طراحی شده است. این چارچوب کیفیت پاسخ را با توجه به دو دسته معیار اصلی ارزیابی می‌کند: معیارهای بازیابی و معیارهای تولید.

کاربران Open RAG Eval می‌توانند از این تکرار اول پلتفرم برای کمک به اطلاع‌رسانی به توسعه‌دهندگان این سیستم‌ها در مورد نحوه عملکرد یک خط لوله RAG در امتداد معیارهای انتخاب‌شده استفاده کنند. با بررسی این دسته‌های معیار، یک ارزیاب می‌تواند سیستم‌های «جعبه سیاه» را بر اساس امتیازهای جداگانه یا تجمیع‌شده مقایسه کند.

به عنوان مثال، نمره پایین ارتباط ممکن است نشان دهد که کاربر باید خط لوله بازیابی سیستم را ارتقا یا پیکربندی مجدد کند، یا اینکه هیچ اطلاعات مرتبطی در مجموعه داده وجود ندارد. در همین حال، نمرات تولید کمتر از حد انتظار ممکن است به این معنی باشد که سیستم باید از یک LLM قوی‌تر استفاده کند - در مواردی که، برای مثال، پاسخ تولید شده شامل توهمات است - یا اینکه کاربر باید درخواست‌های RAG خود را به روز کند.

چارچوب جدید برای ارزیابی یکپارچه هر خط لوله RAG، از جمله پلتفرم GenAI خود وکتارا یا هر راه حل RAG سفارشی دیگر طراحی شده است.

Open RAG Eval به تیم‌های هوش مصنوعی کمک می‌کند تا چنین چالش‌های استقرار و پیکربندی دنیای واقعی را حل کنند:
? آیا از تکه‌تکه کردن توکن ثابت استفاده کنیم یا تکه‌تکه کردن معنایی؛
? آیا از جستجوی ترکیبی یا برداری استفاده کنیم و چه مقداری را برای لامبدا در استقرارهای جستجوی ترکیبی استفاده کنیم. ?
? از کدام LLM استفاده کنیم و چگونه درخواست‌های RAG را بهینه کنیم؛
? از کدام آستانه برای تشخیص و اصلاح توهم استفاده کنیم و موارد دیگر.

تصمیم وکتارا برای راه‌اندازی Open RAG Eval به عنوان یک ابزار متن‌باز با مجوز Apache 2.0، نشان‌دهنده سابقه موفقیت این شرکت در ایجاد سایر استانداردهای صنعت در کاهش توهم با مدل ارزیابی توهمات Hughes (HHEM) متن‌باز خود است که بیش از 3.5 میلیون بار در Hugging Face دانلود شده است.

از آنجایی که سیستم‌های هوش مصنوعی به سرعت در حال رشد هستند - به ویژه با افزایش عامل - و با ادامه تکامل تکنیک‌های RAG، سازمان‌ها به چارچوب‌های ارزیابی هوش مصنوعی باز و قابل گسترش نیاز دارند تا به آنها کمک کند تا انتخاب‌های درستی داشته باشند. این امر به سازمان‌ها اجازه می‌دهد تا از داده‌های خود نیز استفاده کنند، معیارهای خود را اضافه کنند و سیستم‌های موجود خود را در برابر گزینه‌های جایگزین نوظهور اندازه گیری کنند. رویکرد منبع باز و قابل گسترش وکتارا به Open RAG Eval کمک می‌کند تا با فعال کردن مشارکت‌های مداوم از جامعه هوش مصنوعی، از این پویایی‌ها جلوتر بماند و در عین حال اطمینان حاصل کند که پیاده‌سازی هر معیار ارزیابی پیشنهادی و مشارکت شده به خوبی درک شده و برای بررسی و بهبود باز است.