کمتر، بیشتر است: چرا بازیابی اسناد کمتر می‌تواند پاسخ‌های هوش مصنوعی را بهبود بخشد

تولید افزوده با بازیابی (RAG)رویکردی برای ساخت سیستم‌های هوش مصنوعی است که یک مدل زبانی را با یک منبع دانش خارجی ترکیب می‌کند. به زبان ساده، هوش مصنوعی ابتدا اسناد مرتبط (مانند مقالات یا صفحات وب) مربوط به پرسش کاربر را جستجو می‌کند و سپس از آن اسناد برای تولید پاسخ دقیق‌تر استفاده می‌کند. این روش به دلیل کمک به مدل‌های زبانی بزرگ (LLMs)برای حفظ واقعیت‌گرایی و کاهش توهمات از طریق استناد پاسخ‌هایشان به داده‌های واقعی، مورد تحسین قرار گرفته است.

به طور شهودی، ممکن است فرد فکر کند که هرچه هوش مصنوعی اسناد بیشتری را بازیابی کند، پاسخ آن آگاهانه‌تر خواهد بود. با این حال، تحقیقات اخیر پیچیدگی شگفت‌انگیزی را نشان می‌دهد: وقتی صحبت از تغذیه اطلاعات به هوش مصنوعی می‌شود، گاهی اوقات کمتر، بیشتر است.

اسناد کمتر، پاسخ‌های بهتر

یک مطالعه جدیدتوسط پژوهشگران دانشگاه عبری اورشلیم بررسی کرد که چگونه تعداداسناد ارائه شده به یک سیستم RAG بر عملکرد آن تأثیر می‌گذارد. نکته مهم این است که آن‌ها مقدار کل متن را ثابت نگه داشتند - به این معنی که اگر اسناد کمتری ارائه می‌شد، آن اسناد کمی گسترش می‌یافتند تا همان طولی را که اسناد بسیار پر می‌کردند، اشغال کنند. به این ترتیب، هرگونه تفاوت عملکردی را می‌توان به کمیت اسناد نسبت داد، نه صرفاً داشتن ورودی کوتاه‌تر.

پژوهشگران از یک مجموعه داده پرسش و پاسخ (MuSiQue) با سؤالات اطلاعات عمومی استفاده کردند که هر کدام در ابتدا با ۲۰ پاراگراف ویکی‌پدیا جفت شده بودند (که فقط تعداد کمی از آن‌ها واقعاً حاوی پاسخ هستند و بقیه عوامل حواس‌پرتی هستند). با کاهش تعداد اسناد از ۲۰ به تنها ۲ تا ۴ سند واقعاً مرتبط - و پر کردن آن‌ها با کمی زمینه اضافی برای حفظ طول ثابت - سناریوهایی ایجاد کردند که در آن هوش مصنوعی مواد کمتری برای بررسی داشت، اما همچنان تقریباً همان تعداد کل کلمات را برای خواندن در اختیار داشت.

نتایج چشمگیر بود. در بیشتر موارد، مدل‌های هوش مصنوعی زمانی که اسناد کمتری به جای مجموعه کامل به آن‌ها داده می‌شد، دقیق‌تر پاسخ می‌دادند. عملکرد به طور قابل توجهی بهبود یافت - در برخی موارد تا ۱۰٪ در دقت (امتیاز F1) زمانی که سیستم فقط از تعداد انگشت شماری از اسناد پشتیبان به جای مجموعه بزرگ استفاده می‌کرد. این افزایش غیرمنتظره در چندین مدل زبانی منبع باز مختلف، از جمله انواع Llama متا و دیگران، مشاهده شد که نشان می‌دهد این پدیده به یک مدل هوش مصنوعی واحد وابسته نیست.

یک مدل (Qwen-2) استثنای قابل توجهی بود که چندین سند را بدون افت امتیاز مدیریت کرد، اما تقریباً تمام مدل‌های آزمایش شده در کل با اسناد کمتر عملکرد بهتری داشتند. به عبارت دیگر، افزودن مواد مرجع بیشتر فراتر از قطعات کلیدی مرتبط، بیشتر به عملکرد آن‌ها آسیب می‌رساند تا اینکه کمک کند.

نمودار مقایسه عملکرد مدل‌های RAG با تعداد اسناد مختلف
منبع: لوی و همکاران.

چرا اینقدر تعجب آور است؟ به طور معمول، سیستم‌های RAG تحت این فرض طراحی می‌شوند که بازیابی بخش وسیع‌تری از اطلاعات فقط می‌تواند به هوش مصنوعی کمک کند - بالاخره، اگر پاسخ در چند سند اول نباشد، ممکن است در سند دهم یا بیستم باشد.

این مطالعه این تصور را زیر و رو می‌کند و نشان می‌دهد که انباشتن بی‌رویه اسناد اضافی می‌تواند نتیجه معکوس داشته باشد. حتی زمانی که طول کل متن ثابت نگه داشته شد، صرف وجود اسناد مختلف (هر کدام با زمینه و ویژگی‌های خاص خود) کار پرسش و پاسخ را برای هوش مصنوعی چالش‌برانگیزتر کرد. به نظر می‌رسد که فراتر از یک نقطه خاص، هر سند اضافی بیشتر از سیگنال، نویز وارد می‌کند، مدل را گیج می‌کند و توانایی آن را در استخراج پاسخ صحیح مختل می‌نماید.

چرا کمتر می‌تواند در RAG بیشتر باشد

این نتیجه "کمتر، بیشتر است" زمانی منطقی به نظر می‌رسد که نحوه پردازش اطلاعات توسط مدل‌های زبانی هوش مصنوعی را در نظر بگیریم. هنگامی که به هوش مصنوعی فقط مرتبط‌ترین اسناد داده می‌شود، زمینه‌ای که می‌بیند متمرکز و عاری از حواس‌پرتی است، بسیار شبیه به دانش‌آموزی که فقط صفحات مناسب برای مطالعه به او داده شده است.

در این مطالعه، مدل‌ها زمانی که فقط اسناد پشتیبان به آن‌ها داده می‌شد و مطالب نامربوط حذف می‌شد، عملکرد بهتری داشتند. زمینه باقی‌مانده نه تنها کوتاه‌تر بلکه تمیزتر نیز بود - حاوی حقایقی بود که مستقیماً به پاسخ اشاره می‌کرد و نه هیچ چیز دیگر. با داشتن اسناد کمتری برای مدیریت، مدل می‌توانست تمام توجه خود را به اطلاعات مربوطه معطوف کند و احتمال منحرف شدن یا گیج شدن آن کمتر بود.

از سوی دیگر، هنگامی که اسناد زیادی بازیابی می‌شد، هوش مصنوعی باید ترکیبی از محتوای مرتبط و نامربوط را غربال می‌کرد. اغلب این اسناد اضافی "مشابه اما نامربوط" بودند - ممکن است موضوع یا کلمات کلیدی مشترکی با پرسش داشته باشند اما در واقع حاوی پاسخ نباشند. چنین محتوایی می‌تواند مدل را گمراه کند. هوش مصنوعی ممکن است تلاش خود را برای اتصال نقاط بین اسنادی که در واقع به پاسخ صحیح منجر نمی‌شوند، هدر دهد، یا بدتر از آن، ممکن است اطلاعات را از منابع متعدد به اشتباه ادغام کند. این امر خطر توهمات را افزایش می‌دهد - مواردی که هوش مصنوعی پاسخی را تولید می‌کند که قابل قبول به نظر می‌رسد اما در هیچ منبع واحدی ریشه ندارد.

در اصل، تغذیه بیش از حد اسناد به مدل می‌تواند اطلاعات مفید را رقیق کرده و جزئیات متناقضی را معرفی کند و تصمیم‌گیری در مورد صحت مطالب را برای هوش مصنوعی دشوارتر سازد.

جالب توجه است که پژوهشگران دریافتند اگر اسناد اضافی آشکارا نامربوط باشند (به عنوان مثال، متن تصادفی نامربوط)، مدل‌ها در نادیده گرفتن آن‌ها بهتر عمل می‌کردند. مشکل واقعی از داده‌های منحرف‌کننده‌ای ناشی می‌شود که مرتبط به نظر می‌رسند: وقتی همه متون بازیابی شده در مورد موضوعات مشابه هستند، هوش مصنوعی فرض می‌کند که باید از همه آن‌ها استفاده کند و ممکن است در تشخیص اینکه کدام جزئیات واقعاً مهم هستند، دچار مشکل شود. این با مشاهده مطالعه مطابقت دارد کهعوامل حواس‌پرتی تصادفی نسبت به عوامل حواس‌پرتی واقعی باعث سردرگمی کمتری شدنددر ورودی. هوش مصنوعی می‌تواند مزخرفات آشکار را فیلتر کند، اما اطلاعات نامربوط ظریف یک تله ماهرانه است - تحت پوشش ارتباط پنهان می‌شود و پاسخ را منحرف می‌کند. با کاهش تعداد اسناد به موارد واقعاً ضروری، از ایجاد این تله‌ها در وهله اول جلوگیری می‌کنیم.

همچنین یک مزیت عملی وجود دارد: بازیابی و پردازش اسناد کمتر، سربار محاسباتی را برای یک سیستم RAG کاهش می‌دهد. هر سندی که وارد می‌شود باید تجزیه و تحلیل شود (تعبیه، خوانده و توسط مدل مورد توجه قرار گیرد)، که از زمان و منابع محاسباتی استفاده می‌کند. حذف اسناد اضافی سیستم را کارآمدتر می‌کند - می‌تواند پاسخ‌ها را سریعتر و با هزینه کمتر پیدا کند. در سناریوهایی که دقت با تمرکز بر منابع کمتر بهبود یافته است، به یک برد-برد دست می‌یابیم: پاسخ‌های بهتر و فرآیندی کارآمدتر و بهینه‌تر.

نمودار افقی نشان‌دهنده تأثیر تعداد اسناد بر دقت RAG
منبع: لوی و همکاران.

بازاندیشی در RAG: مسیرهای آینده

این شواهد جدید مبنی بر اینکه کیفیت اغلب بر کمیت در بازیابی غلبه می‌کند، پیامدهای مهمی برای آینده سیستم‌های هوش مصنوعی دارد که به دانش خارجی متکی هستند. این نشان می‌دهد که طراحان سیستم‌های RAG باید فیلتر کردن هوشمند و رتبه‌بندی اسناد را بر حجم محض اولویت دهند. به جای واکشی ۱۰۰ قطعه ممکن و امید به اینکه پاسخ در جایی در آنجا پنهان شده باشد، ممکن است عاقلانه‌تر باشد که فقط چند مورد برتر بسیار مرتبط را واکشی کنیم.

نویسندگان مطالعه بر لزوم روش‌های بازیابی برای "ایجاد تعادل بین ارتباط و تنوع" در اطلاعاتی که به یک مدل ارائه می‌دهند، تأکید می‌کنند. به عبارت دیگر، ما می‌خواهیم پوشش کافی از موضوع را برای پاسخ به سؤال فراهم کنیم، اما نه آنقدر که حقایق اصلی در دریایی از متن اضافی غرق شوند.

در آینده، پژوهشگران احتمالاً تکنیک‌هایی را بررسی خواهند کرد که به مدل‌های هوش مصنوعی کمک می‌کند تا چندین سند را با ظرافت بیشتری مدیریت کنند. یک رویکرد، توسعه سیستم‌های بازیابی بهتر یا رتبه‌بندی مجدد است که می‌تواند تشخیص دهد کدام اسناد واقعاً ارزش افزوده دارند و کدام‌ها فقط تضاد ایجاد می‌کنند. زاویه دیگر، بهبود خود مدل‌های زبانی است: اگر یک مدل (مانند Qwen-2) توانست با اسناد زیادی بدون از دست دادن دقت کنار بیاید، بررسی نحوه آموزش یا ساختار آن می‌تواند سرنخ‌هایی برای مقاوم‌تر کردن سایر مدل‌ها ارائه دهد. شاید مدل‌های زبانی بزرگ آینده مکانیسم‌هایی را برای تشخیص اینکه دو منبع یک چیز را می‌گویند (یا با یکدیگر تناقض دارند) و بر اساس آن تمرکز کنند، در خود جای دهند. هدف این خواهد بود که مدل‌ها بتوانند از طیف گسترده‌ای از منابع بدون افتادن در دام سردرگمی استفاده کنند - و به طور مؤثر بهترین‌های هر دو جهان (وسعت اطلاعات و وضوح تمرکز) را به دست آورند.

همچنین شایان ذکر است که با افزایش پنجره‌های زمینه بزرگتر سیستم‌های هوش مصنوعی(توانایی خواندن متن بیشتر به یکباره)، صرفاً ریختن داده‌های بیشتر در اعلان، یک راه‌حل جادویی نیست. زمینه بزرگتر به طور خودکار به معنای درک بهتر نیست. این مطالعه نشان می‌دهد که حتی اگر یک هوش مصنوعی بتواند به لحاظ فنی ۵۰ صفحه را در یک زمان بخواند، دادن ۵۰ صفحه اطلاعات با کیفیت مختلط ممکن است نتیجه خوبی به همراه نداشته باشد. مدل همچنان از داشتن محتوای منتخب و مرتبط برای کار کردن بهره می‌برد، نه یک تخلیه بی‌رویه. در واقع، بازیابی هوشمند ممکن است در عصر پنجره‌های زمینه غول‌پیکر حتی حیاتی‌تر شود - تا اطمینان حاصل شود که ظرفیت اضافی برای دانش ارزشمند به جای نویز استفاده می‌شود.

یافته‌های مقاله«اسناد بیشتر، طول یکسان»(عنوان مناسب مقاله) بازنگری در مفروضات ما در تحقیقات هوش مصنوعی را تشویق می‌کند. گاهی اوقات، تغذیه تمام داده‌هایی که داریم به هوش مصنوعی آنقدر که فکر می‌کنیم مؤثر نیست. با تمرکز بر مرتبط‌ترین قطعات اطلاعات، نه تنها دقت پاسخ‌های تولید شده توسط هوش مصنوعی را بهبود می‌بخشیم، بلکه سیستم‌ها را کارآمدتر و قابل اعتمادتر می‌کنیم. این یک درس غیرمنتظره است، اما درسی با پیامدهای هیجان‌انگیز: سیستم‌های RAG آینده ممکن است با انتخاب دقیق اسناد کمتر و بهتر، هم هوشمندتر و هم بهینه‌تر باشند.