ارزیابی میزان توانایی مدلهای زبانی بزرگ (LLM) در مدیریت متون طولانی، به ویژه برای بازیابی اطلاعات خاص و مرتبط که در ورودیهای طولانی جاسازی شدهاند، ضروری است. بسیاری از مدلهای زبانی بزرگ اخیر - مانند Gemini-1.5، GPT-4، Claude-3.5، Qwen-2.5 و غیره - مرزهای طول زمینه را جابجا کردهاند و در تلاش برای حفظ تواناییهای استدلال قوی هستند. برای ارزیابی چنین قابلیتهایی، معیارهایی مانند 8Bench، LongBench و L-Eval توسعه یافتهاند. با این حال، این معیارها اغلب از وظیفه "سوزن در انبار کاه" (NIAH) غافل میشوند که مدلها را به چالش میکشد تا چند قطعه اطلاعات مهم را از محتوای عمدتاً نامربوط بازیابی کنند. معیارهای قبلی، مانند RULER و Counting-Stars، تنظیمات NIAH مصنوعی و سادهای را ارائه میکردند و از مواردی مانند رمز عبور یا نمادها استفاده میکردند. NeedleBench این را با گنجاندن سوزنهای واقعیتر و معنادارتر از نظر معنایی و سؤالات استدلال منطقی بهبود بخشید. با این حال، هنوز فاقد وظایفی است که شامل بازیابی و ترتیب صحیح اطلاعات ترتیبی، مانند مُهر زمانی یا مراحل رویهای باشد.
تلاشها برای افزایش قابلیتهای مدلهای زبانی بزرگ در زمینههای طولانی، از روشهایی مانند RoPE، ALiBi و تکنیکهای مبتنی بر حافظه، همراه با تغییرات معماری مشاهده شده در مدلهایی مانند Mamba و FLASHBUTTERFLY استفاده کردهاند. مدلهای زبانی بزرگ مدرن اکنون از زمینههای گسترده پشتیبانی میکنند - Gemini 1.5 و Kimi میتوانند تا 1-2 میلیون توکن را پردازش کنند. معیارهای NIAH ارزیابی میکنند که مدلها چقدر میتوانند به طور مؤثر دادههای مرتبط را از مقادیر زیادی متن استخراج کنند، و NeedleBench روابط منطقی را برای شبیهسازی سناریوهای دنیای واقعی بیشتر میکند. در مورد ارزیابی، عملکرد تولید زبان طبیعی (NLG) معمولاً با استفاده از معیارهای مشتق شده از مدلهای زبانی بزرگ، ارزیابیهای مبتنی بر اعلان، مدلهای تنظیمشده یا همکاریهای انسان و مدل زبانی بزرگ ارزیابی میشود. در حالی که اعلان به تنهایی اغلب عملکرد ضعیفی دارد، تنظیم دقیق و روشهای انسان-در-حلقه میتوانند دقت و قابلیت اطمینان ارزیابی را تا حد زیادی افزایش دهند.
محققان آزمایشگاه Tencent YouTu، معیار Sequential-NIAH را معرفی کردهاند که برای ارزیابی میزان بازیابی اطلاعات ترتیبی (که به آن سوزن گفته میشود) توسط مدلهای زبانی بزرگ از متون طولانی طراحی شده است. این معیار شامل سوزنهای پرسش و پاسخ مصنوعی، واقعی و دامنه-باز است که در زمینههایی از 8K تا 128K توکن جاسازی شدهاند و در مجموع 14000 نمونه را شامل میشود. یک مدل ارزیابی آموزشدیده با دادههای مصنوعی به دقت 99.49٪ در قضاوت در مورد صحت و ترتیب پاسخها دست یافت. با این حال، آزمایشها روی شش مدل زبانی بزرگ محبوب نشان داد که بالاترین عملکرد تنها 63.15٪ است، که دشواری این کار و نیاز به پیشرفت بیشتر در درک زمینههای طولانی را برجسته میکند.
معیار Sequential-NIAH برای ارزیابی مدلها در بازیابی اطلاعات دارای ترتیب متوالی (سوزنها) از متون طولانی (انبار کاه) طراحی شده است. این معیار از سه نوع خط لوله سنتز پرسش و پاسخ استفاده میکند: مصنوعی (رویدادهای تولید شده به ترتیب)، واقعی (استخراج شده از نمودارهای دانش زمانی) و پرسش و پاسخ دامنه-باز (پاسخهای منطقاً مرتب شده). این جفتهای پرسش و پاسخ در متون طولانی و متنوعی که از پیکره LongData تهیه شدهاند و حوزههای مختلف را پوشش میدهند، درج میشوند. برای ساخت نمونهها، متن طولانی بخشبندی میشود، سوزنها به طور تصادفی جابجا و جاسازی میشوند و این وظیفه با استفاده از الگوهای اعلان، چارچوببندی میشود. مجموعه داده نهایی شامل 14000 نمونه است که بین مجموعههای آموزش، توسعه و آزمایش، به دو زبان انگلیسی و چینی تقسیم شدهاند.
مدل ارزیابی در برابر Claude-3.5، GPT-4o و سایر مدلها روی 1960 نمونه آزمایش شد و به دقت 99.49٪ دست یافت. این عملکرد از GPT-4o (96.07٪) و Claude-3.5 (87.09٪) با اختلاف قابل توجهی بهتر است. در آزمایشهای معیار بعدی روی 2000 نمونه، Gemini-1.5 با دقت 63.15٪ از سایر مدلها بهتر عمل کرد، در حالی که GPT-4o-mini و GPT-4o عملکرد ضعیفی داشتند. عملکرد با طول متن، تعداد سوزنها، خطوط لوله سنتز پرسش و پاسخ و زبانها متفاوت بود، و Gemini-1.5 نتایج پایداری را حفظ کرد. تجزیه و تحلیل نویز نشان داد که اختلالات جزئی تأثیر ناچیزی بر دقت دارند، اما تغییرات بزرگتر در موقعیتهای سوزن، سازگاری مدل را کاهش میدهد، به ویژه برای Qwen-2.5 و LLaMA-3.3.
در پایان، معیار Sequential-NIAH، مدلهای زبانی بزرگ را در توانایی استخراج اطلاعات ترتیبی از متون طولانی (تا 128000 توکن) ارزیابی میکند. این معیار شامل خطوط لوله پرسش و پاسخ مصنوعی، واقعی و دامنه-باز، با 14000 نمونه برای آموزش، توسعه و آزمایش است. با وجود آزمایش مدلهای محبوب مانند Claude، GPT-4.0، Gemini، LLaMA و Qwen، هیچکدام به دقت بالایی دست نیافتند، و بهترین عملکرد 63.15٪ بود. یک مدل ارزیابی مصنوعی به دقت 99.49٪ در دادههای آزمایشی دست یافت. این معیار همچنین چالشهای افزایش طول زمینه و تعداد سوزنها را برجسته میکند و از طریق آزمایشهای قوی بودن در برابر نویز اعتبارسنجی میشود و آن را برای پیشبرد تحقیقات مدل زبانی بزرگ ارزشمند میسازد.