نتایج معیار
نتایج معیار

Sequential-NIAH: معیاری برای ارزیابی مدل‌های زبانی بزرگ در استخراج اطلاعات ترتیبی از متون طولانی

ارزیابی میزان توانایی مدل‌های زبانی بزرگ (LLM) در مدیریت متون طولانی، به ویژه برای بازیابی اطلاعات خاص و مرتبط که در ورودی‌های طولانی جاسازی شده‌اند، ضروری است. بسیاری از مدل‌های زبانی بزرگ اخیر - مانند Gemini-1.5، GPT-4، Claude-3.5، Qwen-2.5 و غیره - مرزهای طول زمینه را جابجا کرده‌اند و در تلاش برای حفظ توانایی‌های استدلال قوی هستند. برای ارزیابی چنین قابلیت‌هایی، معیارهایی مانند 8Bench، LongBench و L-Eval توسعه یافته‌اند. با این حال، این معیارها اغلب از وظیفه "سوزن در انبار کاه" (NIAH) غافل می‌شوند که مدل‌ها را به چالش می‌کشد تا چند قطعه اطلاعات مهم را از محتوای عمدتاً نامربوط بازیابی کنند. معیارهای قبلی، مانند RULER و Counting-Stars، تنظیمات NIAH مصنوعی و ساده‌ای را ارائه می‌کردند و از مواردی مانند رمز عبور یا نمادها استفاده می‌کردند. NeedleBench این را با گنجاندن سوزن‌های واقعی‌تر و معنادارتر از نظر معنایی و سؤالات استدلال منطقی بهبود بخشید. با این حال، هنوز فاقد وظایفی است که شامل بازیابی و ترتیب صحیح اطلاعات ترتیبی، مانند مُهر زمانی یا مراحل رویه‌ای باشد.

تلاش‌ها برای افزایش قابلیت‌های مدل‌های زبانی بزرگ در زمینه‌های طولانی، از روش‌هایی مانند RoPE، ALiBi و تکنیک‌های مبتنی بر حافظه، همراه با تغییرات معماری مشاهده شده در مدل‌هایی مانند Mamba و FLASHBUTTERFLY استفاده کرده‌اند. مدل‌های زبانی بزرگ مدرن اکنون از زمینه‌های گسترده پشتیبانی می‌کنند - Gemini 1.5 و Kimi می‌توانند تا 1-2 میلیون توکن را پردازش کنند. معیارهای NIAH ارزیابی می‌کنند که مدل‌ها چقدر می‌توانند به طور مؤثر داده‌های مرتبط را از مقادیر زیادی متن استخراج کنند، و NeedleBench روابط منطقی را برای شبیه‌سازی سناریوهای دنیای واقعی بیشتر می‌کند. در مورد ارزیابی، عملکرد تولید زبان طبیعی (NLG) معمولاً با استفاده از معیارهای مشتق شده از مدل‌های زبانی بزرگ، ارزیابی‌های مبتنی بر اعلان، مدل‌های تنظیم‌شده یا همکاری‌های انسان و مدل زبانی بزرگ ارزیابی می‌شود. در حالی که اعلان به تنهایی اغلب عملکرد ضعیفی دارد، تنظیم دقیق و روش‌های انسان-در-حلقه می‌توانند دقت و قابلیت اطمینان ارزیابی را تا حد زیادی افزایش دهند.

محققان آزمایشگاه Tencent YouTu، معیار Sequential-NIAH را معرفی کرده‌اند که برای ارزیابی میزان بازیابی اطلاعات ترتیبی (که به آن سوزن گفته می‌شود) توسط مدل‌های زبانی بزرگ از متون طولانی طراحی شده است. این معیار شامل سوزن‌های پرسش و پاسخ مصنوعی، واقعی و دامنه-باز است که در زمینه‌هایی از 8K تا 128K توکن جاسازی شده‌اند و در مجموع 14000 نمونه را شامل می‌شود. یک مدل ارزیابی آموزش‌دیده با داده‌های مصنوعی به دقت 99.49٪ در قضاوت در مورد صحت و ترتیب پاسخ‌ها دست یافت. با این حال، آزمایش‌ها روی شش مدل زبانی بزرگ محبوب نشان داد که بالاترین عملکرد تنها 63.15٪ است، که دشواری این کار و نیاز به پیشرفت بیشتر در درک زمینه‌های طولانی را برجسته می‌کند.

معیار Sequential-NIAH برای ارزیابی مدل‌ها در بازیابی اطلاعات دارای ترتیب متوالی (سوزن‌ها) از متون طولانی (انبار کاه) طراحی شده است. این معیار از سه نوع خط لوله سنتز پرسش و پاسخ استفاده می‌کند: مصنوعی (رویدادهای تولید شده به ترتیب)، واقعی (استخراج شده از نمودارهای دانش زمانی) و پرسش و پاسخ دامنه-باز (پاسخ‌های منطقاً مرتب شده). این جفت‌های پرسش و پاسخ در متون طولانی و متنوعی که از پیکره LongData تهیه شده‌اند و حوزه‌های مختلف را پوشش می‌دهند، درج می‌شوند. برای ساخت نمونه‌ها، متن طولانی بخش‌بندی می‌شود، سوزن‌ها به طور تصادفی جابجا و جاسازی می‌شوند و این وظیفه با استفاده از الگوهای اعلان، چارچوب‌بندی می‌شود. مجموعه داده نهایی شامل 14000 نمونه است که بین مجموعه‌های آموزش، توسعه و آزمایش، به دو زبان انگلیسی و چینی تقسیم شده‌اند.

مدل ارزیابی در برابر Claude-3.5، GPT-4o و سایر مدل‌ها روی 1960 نمونه آزمایش شد و به دقت 99.49٪ دست یافت. این عملکرد از GPT-4o (96.07٪) و Claude-3.5 (87.09٪) با اختلاف قابل توجهی بهتر است. در آزمایش‌های معیار بعدی روی 2000 نمونه، Gemini-1.5 با دقت 63.15٪ از سایر مدل‌ها بهتر عمل کرد، در حالی که GPT-4o-mini و GPT-4o عملکرد ضعیفی داشتند. عملکرد با طول متن، تعداد سوزن‌ها، خطوط لوله سنتز پرسش و پاسخ و زبان‌ها متفاوت بود، و Gemini-1.5 نتایج پایداری را حفظ کرد. تجزیه و تحلیل نویز نشان داد که اختلالات جزئی تأثیر ناچیزی بر دقت دارند، اما تغییرات بزرگتر در موقعیت‌های سوزن، سازگاری مدل را کاهش می‌دهد، به ویژه برای Qwen-2.5 و LLaMA-3.3.

در پایان، معیار Sequential-NIAH، مدل‌های زبانی بزرگ را در توانایی استخراج اطلاعات ترتیبی از متون طولانی (تا 128000 توکن) ارزیابی می‌کند. این معیار شامل خطوط لوله پرسش و پاسخ مصنوعی، واقعی و دامنه-باز، با 14000 نمونه برای آموزش، توسعه و آزمایش است. با وجود آزمایش مدل‌های محبوب مانند Claude، GPT-4.0، Gemini، LLaMA و Qwen، هیچ‌کدام به دقت بالایی دست نیافتند، و بهترین عملکرد 63.15٪ بود. یک مدل ارزیابی مصنوعی به دقت 99.49٪ در داده‌های آزمایشی دست یافت. این معیار همچنین چالش‌های افزایش طول زمینه و تعداد سوزن‌ها را برجسته می‌کند و از طریق آزمایش‌های قوی بودن در برابر نویز اعتبارسنجی می‌شود و آن را برای پیشبرد تحقیقات مدل زبانی بزرگ ارزشمند می‌سازد.