روز گذشته، OpenAI از GPT-4.1 با پنجره متنی خیرهکننده ۱ میلیون توکنی و دقت بینقص سوزن در انبار کاه رونمایی کرد. Gemini 2.5 نیز اکنون با دسترسی به ۱۰ میلیون توکن در محیطهای تحقیقاتی، با این معیار ۱ میلیون توکنی مطابقت دارد. به عنوان بنیانگذار یک استارتآپ RAG (Retrieval-Augmented Generation) به عنوان سرویس، صندوق ورودی من به سرعت پر از پیامهایی شد که ادعا میکردند این پایان کار تولید افزوده شده با بازیابی است و پیشنهاد میکردند که زمان آن رسیده است تا تغییر مسیر دهیم.
نه به این زودی.
جذابیت - و واقعیت - پنجرههای متنی بزرگ
در ظاهر، پنجرههای متنی فوقالعاده بزرگ جذاب هستند. آنها وعده میدهند:
- رسیدگی آسان به مقادیر عظیمی از دادهها
- تعاملات ساده مبتنی بر API به طور مستقیم از ارائه دهندگان LLM (Large Language Model)
- یادآوری کامل اطلاعات جاسازی شده در متن ارائه شده
اما نکته اینجاست: هر کسی که استقرارهای زمینه بزرگ را در تولید امتحان کرده باشد میداند که واقعیت به سرعت از این وعدهها دور میشود.
هزینه و سرعت: گلوگاههای پنهان
محاسبات را در نظر بگیرید: یک پرس و جوی RAG معمولی از حدود ۱۰۰۰ توکن استفاده میکند. افزایش پنجره متنی به ۱ میلیون توکن، هزینه شما را ۱۰۰۰ برابر افزایش میدهد - از حدود ۰.۰۰۲ دلار به ۲ دلار در هر پرس و جو. نمایش GPT-4.1 روز گذشته توسط OpenAI، ۷۶ ثانیه برای یک درخواست ۴۵۶K توکنی طول کشید - آنقدر کند که حتی تیم نمایشی لحظهای تعجب کرد که آیا متوقف شده است.
گردشهای کاری عاملی این مشکل را تشدید میکنند
در برنامههای هوش مصنوعی مدرن، گردشهای کاری به طور فزایندهای عاملی میشوند، به این معنی که چندین فراخوانی و مرحله LLM قبل از ظهور یک نتیجه نهایی وجود دارد. مشکلات هزینه و تأخیر به طور تصاعدی ترکیب میشوند. رویکردهای زمینه بزرگ به سرعت برای گردشهای کاری تکراری در مقیاس تولید غیرقابل تحمل میشوند.
استنادها: یک شکاف حیاتی در مدلهای زمینه بزرگ
LLMهای با زمینه بزرگ فاقد پشتیبانی استناد داخلی هستند. کاربران انتظار نتایج قابل تأیید و توانایی ارجاع به منابع اصلی را دارند. سیستمهای RAG این مشکل را به طور ظریف با مشخص کردن دقیق تکههای محتوای مورد استفاده برای تولید پاسخها حل میکنند و شفافیت و اعتماد را ممکن میسازند.
مقیاس مهم است: پنجرههای متنی به تنهایی کافی نیستند
حتی در ۱ میلیون توکن (تقریباً ۲۰ کتاب)، زمینههای بزرگ به طور چشمگیری برای برنامههای جدی سازمانی کافی نیستند. یکی از مشتریان ما را در نظر بگیرید که پایگاه داده محتوای آن به میزان خیرهکننده ۶.۱ میلیارد توکن میرسد. یک پنجره متنی ۱۰ میلیون یا حتی ۱۰۰ میلیون توکنی سطح را خراش نمیدهد. Tokenomics در این مقیاس فرو میریزد و RAG را ضروری میکند.
آینده RAG
RAG نه تنها منسوخ نشده است، بلکه همچنان مقیاسپذیرترین، قابل تأییدترین و مقرونبهصرفهترین راه برای مدیریت و پرس و جو از دادههای در مقیاس سازمانی است. بله، پیشرفتهای آینده ممکن است در نهایت این شکافها را پر کند. اما تا آن زمان - و علیرغم پیشرفتهای اخیر - ما RAG را دو برابر میکنیم.
خلاصه: پنجره متنی ۱ میلیون توکنی GPT-4.1 چشمگیر است، اما برای موارد استفاده واقعی کافی نیست. RAG نمرده است. این هنوز ستون فقرات هوش مصنوعی در مقیاس سازمانی است.