دستیابی به قابلیت اطمینان حیاتی در پیروی از دستورالعمل‌ها با مدل‌های زبانی بزرگ

تضمین قابلیت اطمینان در پیروی از دستورالعمل‌ها در مدل‌های زبانی بزرگ (LLM) همچنان یک چالش مهم است. این امر به ویژه در برنامه‌های کاربردی مرتبط با مشتری، که در آن اشتباهات می‌توانند پرهزینه باشند، اهمیت دارد. تکنیک‌های مهندسی سریع سنتی نمی‌توانند نتایج ثابتی ارائه دهند. یک رویکرد ساختاریافته‌تر و مدیریت‌شده‌تر برای بهبود انطباق با قوانین کسب‌وکار ضمن حفظ انعطاف‌پذیری ضروری است.

این مقاله نوآوری‌های کلیدی، از جمله دستورالعمل‌های اتمی دانه‌بندی شده، ارزیابی پویا و فیلتر کردن دستورالعمل‌ها، و پرسش‌های استدلال توجهی (ARQ) را بررسی می‌کند، ضمن اینکه محدودیت‌ها و مصالحه‌های پیاده‌سازی را نیز در نظر می‌گیرد.

چالش: عملکرد ناهمگون هوش مصنوعی در خدمات مشتری

مدل‌های زبانی بزرگ در حال حاضر ارزش تجاری ملموسی را هنگام استفاده به عنوان دستیار برای نمایندگان انسانی در سناریوهای خدمات مشتری ارائه می‌دهند. با این حال، قابلیت اطمینان آن‌ها به عنوان عوامل مستقل و رو در رو با مشتری همچنان یک چالش است.

رویکردهای سنتی برای توسعه برنامه‌های کاربردی مکالمه‌ای LLM اغلب در موارد استفاده دنیای واقعی با شکست مواجه می‌شوند. دو رویکرد رایج عبارتند از:

مهندسی سریع تکراری، که منجر به رفتار ناهمگون و غیرقابل پیش‌بینی می‌شود.
پردازش مبتنی بر فلوچارت، که جادوی واقعی تعاملات مبتنی بر LLM را قربانی می‌کند: تعاملات پویا، روان و شبیه به انسان.

در برنامه‌های کاربردی سطح بالا که با مشتری سروکار دارند، مانند بانکداری، حتی اشتباهات جزئی می‌توانند عواقب جدی داشته باشند. به عنوان مثال، یک فراخوانی API که به اشتباه اجرا شده باشد (مانند انتقال پول) می‌تواند منجر به طرح دعوی و آسیب به شهرت شود. برعکس، تعاملات مکانیکی که فاقد طبیعی بودن و صمیمیت هستند، به اعتماد و مشارکت مشتری آسیب می‌رسانند و نرخ مهار را محدود می‌کنند (مواردی که بدون مداخله انسانی حل می‌شوند).

برای اینکه مدل‌های زبانی بزرگ به پتانسیل کامل خود به عنوان عوامل پویا و مستقل در موارد واقعی برسند، باید آنها را وادار کنیم تا دستورالعمل‌های خاص کسب‌وکار را به طور مداوم و در مقیاس بزرگ دنبال کنند، ضمن اینکه انعطاف‌پذیری تعاملات طبیعی و روان را حفظ می‌کنند.

چگونه یک عامل خدمات مشتری مستقل و قابل اعتماد با مدل‌های زبانی بزرگ ایجاد کنیم

برای رفع این شکاف‌ها در مدل‌های زبانی بزرگ و رویکردهای فعلی، و دستیابی به سطحی از قابلیت اطمینان و کنترل که در موارد واقعی به خوبی کار می‌کند، باید رویکردهایی را که با شکست مواجه شده‌اند، زیر سوال ببریم.

یکی از اولین سوالاتی که هنگام شروع کار بر روی Parlant (یک چارچوب منبع باز برای عامل‌های هوش مصنوعی رو در رو با مشتری) داشتم این بود: "اگر یک عامل هوش مصنوعی در رسیدگی به یک سناریوی خاص مشتری دچار سوء مدیریت شود، فرآیند بهینه برای رفع آن چه خواهد بود؟" افزودن خواسته‌های بیشتر به یک درخواست از قبل طولانی، مانند "در اینجا نحوه برخورد با سناریو X آمده است..."، مدیریت آن به سرعت پیچیده می‌شود و نتایج به هر حال سازگار نبودند. گذشته از آن، افزودن آن دستورالعمل‌ها بدون قید و شرط، یک خطر هم ترازی ایجاد می‌کرد، زیرا مدل‌های زبانی بزرگ ذاتاً توسط ورودی خود دچار سوگیری می‌شوند. بنابراین مهم بود که دستورالعمل‌های مربوط به سناریو X به سناریوهای دیگر که احتمالاً به رویکرد متفاوتی نیاز داشتند، نفوذ نکند.

بنابراین متوجه شدیم که دستورالعمل‌ها باید فقط در زمینه مورد نظر خود اعمال شوند. این منطقی بود، زیرا در زندگی واقعی، وقتی رفتار نامطلوبی را در زمان واقعی در تعامل خدمات مشتری مشاهده می‌کنیم، معمولاً می‌دانیم چگونه آن را اصلاح کنیم: ما می‌توانیم هم آنچه را که باید بهبود یابد و هم زمینه‌ای را که بازخورد ما باید در آن اعمال شود، مشخص کنیم. به عنوان مثال، "هنگام بحث در مورد مزایای طرح ممتاز، مختصر و سرراست باشید"، اما "هنگام مقایسه پیشنهاد ما با سایر راه حل‌ها، مایل باشید پیشنهاد خود را به تفصیل توضیح دهید."

علاوه بر این زمینه‌ای کردن دستورالعمل‌ها، در آموزش یک عامل بسیار توانمند که می‌تواند بسیاری از موارد استفاده را مدیریت کند، به وضوح باید بسیاری از دستورالعمل‌ها را در طول زمان تنظیم کنیم، زیرا رفتار عامل خود را با نیازها و ترجیحات کسب‌وکار شکل می‌دهیم. ما به یک رویکرد سیستماتیک نیاز داشتیم.

با عقب‌نشینی و بازنگری، از اصول اولیه، انتظارات ایده‌آل خود از تعاملات مدرن مبتنی بر هوش مصنوعی و نحوه توسعه آنها، این چیزی است که ما در مورد اینکه این تعاملات چگونه باید برای مشتریان احساس شود، فهمیدیم:

همدلانه و منسجم: مشتریان هنگام استفاده از هوش مصنوعی باید احساس کنند در دستان خوبی هستند.
روان، مانند پیام‌رسانی فوری (IM): به مشتریان اجازه می‌دهد تا موضوعات را به عقب و جلو تغییر دهند، خود را با استفاده از چندین پیام بیان کنند و در مورد چندین موضوع به طور همزمان سوال کنند.
شخصی‌سازی شده: باید احساس کنید که عامل هوش مصنوعی می‌داند با شما صحبت می‌کند و زمینه شما را درک می‌کند.

از دیدگاه توسعه‌دهنده، ما نیز متوجه شدیم که:

ایجاد UX مکالمه‌ای مناسب یک فرآیند تکاملی است. ما باید بتوانیم با اطمینان رفتار عامل را در زمینه‌های مختلف، به سرعت و به آسانی، بدون نگرانی در مورد شکستن رفتار موجود، تغییر دهیم.
دستورالعمل‌ها باید به طور مداوم مورد احترام قرار گیرند. انجام این کار با مدل‌های زبانی بزرگ که ذاتاً موجوداتی غیرقابل پیش‌بینی هستند، دشوار است. یک راه حل نوآورانه مورد نیاز بود.
تصمیمات عامل باید شفاف باشد. طیف مسائل احتمالی مربوط به زبان طبیعی و رفتار بسیار گسترده است. حل مسائل مربوط به پیروی از دستورالعمل‌ها بدون نشانه‌های واضحی از اینکه یک عامل چگونه دستورالعمل‌های ما را در یک سناریوی خاص تفسیر کرده است، در محیط‌های تولید با ضرب‌الاجل بسیار غیرعملی خواهد بود.

پیاده‌سازی اهداف طراحی Parlant

چالش اصلی ما این بود که چگونه رفتار یک عامل هوش مصنوعی را کنترل و تنظیم کنیم و در عین حال اطمینان حاصل کنیم که دستورالعمل‌ها بیهوده گفته نمی‌شوند - که عامل هوش مصنوعی آنها را به طور دقیق و مداوم پیاده‌سازی می‌کند. این منجر به یک تصمیم طراحی استراتژیک شد: دستورالعمل‌های اتمی دانه‌بندی شده.

1. دستورالعمل‌های اتمی دانه‌بندی شده

درخواست‌های پیچیده اغلب مدل‌های زبانی بزرگ را تحت تأثیر قرار می‌دهند و منجر به خروجی‌های ناقص یا ناسازگار با توجه به دستورالعمل‌هایی که مشخص می‌کنند، می‌شوند. ما این مشکل را در Parlant با حذف درخواست‌های گسترده برای دستورالعمل‌های اتمی مستقل حل کردیم. هر دستورالعمل شامل:

شرط: یک پرسش به زبان طبیعی که تعیین می‌کند چه زمانی دستورالعمل باید اعمال شود (به عنوان مثال، "مشتری در مورد بازپرداخت سوال می‌کند...")
عمل: دستورالعمل خاصی که LLM باید دنبال کند (به عنوان مثال، "جزئیات سفارش را تأیید کنید و یک مرور کلی از روند بازپرداخت ارائه دهید.")

با تقسیم دستورالعمل‌ها به واحدهای قابل مدیریت و به طور سیستماتیک متمرکز کردن توجه خود بر روی هر یک به طور همزمان، می‌توانیم LLM را وادار کنیم تا آنها را با دقت بیشتری ارزیابی و اعمال کند.

2. مکانیسم فیلتر و نظارت

مدل‌های زبانی بزرگ به شدت تحت تأثیر محتوای درخواست‌های خود قرار می‌گیرند، حتی اگر بخش‌هایی از درخواست مستقیماً به مکالمه در دست نباشد.

به جای ارائه همه دستورالعمل‌ها به طور همزمان، ما Parlant را به طور پویا مطابقت دادیم و فقط مجموعه دستورالعمل‌های مرتبط را در هر مرحله از مکالمه اعمال کردیم. این تطبیق در زمان واقعی می‌تواند برای موارد زیر مورد استفاده قرار گیرد:

کاهش بار شناختی برای LLM: ما از نشت درخواست جلوگیری می‌کنیم و تمرکز مدل را بر روی دستورالعمل‌های مناسب افزایش می‌دهیم که منجر به سازگاری بالاتر می‌شود.
نظارت: ما یک مکانیزم برای برجسته کردن تأثیر هر دستورالعمل و اعمال کاربرد آن اضافه کردیم و انطباق را در سراسر هیئت مدیره افزایش دادیم.
قابلیت توضیح: هر ارزیابی و تصمیمی که توسط سیستم ایجاد می‌شود شامل یک منطق است که جزئیات نحوه تفسیر دستورالعمل‌ها و استدلال پشت پرش یا فعال کردن آنها در هر نقطه از مکالمه را شرح می‌دهد.
بهبود مستمر: با نظارت بر اثربخشی دستورالعمل و تفسیر عامل، توسعه‌دهندگان می‌توانند به راحتی رفتار هوش مصنوعی خود را در طول زمان اصلاح کنند. از آنجایی که دستورالعمل‌ها اتمی و نظارت شده هستند، می‌توانید به راحتی تغییرات ساختاریافته‌ای را بدون شکستن درخواست‌های شکننده ایجاد کنید.

3. پرسش‌های استدلال توجهی (ARQ)

در حالی که درخواست "زنجیره تفکر" (CoT) استدلال را بهبود می‌بخشد، اما در توانایی خود برای حفظ پاسخ‌های سازگار و حساس به زمینه در طول زمان محدود است. Parlant پرسش‌های استدلال توجهی (ARQ) را معرفی می‌کند - تکنیکی که ما برای اطمینان از اینکه استدلال چند مرحله‌ای مؤثر، دقیق و قابل پیش‌بینی باقی می‌ماند، حتی در هزاران اجرا، ابداع کرده‌ایم. می‌توانید مقاله تحقیقاتی ما در مورد ARQها در مقابل CoT را در parlant.io و arxiv.org پیدا کنید.

ARQها با هدایت توجه LLM به دستورالعمل‌های با اولویت بالا در نقاط کلیدی در فرآیند تولید پاسخ، کار می‌کنند و LLM را وادار می‌کنند تا به آن دستورالعمل‌ها توجه کند و درست قبل از نیاز به اعمال آنها در مورد آنها استدلال کند. ما دریافتیم که "محلی‌سازی" استدلال در اطراف بخشی از پاسخ که در آن یک دستورالعمل خاص باید اعمال شود، دقت و سازگاری بسیار بیشتری نسبت به یک فرآیند استدلال مقدماتی و غیرخاص مانند CoT ارائه می‌دهد.

اذعان به محدودیت‌ها

در حالی که این نوآوری‌ها پیروی از دستورالعمل‌ها را بهبود می‌بخشند، چالش‌هایی وجود دارد که باید در نظر گرفته شوند:

سربار محاسباتی: پیاده‌سازی مکانیسم‌های فیلتر و استدلال زمان پردازش را افزایش می‌دهد. با این حال، با بهبود سخت‌افزار و LLMها روز به روز، ما این را یک انتخاب طراحی استراتژیک احتمالا بحث‌برانگیز دیدیم.
رویکردهای جایگزین: در برخی از برنامه‌های کم‌خطر، مانند خلبان‌های کمکی هوش مصنوعی، روش‌های ساده‌تر مانند تنظیم سریع یا رویکردهای مبتنی بر گردش کار اغلب کافی هستند.

چرا سازگاری برای هوش مصنوعی مکالمه‌ای درجه سازمانی بسیار مهم است

در صنایع تنظیم‌شده مانند امور مالی، مراقبت‌های بهداشتی و خدمات حقوقی، حتی دقت 99٪ خطر قابل توجهی را ایجاد می‌کند. یک بانک که میلیون‌ها مکالمه ماهانه را مدیریت می‌کند، نمی‌تواند هزاران خطای بالقوه حیاتی را متحمل شود. فراتر از دقت، سیستم‌های هوش مصنوعی باید به گونه‌ای محدود شوند که خطاها، حتی زمانی که رخ می‌دهند، در محدوده‌های سختگیرانه و قابل قبول باقی بمانند.

در پاسخ به تقاضا برای دقت بیشتر در چنین برنامه‌هایی، فروشندگان راه‌حل‌های هوش مصنوعی اغلب استدلال می‌کنند که انسان‌ها نیز اشتباه می‌کنند. در حالی که این درست است، تفاوت در این است که، با کارمندان انسانی، اصلاح آنها معمولاً ساده است. می‌توانید از آنها بپرسید که چرا با یک موقعیت به این شکل برخورد کرده‌اند. می‌توانید بازخورد مستقیم ارائه دهید و نتایج آنها را نظارت کنید. اما تکیه بر "بهترین تلاش" مهندسی سریع، در حالی که نسبت به اینکه یک عامل هوش مصنوعی اصلاً چرا تصمیمی گرفته است کور باشید، رویکردی است که به سادگی فراتر از نسخه‌های نمایشی اولیه مقیاس نمی‌شود.

به همین دلیل است که یک مکانیسم بازخورد ساختاریافته بسیار مهم است. این به شما امکان می‌دهد تا مشخص کنید چه تغییراتی باید ایجاد شود و چگونه آنها را ایجاد کنید در حالی که عملکرد موجود را دست نخورده نگه می‌دارید. این درک بود که ما را با Parlant در اوایل مسیر درست قرار داد.

رسیدگی به میلیون‌ها تعامل مشتری با عامل‌های هوش مصنوعی مستقل

برای اینکه شرکت‌ها هوش مصنوعی را در مقیاس بزرگ مستقر کنند، سازگاری و شفافیت غیرقابل مذاکره هستند. یک ربات گفتگو مالی که مشاوره غیرمجاز ارائه می‌دهد، یک دستیار مراقبت‌های بهداشتی که بیماران را گمراه می‌کند، یا یک عامل تجارت الکترونیک که محصولات را نادرست ارائه می‌کند، همگی می‌توانند عواقب شدیدی داشته باشند.

Parlant هم ترازی هوش مصنوعی را با فعال کردن موارد زیر دوباره تعریف می‌کند:

بهبود کارایی عملیاتی: کاهش مداخله انسانی در حالی که تعاملات هوش مصنوعی با کیفیت بالا را تضمین می‌کند.
هم ترازی برند سازگار: حفظ انسجام با ارزش‌های کسب‌وکار.
انطباق با مقررات: رعایت استانداردهای صنعت و الزامات قانونی.

این روش نشان دهنده تغییری در نحوه برخورد با هم ترازی هوش مصنوعی در وهله اول است. استفاده از دستورالعمل‌های مدولار با فیلتر هوشمند به جای درخواست‌های طولانی و پیچیده؛ افزودن مکانیسم‌های نظارت و اعتبارسنجی صریح برای اطمینان از اینکه همه چیز طبق برنامه پیش می‌رود - این نوآوری‌ها یک استاندارد جدید برای دستیابی به قابلیت اطمینان با LLMها را نشان می‌دهند. با ادامه گسترش اتوماسیون مبتنی بر هوش مصنوعی، اطمینان از پیروی مداوم از دستورالعمل‌ها به یک ضرورت پذیرفته شده تبدیل می‌شود، نه یک تجمل نوآورانه.

اگر شرکت شما به دنبال استقرار خدمات مشتری قوی مبتنی بر هوش مصنوعی یا هر برنامه کاربردی دیگری است که با مشتری سروکار دارد، باید به Parlant، یک چارچوب عامل برای تعاملات هوش مصنوعی کنترل‌شده، قابل توضیح و آماده برای شرکت‌ها، نگاهی بیندازید.

https://www.marktechpost.com/2025/03/23/achieving-critical-reliability-in-instruction-following-with-llms-how-to-achieve-ai-customer-service-thats-100-reliable/