تضمین قابلیت اطمینان در پیروی از دستورالعملها در مدلهای زبانی بزرگ (LLM) همچنان یک چالش مهم است. این امر به ویژه در برنامههای کاربردی مرتبط با مشتری، که در آن اشتباهات میتوانند پرهزینه باشند، اهمیت دارد. تکنیکهای مهندسی سریع سنتی نمیتوانند نتایج ثابتی ارائه دهند. یک رویکرد ساختاریافتهتر و مدیریتشدهتر برای بهبود انطباق با قوانین کسبوکار ضمن حفظ انعطافپذیری ضروری است.
این مقاله نوآوریهای کلیدی، از جمله دستورالعملهای اتمی دانهبندی شده، ارزیابی پویا و فیلتر کردن دستورالعملها، و پرسشهای استدلال توجهی (ARQ) را بررسی میکند، ضمن اینکه محدودیتها و مصالحههای پیادهسازی را نیز در نظر میگیرد.
چالش: عملکرد ناهمگون هوش مصنوعی در خدمات مشتری
مدلهای زبانی بزرگ در حال حاضر ارزش تجاری ملموسی را هنگام استفاده به عنوان دستیار برای نمایندگان انسانی در سناریوهای خدمات مشتری ارائه میدهند. با این حال، قابلیت اطمینان آنها به عنوان عوامل مستقل و رو در رو با مشتری همچنان یک چالش است.
رویکردهای سنتی برای توسعه برنامههای کاربردی مکالمهای LLM اغلب در موارد استفاده دنیای واقعی با شکست مواجه میشوند. دو رویکرد رایج عبارتند از:
- مهندسی سریع تکراری، که منجر به رفتار ناهمگون و غیرقابل پیشبینی میشود.
- پردازش مبتنی بر فلوچارت، که جادوی واقعی تعاملات مبتنی بر LLM را قربانی میکند: تعاملات پویا، روان و شبیه به انسان.
در برنامههای کاربردی سطح بالا که با مشتری سروکار دارند، مانند بانکداری، حتی اشتباهات جزئی میتوانند عواقب جدی داشته باشند. به عنوان مثال، یک فراخوانی API که به اشتباه اجرا شده باشد (مانند انتقال پول) میتواند منجر به طرح دعوی و آسیب به شهرت شود. برعکس، تعاملات مکانیکی که فاقد طبیعی بودن و صمیمیت هستند، به اعتماد و مشارکت مشتری آسیب میرسانند و نرخ مهار را محدود میکنند (مواردی که بدون مداخله انسانی حل میشوند).
برای اینکه مدلهای زبانی بزرگ به پتانسیل کامل خود به عنوان عوامل پویا و مستقل در موارد واقعی برسند، باید آنها را وادار کنیم تا دستورالعملهای خاص کسبوکار را به طور مداوم و در مقیاس بزرگ دنبال کنند، ضمن اینکه انعطافپذیری تعاملات طبیعی و روان را حفظ میکنند.
چگونه یک عامل خدمات مشتری مستقل و قابل اعتماد با مدلهای زبانی بزرگ ایجاد کنیم
برای رفع این شکافها در مدلهای زبانی بزرگ و رویکردهای فعلی، و دستیابی به سطحی از قابلیت اطمینان و کنترل که در موارد واقعی به خوبی کار میکند، باید رویکردهایی را که با شکست مواجه شدهاند، زیر سوال ببریم.
یکی از اولین سوالاتی که هنگام شروع کار بر روی Parlant (یک چارچوب منبع باز برای عاملهای هوش مصنوعی رو در رو با مشتری) داشتم این بود: "اگر یک عامل هوش مصنوعی در رسیدگی به یک سناریوی خاص مشتری دچار سوء مدیریت شود، فرآیند بهینه برای رفع آن چه خواهد بود؟" افزودن خواستههای بیشتر به یک درخواست از قبل طولانی، مانند "در اینجا نحوه برخورد با سناریو X آمده است..."، مدیریت آن به سرعت پیچیده میشود و نتایج به هر حال سازگار نبودند. گذشته از آن، افزودن آن دستورالعملها بدون قید و شرط، یک خطر هم ترازی ایجاد میکرد، زیرا مدلهای زبانی بزرگ ذاتاً توسط ورودی خود دچار سوگیری میشوند. بنابراین مهم بود که دستورالعملهای مربوط به سناریو X به سناریوهای دیگر که احتمالاً به رویکرد متفاوتی نیاز داشتند، نفوذ نکند.
بنابراین متوجه شدیم که دستورالعملها باید فقط در زمینه مورد نظر خود اعمال شوند. این منطقی بود، زیرا در زندگی واقعی، وقتی رفتار نامطلوبی را در زمان واقعی در تعامل خدمات مشتری مشاهده میکنیم، معمولاً میدانیم چگونه آن را اصلاح کنیم: ما میتوانیم هم آنچه را که باید بهبود یابد و هم زمینهای را که بازخورد ما باید در آن اعمال شود، مشخص کنیم. به عنوان مثال، "هنگام بحث در مورد مزایای طرح ممتاز، مختصر و سرراست باشید"، اما "هنگام مقایسه پیشنهاد ما با سایر راه حلها، مایل باشید پیشنهاد خود را به تفصیل توضیح دهید."
علاوه بر این زمینهای کردن دستورالعملها، در آموزش یک عامل بسیار توانمند که میتواند بسیاری از موارد استفاده را مدیریت کند، به وضوح باید بسیاری از دستورالعملها را در طول زمان تنظیم کنیم، زیرا رفتار عامل خود را با نیازها و ترجیحات کسبوکار شکل میدهیم. ما به یک رویکرد سیستماتیک نیاز داشتیم.
با عقبنشینی و بازنگری، از اصول اولیه، انتظارات ایدهآل خود از تعاملات مدرن مبتنی بر هوش مصنوعی و نحوه توسعه آنها، این چیزی است که ما در مورد اینکه این تعاملات چگونه باید برای مشتریان احساس شود، فهمیدیم:
- همدلانه و منسجم: مشتریان هنگام استفاده از هوش مصنوعی باید احساس کنند در دستان خوبی هستند.
- روان، مانند پیامرسانی فوری (IM): به مشتریان اجازه میدهد تا موضوعات را به عقب و جلو تغییر دهند، خود را با استفاده از چندین پیام بیان کنند و در مورد چندین موضوع به طور همزمان سوال کنند.
- شخصیسازی شده: باید احساس کنید که عامل هوش مصنوعی میداند با شما صحبت میکند و زمینه شما را درک میکند.
از دیدگاه توسعهدهنده، ما نیز متوجه شدیم که:
- ایجاد UX مکالمهای مناسب یک فرآیند تکاملی است. ما باید بتوانیم با اطمینان رفتار عامل را در زمینههای مختلف، به سرعت و به آسانی، بدون نگرانی در مورد شکستن رفتار موجود، تغییر دهیم.
- دستورالعملها باید به طور مداوم مورد احترام قرار گیرند. انجام این کار با مدلهای زبانی بزرگ که ذاتاً موجوداتی غیرقابل پیشبینی هستند، دشوار است. یک راه حل نوآورانه مورد نیاز بود.
- تصمیمات عامل باید شفاف باشد. طیف مسائل احتمالی مربوط به زبان طبیعی و رفتار بسیار گسترده است. حل مسائل مربوط به پیروی از دستورالعملها بدون نشانههای واضحی از اینکه یک عامل چگونه دستورالعملهای ما را در یک سناریوی خاص تفسیر کرده است، در محیطهای تولید با ضربالاجل بسیار غیرعملی خواهد بود.
پیادهسازی اهداف طراحی Parlant
چالش اصلی ما این بود که چگونه رفتار یک عامل هوش مصنوعی را کنترل و تنظیم کنیم و در عین حال اطمینان حاصل کنیم که دستورالعملها بیهوده گفته نمیشوند - که عامل هوش مصنوعی آنها را به طور دقیق و مداوم پیادهسازی میکند. این منجر به یک تصمیم طراحی استراتژیک شد: دستورالعملهای اتمی دانهبندی شده.
1. دستورالعملهای اتمی دانهبندی شده
درخواستهای پیچیده اغلب مدلهای زبانی بزرگ را تحت تأثیر قرار میدهند و منجر به خروجیهای ناقص یا ناسازگار با توجه به دستورالعملهایی که مشخص میکنند، میشوند. ما این مشکل را در Parlant با حذف درخواستهای گسترده برای دستورالعملهای اتمی مستقل حل کردیم. هر دستورالعمل شامل:
- شرط: یک پرسش به زبان طبیعی که تعیین میکند چه زمانی دستورالعمل باید اعمال شود (به عنوان مثال، "مشتری در مورد بازپرداخت سوال میکند...")
- عمل: دستورالعمل خاصی که LLM باید دنبال کند (به عنوان مثال، "جزئیات سفارش را تأیید کنید و یک مرور کلی از روند بازپرداخت ارائه دهید.")
با تقسیم دستورالعملها به واحدهای قابل مدیریت و به طور سیستماتیک متمرکز کردن توجه خود بر روی هر یک به طور همزمان، میتوانیم LLM را وادار کنیم تا آنها را با دقت بیشتری ارزیابی و اعمال کند.
2. مکانیسم فیلتر و نظارت
مدلهای زبانی بزرگ به شدت تحت تأثیر محتوای درخواستهای خود قرار میگیرند، حتی اگر بخشهایی از درخواست مستقیماً به مکالمه در دست نباشد.
به جای ارائه همه دستورالعملها به طور همزمان، ما Parlant را به طور پویا مطابقت دادیم و فقط مجموعه دستورالعملهای مرتبط را در هر مرحله از مکالمه اعمال کردیم. این تطبیق در زمان واقعی میتواند برای موارد زیر مورد استفاده قرار گیرد:
- کاهش بار شناختی برای LLM: ما از نشت درخواست جلوگیری میکنیم و تمرکز مدل را بر روی دستورالعملهای مناسب افزایش میدهیم که منجر به سازگاری بالاتر میشود.
- نظارت: ما یک مکانیزم برای برجسته کردن تأثیر هر دستورالعمل و اعمال کاربرد آن اضافه کردیم و انطباق را در سراسر هیئت مدیره افزایش دادیم.
- قابلیت توضیح: هر ارزیابی و تصمیمی که توسط سیستم ایجاد میشود شامل یک منطق است که جزئیات نحوه تفسیر دستورالعملها و استدلال پشت پرش یا فعال کردن آنها در هر نقطه از مکالمه را شرح میدهد.
- بهبود مستمر: با نظارت بر اثربخشی دستورالعمل و تفسیر عامل، توسعهدهندگان میتوانند به راحتی رفتار هوش مصنوعی خود را در طول زمان اصلاح کنند. از آنجایی که دستورالعملها اتمی و نظارت شده هستند، میتوانید به راحتی تغییرات ساختاریافتهای را بدون شکستن درخواستهای شکننده ایجاد کنید.
3. پرسشهای استدلال توجهی (ARQ)
در حالی که درخواست "زنجیره تفکر" (CoT) استدلال را بهبود میبخشد، اما در توانایی خود برای حفظ پاسخهای سازگار و حساس به زمینه در طول زمان محدود است. Parlant پرسشهای استدلال توجهی (ARQ) را معرفی میکند - تکنیکی که ما برای اطمینان از اینکه استدلال چند مرحلهای مؤثر، دقیق و قابل پیشبینی باقی میماند، حتی در هزاران اجرا، ابداع کردهایم. میتوانید مقاله تحقیقاتی ما در مورد ARQها در مقابل CoT را در parlant.io و arxiv.org پیدا کنید.
ARQها با هدایت توجه LLM به دستورالعملهای با اولویت بالا در نقاط کلیدی در فرآیند تولید پاسخ، کار میکنند و LLM را وادار میکنند تا به آن دستورالعملها توجه کند و درست قبل از نیاز به اعمال آنها در مورد آنها استدلال کند. ما دریافتیم که "محلیسازی" استدلال در اطراف بخشی از پاسخ که در آن یک دستورالعمل خاص باید اعمال شود، دقت و سازگاری بسیار بیشتری نسبت به یک فرآیند استدلال مقدماتی و غیرخاص مانند CoT ارائه میدهد.
اذعان به محدودیتها
در حالی که این نوآوریها پیروی از دستورالعملها را بهبود میبخشند، چالشهایی وجود دارد که باید در نظر گرفته شوند:
- سربار محاسباتی: پیادهسازی مکانیسمهای فیلتر و استدلال زمان پردازش را افزایش میدهد. با این حال، با بهبود سختافزار و LLMها روز به روز، ما این را یک انتخاب طراحی استراتژیک احتمالا بحثبرانگیز دیدیم.
- رویکردهای جایگزین: در برخی از برنامههای کمخطر، مانند خلبانهای کمکی هوش مصنوعی، روشهای سادهتر مانند تنظیم سریع یا رویکردهای مبتنی بر گردش کار اغلب کافی هستند.
چرا سازگاری برای هوش مصنوعی مکالمهای درجه سازمانی بسیار مهم است
در صنایع تنظیمشده مانند امور مالی، مراقبتهای بهداشتی و خدمات حقوقی، حتی دقت 99٪ خطر قابل توجهی را ایجاد میکند. یک بانک که میلیونها مکالمه ماهانه را مدیریت میکند، نمیتواند هزاران خطای بالقوه حیاتی را متحمل شود. فراتر از دقت، سیستمهای هوش مصنوعی باید به گونهای محدود شوند که خطاها، حتی زمانی که رخ میدهند، در محدودههای سختگیرانه و قابل قبول باقی بمانند.
در پاسخ به تقاضا برای دقت بیشتر در چنین برنامههایی، فروشندگان راهحلهای هوش مصنوعی اغلب استدلال میکنند که انسانها نیز اشتباه میکنند. در حالی که این درست است، تفاوت در این است که، با کارمندان انسانی، اصلاح آنها معمولاً ساده است. میتوانید از آنها بپرسید که چرا با یک موقعیت به این شکل برخورد کردهاند. میتوانید بازخورد مستقیم ارائه دهید و نتایج آنها را نظارت کنید. اما تکیه بر "بهترین تلاش" مهندسی سریع، در حالی که نسبت به اینکه یک عامل هوش مصنوعی اصلاً چرا تصمیمی گرفته است کور باشید، رویکردی است که به سادگی فراتر از نسخههای نمایشی اولیه مقیاس نمیشود.
به همین دلیل است که یک مکانیسم بازخورد ساختاریافته بسیار مهم است. این به شما امکان میدهد تا مشخص کنید چه تغییراتی باید ایجاد شود و چگونه آنها را ایجاد کنید در حالی که عملکرد موجود را دست نخورده نگه میدارید. این درک بود که ما را با Parlant در اوایل مسیر درست قرار داد.
رسیدگی به میلیونها تعامل مشتری با عاملهای هوش مصنوعی مستقل
برای اینکه شرکتها هوش مصنوعی را در مقیاس بزرگ مستقر کنند، سازگاری و شفافیت غیرقابل مذاکره هستند. یک ربات گفتگو مالی که مشاوره غیرمجاز ارائه میدهد، یک دستیار مراقبتهای بهداشتی که بیماران را گمراه میکند، یا یک عامل تجارت الکترونیک که محصولات را نادرست ارائه میکند، همگی میتوانند عواقب شدیدی داشته باشند.
Parlant هم ترازی هوش مصنوعی را با فعال کردن موارد زیر دوباره تعریف میکند:
- بهبود کارایی عملیاتی: کاهش مداخله انسانی در حالی که تعاملات هوش مصنوعی با کیفیت بالا را تضمین میکند.
- هم ترازی برند سازگار: حفظ انسجام با ارزشهای کسبوکار.
- انطباق با مقررات: رعایت استانداردهای صنعت و الزامات قانونی.
این روش نشان دهنده تغییری در نحوه برخورد با هم ترازی هوش مصنوعی در وهله اول است. استفاده از دستورالعملهای مدولار با فیلتر هوشمند به جای درخواستهای طولانی و پیچیده؛ افزودن مکانیسمهای نظارت و اعتبارسنجی صریح برای اطمینان از اینکه همه چیز طبق برنامه پیش میرود - این نوآوریها یک استاندارد جدید برای دستیابی به قابلیت اطمینان با LLMها را نشان میدهند. با ادامه گسترش اتوماسیون مبتنی بر هوش مصنوعی، اطمینان از پیروی مداوم از دستورالعملها به یک ضرورت پذیرفته شده تبدیل میشود، نه یک تجمل نوآورانه.
اگر شرکت شما به دنبال استقرار خدمات مشتری قوی مبتنی بر هوش مصنوعی یا هر برنامه کاربردی دیگری است که با مشتری سروکار دارد، باید به Parlant، یک چارچوب عامل برای تعاملات هوش مصنوعی کنترلشده، قابل توضیح و آماده برای شرکتها، نگاهی بیندازید.