اعتبار: ونچربیت، تولید شده با میدجرنی
اعتبار: ونچربیت، تولید شده با میدجرنی

رویکرد جدید برای قابلیت اطمینان عامل‌ها، AgentSpec، عامل‌ها را مجبور به پیروی از قوانین می‌کند

عامل‌های هوش مصنوعی با مشکلات ایمنی و قابلیت اطمینان مواجه هستند. اگرچه عامل‌ها به شرکت‌ها اجازه می‌دهند تا مراحل بیشتری از گردش کار خود را خودکار کنند، اما می‌توانند هنگام اجرای یک کار، اقدامات ناخواسته‌ای انجام دهند، انعطاف‌پذیری زیادی ندارند و کنترل آن‌ها دشوار است.

سازمان‌ها پیش از این نیز در مورد عامل‌های غیرقابل اعتماد هشدار داده‌اند و نگران این هستند که پس از استقرار، عامل‌ها ممکن است پیروی از دستورالعمل‌ها را فراموش کنند.

OpenAI حتی اذعان کرد که اطمینان از قابلیت اطمینان عامل‌ها مستلزم همکاری با توسعه‌دهندگان خارجی است، بنابراین SDK عامل‌های خود را برای کمک به حل این مشکل باز کرد.

با این حال، محققان دانشگاه مدیریت سنگاپور (SMU) رویکرد جدیدی برای حل مشکل قابلیت اطمینان عامل‌ها توسعه داده‌اند.

AgentSpec یک چارچوب مختص دامنه (domain-specific) است که به کاربران اجازه می‌دهد «قوانین ساختاریافته‌ای را تعریف کنند که شامل محرک‌ها، گزاره‌ها و مکانیسم‌های اجرایی است.» محققان گفتند AgentSpec باعث می‌شود عامل‌ها فقط در چارچوب پارامترهایی که کاربران می‌خواهند کار کنند.

هدایت عامل‌های مبتنی بر LLM با رویکردی جدید

AgentSpec یک مدل زبان بزرگ (LLM) جدید نیست، بلکه رویکردی برای هدایت عامل‌های هوش مصنوعی مبتنی بر LLM است. محققان معتقدند AgentSpec می‌تواند برای عامل‌ها در محیط‌های سازمانی و برنامه‌های کاربردی خودران استفاده شود.

اولین آزمایش‌های AgentSpec روی چارچوب‌های LangChain یکپارچه شدند، اما محققان گفتند که آن را به گونه‌ای طراحی کرده‌اند که مستقل از چارچوب باشد، به این معنی که می‌تواند روی اکوسیستم‌های AutoGen و Apollo نیز اجرا شود.

آزمایش‌ها با استفاده از AgentSpec نشان داد که این روش «بیش از ۹۰ درصد از اجرای کدهای ناامن را جلوگیری می‌کند، انطباق کامل در سناریوهای نقض قانون رانندگی خودمختار را تضمین می‌کند، اقدامات خطرناک در وظایف عامل‌های تجسم‌یافته (embodied agent) را حذف می‌کند و با سربار سطح میلی‌ثانیه عمل می‌کند.» قوانین AgentSpec تولید شده توسط LLM، که از o1 شرکت OpenAI استفاده می‌کردند، همچنین عملکرد قوی داشتند و ۸۷ درصد از کدهای پرخطر را اجرا کردند و از «قانون‌شکنی در ۵ مورد از ۸ سناریو» جلوگیری کردند.

روش‌های فعلی تا حدودی ناقص هستند

AgentSpec تنها روش برای کمک به توسعه‌دهندگان در جهت دادن کنترل و قابلیت اطمینان بیشتر به عامل‌ها نیست. رویکردهای دیگر شامل ToolEmu و GuardAgent هستند. استارتاپ Galileo نیز Agentic Evaluations را راه‌اندازی کرد، راهی برای اطمینان از اینکه عامل‌ها طبق برنامه کار می‌کنند.

پلتفرم متن‌باز H2O.ai از مدل‌های پیش‌بینی‌کننده برای بهبود دقت عامل‌هایی که توسط شرکت‌ها در امور مالی، مراقبت‌های بهداشتی، مخابرات و دولت استفاده می‌شوند، بهره می‌برد.

محققان AgentSpec گفتند که رویکردهای فعلی برای کاهش خطرات، مانند ToolEmu، به طور مؤثر خطرات را شناسایی می‌کنند. آن‌ها خاطرنشان کردند که «این روش‌ها فاقد تفسیرپذیری هستند و هیچ مکانیسمی برای اجرای ایمنی ارائه نمی‌دهند، که آن‌ها را در برابر دستکاری‌های خصمانه آسیب‌پذیر می‌کند.»

استفاده از AgentSpec

AgentSpec به عنوان یک لایه اجرایی زمان اجرا (runtime enforcement layer) برای عامل‌ها عمل می‌کند. این لایه رفتار عامل را هنگام اجرای وظایف رهگیری می‌کند و قوانین ایمنی تعیین شده توسط انسان یا تولید شده توسط دستورات (prompts) را اضافه می‌کند.

از آنجایی که AgentSpec یک زبان سفارشی مختص دامنه است، کاربران باید قوانین ایمنی را تعریف کنند. این کار سه جزء دارد: اول محرک (trigger) است که مشخص می‌کند چه زمانی قانون فعال شود؛ دوم بررسی (check) برای افزودن شرایط است؛ و سوم اجرا (enforce) است که اقداماتی را که در صورت نقض قانون باید انجام شود، اعمال می‌کند.

AgentSpec بر روی LangChain ساخته شده است، اگرچه همانطور که قبلاً گفته شد، محققان گفتند AgentSpec می‌تواند در چارچوب‌های دیگری مانند AutoGen یا پشته نرم‌افزار خودروی خودران Apollo نیز ادغام شود.

این چارچوب‌ها مراحل مورد نیاز عامل‌ها را با دریافت ورودی کاربر، ایجاد یک برنامه اجرایی، مشاهده نتیجه، و سپس تصمیم‌گیری در مورد تکمیل شدن عمل و در صورت عدم تکمیل، برنامه‌ریزی مرحله بعدی، هماهنگ می‌کنند. AgentSpec اجرای قانون را به این جریان اضافه می‌کند.

در این مقاله آمده است: «قبل از اجرای یک عمل، AgentSpec محدودیت‌های از پیش تعریف‌شده را برای اطمینان از انطباق ارزیابی می‌کند و در صورت لزوم رفتار عامل را اصلاح می‌کند. به طور خاص، AgentSpec به سه نقطه تصمیم‌گیری کلیدی متصل می‌شود: قبل از اجرای یک عمل (AgentAction)، پس از اینکه یک عمل مشاهده‌ای را تولید می‌کند (AgentStep)، و زمانی که عامل وظیفه خود را تکمیل می‌کند (AgentFinish). این نقاط راهی ساختاریافته برای مداخله بدون تغییر منطق اصلی عامل فراهم می‌کنند.»

عامل‌های قابل اطمینان‌تر

رویکردهایی مانند AgentSpec بر نیاز به عامل‌های قابل اعتماد برای استفاده سازمانی تأکید می‌کنند. همانطور که سازمان‌ها شروع به برنامه‌ریزی استراتژی عامل‌گرای خود می‌کنند، رهبران تصمیم‌گیری فناوری نیز به دنبال راه‌هایی برای اطمینان از قابلیت اطمینان هستند.

برای بسیاری، عامل‌ها در نهایت به طور مستقل و فعال وظایف را برای کاربران انجام خواهند داد. ایده عامل‌های محیطی (ambient agents)، که در آن عامل‌ها و برنامه‌های هوش مصنوعی به طور مداوم در پس‌زمینه اجرا می‌شوند و خود را برای اجرای اقدامات فعال می‌کنند، مستلزم عامل‌هایی است که از مسیر خود منحرف نشوند و به طور تصادفی اقدامات غیرایمن را معرفی نکنند.

اگر عامل‌های محیطی آینده هوش مصنوعی عامل‌گرا باشند، انتظار می‌رود روش‌های بیشتری مانند AgentSpec گسترش یابند زیرا شرکت‌ها به دنبال ایجاد عامل‌های هوش مصنوعی هستند که به طور مداوم قابل اعتماد باشند.