عاملهای هوش مصنوعی با مشکلات ایمنی و قابلیت اطمینان مواجه هستند. اگرچه عاملها به شرکتها اجازه میدهند تا مراحل بیشتری از گردش کار خود را خودکار کنند، اما میتوانند هنگام اجرای یک کار، اقدامات ناخواستهای انجام دهند، انعطافپذیری زیادی ندارند و کنترل آنها دشوار است.
سازمانها پیش از این نیز در مورد عاملهای غیرقابل اعتماد هشدار دادهاند و نگران این هستند که پس از استقرار، عاملها ممکن است پیروی از دستورالعملها را فراموش کنند.
OpenAI حتی اذعان کرد که اطمینان از قابلیت اطمینان عاملها مستلزم همکاری با توسعهدهندگان خارجی است، بنابراین SDK عاملهای خود را برای کمک به حل این مشکل باز کرد.
با این حال، محققان دانشگاه مدیریت سنگاپور (SMU) رویکرد جدیدی برای حل مشکل قابلیت اطمینان عاملها توسعه دادهاند.
AgentSpec یک چارچوب مختص دامنه (domain-specific) است که به کاربران اجازه میدهد «قوانین ساختاریافتهای را تعریف کنند که شامل محرکها، گزارهها و مکانیسمهای اجرایی است.» محققان گفتند AgentSpec باعث میشود عاملها فقط در چارچوب پارامترهایی که کاربران میخواهند کار کنند.
هدایت عاملهای مبتنی بر LLM با رویکردی جدید
AgentSpec یک مدل زبان بزرگ (LLM) جدید نیست، بلکه رویکردی برای هدایت عاملهای هوش مصنوعی مبتنی بر LLM است. محققان معتقدند AgentSpec میتواند برای عاملها در محیطهای سازمانی و برنامههای کاربردی خودران استفاده شود.
اولین آزمایشهای AgentSpec روی چارچوبهای LangChain یکپارچه شدند، اما محققان گفتند که آن را به گونهای طراحی کردهاند که مستقل از چارچوب باشد، به این معنی که میتواند روی اکوسیستمهای AutoGen و Apollo نیز اجرا شود.
آزمایشها با استفاده از AgentSpec نشان داد که این روش «بیش از ۹۰ درصد از اجرای کدهای ناامن را جلوگیری میکند، انطباق کامل در سناریوهای نقض قانون رانندگی خودمختار را تضمین میکند، اقدامات خطرناک در وظایف عاملهای تجسمیافته (embodied agent) را حذف میکند و با سربار سطح میلیثانیه عمل میکند.» قوانین AgentSpec تولید شده توسط LLM، که از o1 شرکت OpenAI استفاده میکردند، همچنین عملکرد قوی داشتند و ۸۷ درصد از کدهای پرخطر را اجرا کردند و از «قانونشکنی در ۵ مورد از ۸ سناریو» جلوگیری کردند.
روشهای فعلی تا حدودی ناقص هستند
AgentSpec تنها روش برای کمک به توسعهدهندگان در جهت دادن کنترل و قابلیت اطمینان بیشتر به عاملها نیست. رویکردهای دیگر شامل ToolEmu و GuardAgent هستند. استارتاپ Galileo نیز Agentic Evaluations را راهاندازی کرد، راهی برای اطمینان از اینکه عاملها طبق برنامه کار میکنند.
پلتفرم متنباز H2O.ai از مدلهای پیشبینیکننده برای بهبود دقت عاملهایی که توسط شرکتها در امور مالی، مراقبتهای بهداشتی، مخابرات و دولت استفاده میشوند، بهره میبرد.
محققان AgentSpec گفتند که رویکردهای فعلی برای کاهش خطرات، مانند ToolEmu، به طور مؤثر خطرات را شناسایی میکنند. آنها خاطرنشان کردند که «این روشها فاقد تفسیرپذیری هستند و هیچ مکانیسمی برای اجرای ایمنی ارائه نمیدهند، که آنها را در برابر دستکاریهای خصمانه آسیبپذیر میکند.»
استفاده از AgentSpec
AgentSpec به عنوان یک لایه اجرایی زمان اجرا (runtime enforcement layer) برای عاملها عمل میکند. این لایه رفتار عامل را هنگام اجرای وظایف رهگیری میکند و قوانین ایمنی تعیین شده توسط انسان یا تولید شده توسط دستورات (prompts) را اضافه میکند.
از آنجایی که AgentSpec یک زبان سفارشی مختص دامنه است، کاربران باید قوانین ایمنی را تعریف کنند. این کار سه جزء دارد: اول محرک (trigger) است که مشخص میکند چه زمانی قانون فعال شود؛ دوم بررسی (check) برای افزودن شرایط است؛ و سوم اجرا (enforce) است که اقداماتی را که در صورت نقض قانون باید انجام شود، اعمال میکند.
AgentSpec بر روی LangChain ساخته شده است، اگرچه همانطور که قبلاً گفته شد، محققان گفتند AgentSpec میتواند در چارچوبهای دیگری مانند AutoGen یا پشته نرمافزار خودروی خودران Apollo نیز ادغام شود.
این چارچوبها مراحل مورد نیاز عاملها را با دریافت ورودی کاربر، ایجاد یک برنامه اجرایی، مشاهده نتیجه، و سپس تصمیمگیری در مورد تکمیل شدن عمل و در صورت عدم تکمیل، برنامهریزی مرحله بعدی، هماهنگ میکنند. AgentSpec اجرای قانون را به این جریان اضافه میکند.
در این مقاله آمده است: «قبل از اجرای یک عمل، AgentSpec محدودیتهای از پیش تعریفشده را برای اطمینان از انطباق ارزیابی میکند و در صورت لزوم رفتار عامل را اصلاح میکند. به طور خاص، AgentSpec به سه نقطه تصمیمگیری کلیدی متصل میشود: قبل از اجرای یک عمل (AgentAction)، پس از اینکه یک عمل مشاهدهای را تولید میکند (AgentStep)، و زمانی که عامل وظیفه خود را تکمیل میکند (AgentFinish). این نقاط راهی ساختاریافته برای مداخله بدون تغییر منطق اصلی عامل فراهم میکنند.»
عاملهای قابل اطمینانتر
رویکردهایی مانند AgentSpec بر نیاز به عاملهای قابل اعتماد برای استفاده سازمانی تأکید میکنند. همانطور که سازمانها شروع به برنامهریزی استراتژی عاملگرای خود میکنند، رهبران تصمیمگیری فناوری نیز به دنبال راههایی برای اطمینان از قابلیت اطمینان هستند.
برای بسیاری، عاملها در نهایت به طور مستقل و فعال وظایف را برای کاربران انجام خواهند داد. ایده عاملهای محیطی (ambient agents)، که در آن عاملها و برنامههای هوش مصنوعی به طور مداوم در پسزمینه اجرا میشوند و خود را برای اجرای اقدامات فعال میکنند، مستلزم عاملهایی است که از مسیر خود منحرف نشوند و به طور تصادفی اقدامات غیرایمن را معرفی نکنند.
اگر عاملهای محیطی آینده هوش مصنوعی عاملگرا باشند، انتظار میرود روشهای بیشتری مانند AgentSpec گسترش یابند زیرا شرکتها به دنبال ایجاد عاملهای هوش مصنوعی هستند که به طور مداوم قابل اعتماد باشند.