شبکه عامل‌ها — دارمش شاه

ما بسیار هیجان‌زده هستیم که گفتگوی خود را با دارمش شاه، هم‌بنیانگذار HubSpot و خالق Agent.ai به اشتراک بگذاریم.

یک مفهوم به خصوص جذاب که در مورد آن بحث کردیم، ایده "تیم‌های ترکیبی" است - تکامل بعدی در سازماندهی محیط کار که در آن کارگران انسانی با عامل‌های هوش مصنوعی به عنوان اعضای تیم همکاری می‌کنند. همانطور که قبلاً شاهد ظهور تیم‌های ترکیبی از نظر کارکنان تمام وقت در مقابل قراردادی، یا کارکنان حضوری در مقابل دورکار بودیم، دارمش پیش‌بینی می‌کند که مرز بعدی تیم‌هایی متشکل از اعضای انسانی و هوش مصنوعی خواهد بود. این امر سوالات جالبی را در مورد پویایی تیم، اعتماد و نحوه واگذاری مؤثر وظایف بین اعضای تیم انسانی و هوش مصنوعی مطرح می‌کند.

بحث در مورد مدل‌های کسب‌وکار در هوش مصنوعی تمایز مهمی را بین کار به عنوان سرویس (WaaS) و نتایج به عنوان سرویس (RaaS)، چیزی که دارمش به طور گسترده در مورد آن نوشته است، آشکار می‌کند. در حالی که RaaS محبوبیت پیدا کرده است، به ویژه در برنامه‌های پشتیبانی مشتری که نتایج به راحتی قابل اندازه‌گیری هستند، دارمش استدلال می‌کند که این مدل ممکن است بیش از حد مورد توجه قرار گرفته باشد. همه برنامه‌های کاربردی هوش مصنوعی نتایج قابل تعریف واضح یا ارزش اقتصادی ثابت در هر تراکنش ندارند، که باعث می‌شود WaaS در بسیاری از موارد مناسب‌تر باشد. این بینش به ویژه برای کسب‌وکارهایی که در حال بررسی نحوه کسب درآمد از قابلیت‌های هوش مصنوعی هستند، مرتبط است.

چالش‌های فنی پیاده‌سازی سیستم‌های عامل مؤثر نیز مورد بررسی قرار می‌گیرد، به ویژه در مورد حافظه و احراز هویت. شاه بر اهمیت اشتراک‌گذاری حافظه بین عامل‌ها و نیاز به کنترل دقیق‌تر بر دسترسی به داده‌ها تأکید می‌کند. او آینده‌ای را متصور است که در آن کاربران می‌توانند به طور انتخابی بخش‌هایی از داده‌های خود را با عامل‌های مختلف به اشتراک بگذارند، شبیه به نحوه عملکرد OAuth اما با کنترل بسیار دقیق‌تر. این امر به فرصت‌های قابل توجهی در توسعه زیرساخت برای ارتباط امن و کارآمد عامل به عامل و اشتراک‌گذاری داده اشاره دارد.

نکات برجسته دیگر از گفتگوی ما

تکامل عامل‌های مبتنی بر هوش مصنوعی – بررسی چگونگی تکامل عامل‌های هوش مصنوعی از چت‌بات‌های ساده به سیستم‌های چندعاملی پیچیده، و نقش MCP ها در امکان‌پذیر ساختن آن.
تیم‌های دیجیتال ترکیبی و آینده کار – چگونگی تبدیل شدن عامل‌های هوش مصنوعی به هم‌تیمی به جای ابزار صرف، و این به چه معناست برای عملیات تجاری و کار دانش‌بنیان.
حافظه در عامل‌های هوش مصنوعی – اهمیت حافظه پایدار در سیستم‌های هوش مصنوعی و اینکه چگونه حافظه مشترک بین عامل‌ها می‌تواند همکاری و کارایی را افزایش دهد.
مدل‌های کسب‌وکار برای عامل‌های هوش مصنوعی – بررسی تغییر از نرم‌افزار به عنوان سرویس (SaaS) به کار به عنوان سرویس (WaaS) و نتایج به عنوان سرویس (RaaS)، و معنای آن برای کسب درآمد.
نقش استانداردهایی مانند MCP – چرایی پذیرش گسترده MCP و چگونگی امکان‌پذیر ساختن همکاری عامل‌ها، استفاده از ابزار و کشف.
آینده تولید کد هوش مصنوعی و مهندسی نرم‌افزار – چگونگی تغییر نقش مهندسان نرم‌افزار توسط کدنویسی به کمک هوش مصنوعی و اینکه چه مهارت‌هایی در آینده بیشترین اهمیت را خواهند داشت.
سرمایه‌گذاری در دامنه و بازارهای کارآمد – رویکرد دارمش به سرمایه‌گذاری در دامنه و اینکه چگونه ناکارآمدی‌ها در بازارهای دارایی دیجیتال فرصت‌های تجاری ایجاد می‌کنند.
فلسفه نه گفتن – درس‌هایی از " متاسفم، باید بگذرم " و اینکه چگونه اولویت‌بندی منجر به بهره‌وری و تمرکز بیشتر می‌شود.

متن کامل گفتگو

آلسیو [00:00:04]: سلام به همه، به پادکست Latent Space خوش آمدید. من آلسیو هستم، شریک و مدیر ارشد فناوری در Decibel Partners، و میزبان مشترکم سویکس، بنیانگذار Small AI، به من ملحق شده است.

سویکس [00:00:12]: سلام، و امروز ما بسیار هیجان‌زده‌ایم که دارمش شاه به ما ملحق شده است. حدس می‌زنم عنوان مرتبط شما در اینجا بنیانگذار Agent AI باشد.

دارمش [00:00:20]: بله، برای این موضوع درست است. بله، خالق Agent.ai و هم‌بنیانگذار HubSpot.

سویکس [00:00:25]: هم‌بنیانگذار HubSpot، که من سال‌ها دنبال کرده‌ام، فکر می‌کنم حالا ۱۸ سال، به زودی ۱۹ ساله می‌شود. و می‌دانید، مردم می‌توانند داستان HubSpot شما را جای دیگری دنبال کنند. من همچنین باید از شان پوری تشکر کنم، که با او صحبت کرده‌ام، و فکر می‌کنم ما را با افراد شما در تماس قرار داده است. اما همچنین، فکر می‌کنم او زمینه‌های زیادی را فراهم کرده، زیرا بدیهی است که My First Million به شما پیوستند و آنها زیاد با شما صحبت کرده‌اند. بنابراین برای بخش تجاری، می‌توانیم در مورد آن صحبت کنیم، اما من می‌خواستم با جنبه مدیر ارشد فناوری، عامل، مهندس شما تعامل کنم. پس چگونه به دین عامل‌ها (Agent Religion) گرویدید؟

دارمش [00:01:00]: بگذارید ببینم. خب من کار می‌کردم، یک قدم به عقب برمی‌گردم، حدود یک دهه پیش، حتی در واقع بیشتر از آن. حتی قبل از HubSpot، شرکتی که در نظر داشتم و برایش نام انتخاب کرده بودم Ingenisoft نام داشت. و ایده پشت Ingenisoft یک رابط زبان طبیعی برای نرم‌افزارهای تجاری بود. حالا متوجه شوید که این ۲۰ سال پیش بود، بنابراین انجام آن کار سختی بود. اما مورد استفاده واقعی که در ذهن داشتم این بود، می‌دانید، ما داده‌هایی در سیستم‌های تجاری مانند CRM یا چیزی شبیه به آن داشتیم. و چیزی که آن زمان فکر می‌کردم هوشمندانه است. آه، چه می‌شود اگر از ایمیل به عنوان نوعی رابط برای دسترسی به نرم‌افزار تجاری استفاده کنیم؟ و انگیزه استفاده از ایمیل این است که به طور خودکار در حالت آفلاین کار می‌کند. پس تصور کنید من در حال سوار شدن به هواپیما هستم یا در هواپیما هستم. آن زمان اینترنت در هواپیماها وجود نداشت. اینطور بود که، آه، من در حال مرور کارت‌های ویزیت از رویدادی هستم که رفته بودم. می‌توانم فقط چیزهایی را در یک ایمیل تایپ کنم تا همه آنها در صف انتظار باشند. وقتی دوباره وصل می‌شود، آن ایمیل‌ها را به یک پردازنده می‌فرستد که اساساً دستورات را تجزیه (parse) می‌کند و نرم‌افزار را به‌روز می‌کند، فایل را برای شما ارسال می‌کند، هر چه که باشد. و تعداد انگشت‌شماری دستور وجود داشت. من کمی از زمان جلوتر بودم از نظر آنچه واقعاً ممکن بود. و من دوباره این موضوع زبان طبیعی را با محصولی به نام ChatSpot که در سال ۲۰... انجام دادم، امتحان کردم.

سویکس [00:02:12]: بله، این اولین پروژه شما بعد از ChatGPT بود.

دارمش [00:02:14]: دیدم که منتشر شد. بله. و بنابراین من همیشه مجذوب این رابط زبان طبیعی برای نرم‌افزار بوده‌ام. زیرا، می‌دانید، به عنوان توسعه‌دهندگان نرم‌افزار، از جمله خودم، همیشه گفته‌ایم، آه، ما برنامه‌های کاربردی شهودی و با کاربرد آسان می‌سازیم. و اصلاً شهودی نیست، درست است؟ زیرا کاری که ما انجام می‌دهیم... ما مدل ذهنی‌ای را که در سرمان داریم از آنچه می‌خواهیم با آن قطعه نرم‌افزار انجام دهیم، می‌گیریم و آن را به مجموعه‌ای از لمس‌ها و کشیدن‌ها و کلیک‌ها و چیزهایی از این قبیل ترجمه می‌کنیم. و هیچ چیز طبیعی یا شهودی در مورد آن وجود ندارد. و بنابراین رابط‌های زبان طبیعی، برای اولین بار، می‌دانید، هر فکری که در سرتان دارید و به هر زبانی که معمولاً با خودتان در سرتان صحبت می‌کنید بیان می‌کنید، می‌توانید آن را به نوعی بیرون دهید و از نرم‌افزار بخواهید کاری انجام دهد. و من فکر کردم که این نوعی پیشرفت بزرگ بود، که بوده است. و ادامه یافته است. پس اینجاست که برای اولین بار وارد این سفر شدم. شروع کردم زیرا حالا واقعاً کار می‌کند، درست است؟ بنابراین هنگامی که ChatGPT را داشتیم و شما می‌توانید، حتی با یک مثال چند نمونه‌ای (few-shot example)، چیزی را به ساختاریافته تبدیل کنید، حتی در روزهای ChatGP 3.5، کار مناسبی در یک مثال چند نمونه‌ای انجام می‌داد، چیزی را به متن ساختاریافته تبدیل می‌کرد اگر می‌دانستید چه نوع قصدهایی (intents) خواهید داشت. و بنابراین این اتفاق افتاد. و این در نهایت به یک پروژه HubSpot تبدیل شد. اما بعد عامل‌ها مرا مجذوب کردند زیرا فکر کردم، خوب، این گام بعدی اینجاست. پس چت عالی است. عاشق تجربه کاربری چت هستم. اما اگر بخواهیم کار معنادارتری انجام دهیم، به نظر می‌رسید که پیشرفت بعدی این نیست که من با نرم‌افزاری در یک مدل رفت و برگشت همزمان (synchronous) چت می‌کنم، بلکه این است که نرم‌افزار قرار است کارهایی را برای من به روشی چند مرحله‌ای انجام دهد تا به اهدافی دست یابد. پس، بله، آن زمان بود که برای اولین بار شروع کردم. اینطور بود که، خوب، این چه شکلی خواهد بود؟ بله. و از آن زمان به بعد شیفته‌اش شده‌ام.

آلسیو [00:03:55]: که به اولین تجربه شما با آن برمی‌گردد، یعنی آفلاین هستید. بله. و می‌خواهید کاری انجام دهید. نیازی نیست همین الان آن را انجام دهید. فقط می‌خواهید آن را در صف قرار دهید تا کسی آن را برای شما انجام دهد. بله. وقتی به عامل‌ها فکر می‌کنید، بیایید از سوال آسان شروع کنیم، یعنی چگونه یک عامل را تعریف می‌کنید؟ شاید. منظورتان سخت‌ترین سوال در جهان است؟ منظورتان این است؟

دارمش [00:04:12]: شما گفتید یک دیدگاه آزاردهنده دارید. من یک دیدگاه آزاردهنده دارم. فکر می‌کنم، خب، تعدادی از افراد آزرده شده‌اند، از جمله در تیم خودم. پس من تعریف بسیار گسترده‌ای برای عامل‌ها دارم، که عبارت است از: نرم‌افزار مبتنی بر هوش مصنوعی که به یک هدف دست می‌یابد. تمام. همین. و چیزی که مردم را در مورد آن آزار می‌دهد این است که، خب، این آنقدر گسترده است که کاملاً بی‌فایده است. و من این را می‌فهمم. انتقاد را می‌فهمم. اما در ذهن من، اگر ماه‌ها به جلو برویم، حدس می‌زنم، در سال‌های هوش مصنوعی، پیاده‌سازی آن، و ما از قبل شروع به دیدن این موضوع کرده‌ایم، و در مورد این صحبت خواهیم کرد، انواع مختلف عامل‌ها، درست است؟ بنابراین فکر می‌کنم علاوه بر داشتن یک تعریف قابل استفاده، و من تعریف شما را دوست دارم، به هر حال، و باید بیشتر در مورد آن صحبت کنیم، که شما به تازگی ارائه کردید، طبقه‌بندی عامل‌ها در واقع نیز مفید است، یعنی آیا خودمختار (autonomous) است یا غیرخودمختار؟ آیا گردش کار قطعی (deterministic) دارد؟ آیا گردش کار غیرقطعی (non-deterministic) دارد؟ آیا به صورت همزمان کار می‌کند؟ آیا به صورت ناهمزمان (asynchronous) کار می‌کند؟ سپس حالت‌های تعامل مختلف را دارید. آیا یک عامل چت است، مانند یک عامل پشتیبانی مشتری؟ آیا این نوع رفت و برگشت را دارید؟ آیا یک عامل گردش کار است که فقط تعداد گسسته‌ای از مراحل را انجام می‌دهد؟ بنابراین همه این طعم‌های مختلف عامل‌ها وجود دارد. پس اگر بخواهم آن را در یک نمودار ون بکشم، یک دایره بزرگ می‌کشم که می‌گوید، این عامل‌ها هستند، و سپس یک دسته دایره دارم، برخی همپوشان، زیرا متقابلاً منحصر به فرد نیستند. و بنابراین فکر می‌کنم این چیزی است که جالب است، و ما شاهد توسعه در مسیرهای مختلفی هستیم، درست است؟ بنابراین اگر به اولین پیاده‌سازی چارچوب‌های عامل نگاه کنید، به Baby AGI و AutoGBT نگاه کنید، فکر می‌کنم این بود، نه Autogen، که مال مایکروسافت است. آنها خیلی جلوتر از زمان خود بودند زیرا سطحی از استدلال و اجرا و قابلیت برنامه‌ریزی را فرض می‌کردند که وجود نداشت، درست است؟ بنابراین این یک آزمایش فکری جالب بود، که همین بود. حتی پسری که، من سرمایه‌گذار در صندوق یوهی (Yohei) هستم که Baby AGI را انجام داد. آماده نبود، اما نشانه‌ای از آنچه در راه بود بود. و بنابراین سوال این است که، چه زمانی آماده می‌شود؟ و بنابراین افراد زیادی در مورد پیشرفته‌ترین وضعیت (state of the art) در مورد عامل‌ها صحبت می‌کنند. من عمل‌گرا هستم، بنابراین به وضعیت عملی (state of the practical) فکر می‌کنم. اینطور است که، خوب، چه چیزی می‌توانم واقعاً بسازم که ارزش تجاری داشته باشد یا واقعاً مشکلی گسسته را با سطحی پایه از تکرارپذیری یا قابل تأیید بودن حل کند؟

سویکس [00:06:22]: خیلی زیاد بود، و بسیار، بسیار جالب. اصلاً مرا آزار نداد. بسیار خوب. همانطور که می‌دانید، من دیدگاهی... دیدگاه مردم‌شناختی یا زبان‌شناختی زیادی دارم. و در زبان‌شناسی، شما نمی‌خواهید تجویزی باشید. می‌خواهید توصیفی باشید. بله. پس شما یک فرد هدف‌گرا هستید. این کلمه کلیدی در گفته شماست. و افراد دیگر تعاریف دیگری دارند که ممکن است شامل مواردی مانند اعتماد واگذار شده یا کار غیرقطعی، LLM در حلقه، همه این موارد باشد. چیز دیگری که به آن فکر می‌کردم، فقط در مورد Baby AGI، LGBT. بله. در آن مطلبی که شما خواندید، من توانستم به آرشیو خودمان برگردم و فقط زمستان عامل‌ها و سپس تابستان کنونی را ردیابی کنم. بله. و این... ما می‌توانیم کل داستان را به عنوان یک تاریخ شفاهی روایت کنیم، فقط با دنبال کردن آن رشته. و واقعاً فقط این است که، من فکر می‌کنم، سعی کردم توضیح دهم چرا الان، درست است؟ یعنی، مدل‌های بهتری وجود دارد، البته. استفاده از ابزار بهتری وجود دارد مانند، آنها فقط قابل اعتمادتر هستند. بله. ابزارهای بهتر با MCP و همه این چیزها. و من مطمئن هستم که شما هم در مورد آن نظراتی دارید. تغییر مدل کسب‌وکار، که شما خیلی دوست دارید. همین الان شنیدم که در مورد RAS با بچه‌های MFM صحبت می‌کردید. بله. هزینه بسیار در حال کاهش است. بله. استنتاج (Inference) سریعتر می‌شود. تنوع مدل بیشتری وجود دارد. بله. بله. من فکر می‌کنم این یک نکته ظریف است. این بدان معناست که مانند، شما مدل‌های مختلف با دیدگاه‌های مختلف دارید. شما در حوضه عملکرد یک مدل واحد گیر نمی‌کنید. مطمئن. شما فقط با تغییر مدل‌ها می‌توانید از آن خارج شوید. بله. تحقیقات چندعاملی و تنظیم دقیق RL. بنابراین فقط می‌خواستم به شما اجازه دهم به هر یک از این موارد پاسخ دهید.

دارمش [00:07:44]: بله. چند نکته. اتصال نقاط در سمت تعریف. پس ما کاملاً از شر آزار خلاص می‌شویم. من یک جهش آزاردهنده‌تر دیگر در مورد تعریف عامل دارم. خب اینطوری به آن فکر می‌کنم. به هر حال، کلمه عامل، من آن را جستجو کردم، مانند تعریف فرهنگ لغت انگلیسی. عامل قدیمی، بله. زمانی است که شما کسی یا چیزی دارید که کاری را از طرف شما انجام می‌دهد، مانند یک آژانس مسافرتی یا یک مشاور املاک که از طرف شما عمل می‌کند. مانند پروکسی است، که یک تعریف کلی خوب است. پس جهت دیگری که به نوعی به سمت آن می‌روم، و قرار است به فراخوانی ابزار و MCP و چیزهایی از این قبیل برگردد، این است که اگر شما، و من به هیچ وجه زیست‌شناس نیستم، اما ما این موجودات تک‌سلولی را داریم، درست است؟ مانند ساده‌ترین شکل ممکن از آنچه می‌توان زندگی نامید. اما هنوز زندگی است. فقط تک‌سلولی است. و سپس می‌توانید سلول‌ها را ترکیب کنید و سپس سلول‌ها در طول زمان تخصصی می‌شوند. و شما موجودات بسیار پیچیده‌تری دارید، می‌دانید، در انتهای دیگر طیف. در ذهن من، در بنیادی‌ترین سطح، تقریباً می‌توانید به داشتن عامل‌های اتمی فکر کنید. ساده‌ترین چیز ممکن که یک عامل است و هنوز هم می‌توان آن را عامل نامید چیست؟ معادل یک نوع موجود تک‌سلولی چیست؟ و دلیلی که فکر می‌کنم مفید است این است که در حال حاضر ما در مسیری هستیم که فکر می‌کنم بسیار هیجان‌انگیز است در مورد استفاده از ابزار، درست است؟ که می‌گوید، خوب، LLMها اکنون می‌توانند مجموعه‌ای از ابزارها را در اختیار داشته باشند که برای انجام هر کاری که برای پیشبرد هر هدفی که سعی در انجام آن دارد، فراخوانی می‌کند. و من خیلی نگران آن نیستم، اما اگر به آن فکر کنید، اگر فقط کمی چشم‌هایتان را تنگ کنید و بگویید، خب، چه می‌شد اگر همه چیز یک عامل بود؟ و چه می‌شد اگر ابزارها در واقع فقط عامل‌های اتمی بودند؟ زیرا آنگاه لاک‌پشت‌ها تا انتها پایین می‌روند، درست است؟ آنگاه اینطور است که، آه، خب، تمام آنچه واقعاً با استفاده از ابزار اتفاق می‌افتد این است که ما شبکه‌ای از عامل‌ها داریم که از طریق چیزی مانند MMCP از یکدیگر اطلاع دارند و می‌توانند یک مشکل خاص را تجزیه کنند و بگویند، آه، من این را به این مجموعه از عامل‌ها واگذار می‌کنم. و چرا باید این تمایز را بین ابزارها، که بیشتر اوقات توابع هستند، و یک عامل واقعی قائل شویم؟ و بنابراین من قصد دارم این پست آزاردهنده لینکدین را بنویسم، می‌دانید، که این را پیشنهاد می‌کند. اینطور است که، بسیار خوب. و من پیشنهاد نمی‌کنم که حتی توابع را، می‌دانید، عامل بنامیم. اما مقدار مشخصی از ظرافت وجود دارد که وقتی می‌گویید، آه، ما فقط می‌توانیم آن را به یک عنصر اولیه (primitive) کاهش دهیم، که یک عامل است که می‌توانید آن را به روش‌های پیچیده ترکیب کنید تا سطح انتزاع را بالا ببرید و به اهداف سطح بالاتری دست یابید. به هر حال، این پاسخ من است. می‌گویم این یک موفقیت است. از اینکه به سخنرانی TED من آمدید متشکرم.

https://www.latent.space/p/dharmesh