چشمانداز عاملهای هوش مصنوعی (AI agents) همهمنظوره به طور ناگهانی بسیار شلوغتر و جاهطلبانهتر شده است.
این هفته، استارتاپ مستقر در پالو آلتو به نام Genspark، محصولی را منتشر کرد که آن را Super Agent (ابرعامل) مینامد؛ یک سیستم خودکار سریع که برای انجام وظایف دنیای واقعی در طیف وسیعی از حوزهها طراحی شده است – از جمله برخی که تعجببرانگیز هستند، مانند برقراری تماس تلفنی با رستورانها با استفاده از صدای مصنوعی واقعگرایانه.
این عرضه، به رقابتی که در حال شکلگیری به عنوان جبهه جدید و مهمی در عرصه هوش مصنوعی است، دامن میزند: چه کسی اولین عامل همهمنظوره قابل اعتماد، انعطافپذیر و واقعاً مفید را خواهد ساخت؟ شاید پرسش فوریتر این باشد که این امر برای شرکتها چه معنایی دارد؟
عرضه Super Agent توسط Genspark تنها سه هفته پس از آن صورت میگیرد که یک استارتاپ دیگر با بنیانگذار چینی به نام Manus، به دلیل تواناییاش در هماهنگسازی ابزارها و منابع داده برای تکمیل وظایف ناهمزمان ابری مانند رزرو سفر، غربالگری رزومه و تحلیل سهام – همه بدون نیاز به نظارت دستی که معمولاً در اکثر عاملهای فعلی وجود دارد – توجهها را به خود جلب کرد.
اکنون Genspark ادعا میکند که حتی فراتر رفته است. به گفته اریک جینگ، همبنیانگذار، Super Agent بر سه ستون بنا شده است: ترکیبی هماهنگ از نُه مدل زبان بزرگ (LLM) مختلف، بیش از ۸۰ ابزار و بیش از ۱۰ مجموعه داده اختصاصی – که همگی در یک جریان هماهنگ با هم کار میکنند. این سیستم بسیار فراتر از چتباتهای سنتی عمل میکند، گردش کارهای پیچیده را مدیریت کرده و نتایج کاملاً اجرا شده را باز میگرداند.
در یک دمو، عامل Genspark یک سفر پنج روزه کامل به سن دیگو را برنامهریزی کرد، مسافتهای پیادهروی بین جاذبهها را محاسبه کرد، گزینههای حمل و نقل عمومی را ترسیم نمود و سپس از یک عامل تماس صوتی برای رزرو رستورانها استفاده کرد، از جمله مدیریت آلرژیهای غذایی و ترجیحات صندلی. دموی دیگری نشان داد که این عامل با تولید مراحل دستور پخت، صحنههای ویدئویی و پوششهای صوتی، یک ویدیوی کوتاه آشپزی ایجاد میکند. در دموی سوم، این عامل یک قسمت انیمیشنی به سبک ساوت پارک نوشت و تولید کرد که به رسوایی سیاسی اخیر Signalgate مربوط به اشتراکگذاری طرحهای جنگی با یک خبرنگار سیاسی میپرداخت.
اینها ممکن است مصرفکننده محور به نظر برسند، اما نشان میدهند که این فناوری به کدام سمت در حرکت است – به سوی اتوماسیون وظایف چندوجهی و چندمرحلهای که مرز بین تولید خلاقانه و اجرا را محو میکند.
جینگ در ویدئو میگوید: «حل این مشکلات دنیای واقعی بسیار سختتر از آن چیزی بود که فکر میکردیم، اما از پیشرفتی که داشتهایم هیجانزدهایم.»
یک ویژگی قانعکننده: Super Agent فرآیند فکری خود را به وضوح تجسم میکند و نشان میدهد که چگونه در هر مرحله استدلال میکند، کدام ابزارها را فراخوانی میکند و چرا. تماشای این منطق که در زمان واقعی اجرا میشود، باعث میشود سیستم کمتر شبیه یک جعبه سیاه و بیشتر شبیه یک شریک همکاریکننده به نظر برسد. این همچنین میتواند توسعهدهندگان سازمانی را ترغیب کند تا مسیرهای استدلال قابل ردیابی مشابهی را در سیستمهای هوش مصنوعی خود ایجاد کنند و برنامهها را شفافتر و قابل اعتمادتر سازند.
استفاده از Super Agent نیز به طرز چشمگیری آسان بود. رابط کاربری به راحتی در مرورگر و بدون نیاز به تنظیمات فنی راهاندازی شد. Genspark به کاربران اجازه میدهد بدون نیاز به اطلاعات شخصی، آزمایش را شروع کنند. در مقابل، Manus هنوز متقاضیان را ملزم به پیوستن به لیست انتظار و افشای حسابهای اجتماعی و سایر اطلاعات خصوصی میکند که این امر مانعی برای آزمایش محسوب میشود.
ما اولین بار در ماه نوامبر درباره Genspark نوشتیم، زمانی که این شرکت گزارشهای مالی مبتنی بر Claude را راهاندازی کرد. این شرکت حداقل ۱۶۰ میلیون دلار در دو دوره جذب سرمایه کرده است و توسط سرمایهگذاران مستقر در ایالات متحده و سنگاپور حمایت میشود.
آخرین بحث ویدئویی بین سم ویتیوین، توسعهدهنده عامل هوش مصنوعی، و من را در اینجا تماشا کنید تا عمیقتر بررسی کنیم که رویکرد Genspark چگونه با سایر چارچوبهای عامل مقایسه میشود و چرا برای تیمهای هوش مصنوعی سازمانی اهمیت دارد.
Genspark چگونه این کار را انجام میدهد؟
رویکرد Genspark برجسته است زیرا بر یک چالش مهندسی هوش مصنوعی دیرینه غلبه میکند: هماهنگسازی ابزار در مقیاس بزرگ.
اکثر عاملهای فعلی هنگام مدیریت بیش از تعداد انگشتشماری API یا ابزار خارجی دچار مشکل میشوند. به نظر میرسد Super Agent Genspark این موضوع را بهتر مدیریت میکند، احتمالاً با استفاده از مسیریابی مدل و انتخاب مبتنی بر بازیابی برای انتخاب پویا ابزارها و زیرمدلها بر اساس وظیفه.
این استراتژی بازتاب تحقیقات نوظهور پیرامون CoTools، یک چارچوب جدید از دانشگاه سوچو در چین است که نحوه استفاده مدلهای زبان بزرگ از مجموعههای ابزار گسترده و در حال تکامل را بهبود میبخشد. برخلاف رویکردهای قدیمیتر که به شدت به مهندسی پرامپت یا تنظیم دقیق (fine-tuning) سفت و سخت متکی هستند، CoTools مدل پایه را «منجمد» نگه میدارد در حالی که اجزای کوچکتری را برای قضاوت، بازیابی و فراخوانی مؤثر ابزارها آموزش میدهد.
یکی دیگر از عوامل توانمندساز، پروتکل زمینه مدل (Model Context Protocol - MCP) است، استانداردی کمتر شناخته شده اما به طور فزایندهای در حال پذیرش که به عاملها اجازه میدهد زمینههای ابزار و حافظه غنیتری را در طول مراحل حمل کنند. MCP، همراه با مجموعه دادههای اختصاصی Genspark، ممکن است یکی از دلایلی باشد که عامل آنها «هدایتپذیرتر» از گزینههای جایگزین به نظر میرسد.
این چگونه با Manus مقایسه میشود؟
Genspark اولین استارتاپی نیست که عاملهای عمومی را ترویج میکند. Manus، که ماه گذشته توسط شرکت چینی Monica راهاندازی شد، با سیستم چندعاملی خود که به طور خودکار ابزارهایی مانند مرورگر وب، ویرایشگر کد یا موتور صفحه گسترده را برای تکمیل وظایف چندمرحلهای اجرا میکند، سروصدا به پا کرد.
ادغام کارآمد Manus از اجزای منبع باز، از جمله ابزارهای وب و مدلهای زبان بزرگ مانند Claude از Anthropic، شگفتانگیز بود. علیرغم عدم ساخت پشته مدل اختصاصی، این سیستم همچنان در معیار GAIA - یک آزمون مصنوعی که برای ارزیابی اتوماسیون وظایف دنیای واقعی توسط عاملها طراحی شده است - از OpenAI عملکرد بهتری داشت.
با این حال، Genspark ادعا میکند که از Manus پیشی گرفته است و امتیاز ۸۷.۸٪ را در GAIA کسب کرده است – که بالاتر از ۸۶٪ گزارش شده برای Manus است – و این کار را با معماریای انجام داده که شامل اجزای اختصاصی و پوشش ابزار گستردهتری است.
بازیگران بزرگ فناوری: هنوز محتاطانه عمل میکنند؟
در همین حال، بزرگترین شرکتهای هوش مصنوعی مستقر در ایالات متحده محتاط بودهاند.
پیشنهاد اصلی عامل هوش مصنوعی مایکروسافت، Copilot Studio، بر روی عاملهای عمودی تنظیمشده دقیق (fine-tuned) تمرکز دارد که با برنامههای سازمانی مانند اکسل و اوتلوک هماهنگی نزدیکی دارند. OpenAI با Agent SDK خود، بلوکهای سازنده را فراهم میکند اما از ارائه عامل همهمنظوره و کاملاً مجهز خودداری میکند. Nova Act که اخیراً توسط آمازون اعلام شده است، رویکردی توسعهدهنده-محور اتخاذ میکند و اقدامات اتمی مبتنی بر مرورگر را از طریق SDK ارائه میدهد، اما به شدت به مدل زبان بزرگ Nova و زیرساخت ابری خود وابسته است.
این رویکردها ماژولارتر، امنتر و به وضوح برای استفاده سازمانی هدفگذاری شدهاند. اما فاقد جاهطلبی – یا خودمختاری – نشان داده شده در دموی Genspark هستند.
یک دلیل ممکن است ریسکگریزی باشد. هزینه اعتباری میتواند بالا باشد اگر یک عامل عمومی از گوگل یا مایکروسافت پرواز اشتباهی رزرو کند یا در یک تماس صوتی چیز عجیبی بگوید. این شرکتها همچنین به اکوسیستمهای مدل خود محدود هستند، که انعطافپذیری آنها را برای آزمایش با هماهنگسازی چندمدلی محدود میکند.
در مقابل، استارتاپهایی مانند Genspark، آزادی ترکیب و تطبیق مدلهای زبان بزرگ – و حرکت سریع – را دارند.
آیا شرکتها باید اهمیت دهند؟
این سؤال استراتژیک است. اکثر شرکتها به یک عامل همهمنظوره برای رزرو شام یا تولید کارتونهای طنز نیاز ندارند. اما ممکن است به زودی به عاملهایی نیاز پیدا کنند که بتوانند وظایف چندمرحلهای و خاص دامنه را مدیریت کنند، مانند استخراج و قالببندی دادههای انطباق، هماهنگسازی فرآیند پذیرش مشتری یا تولید محتوا در چندین فرمت.
در این زمینه، کار Genspark مرتبطتر میشود. هرچه عاملهای عمومی یکپارچهتر و خودمختارتر شوند – و هرچه بیشتر صدا، حافظه و ابزارهای خارجی را ادغام کنند – بیشتر میتوانند با برنامههای کاربردی SaaS قدیمی و پلتفرمهای RPA رقابت کنند.
و آنها این کار را با زیرساخت سبکتری انجام میدهند. به عنوان مثال، Genspark ادعا میکند که عامل آن «فوقالعاده هدایتپذیر» است و توسط بازاریابان، معلمان، استخدامکنندگان، طراحان و تحلیلگران – همگی با حداقل تنظیمات – قابل استفاده است.
عصر عامل عمومی دیگر فرضی نیست. اینجاست – و به سرعت در حال حرکت است.
ویدئوی گفتگو را اینجا تماشا کنید: