<em>منبع تصویر: ونچربیت از طریق ChatGPT</em>
<em>منبع تصویر: ونچربیت از طریق ChatGPT</em>

ابرعامل جن‌اسپارک رقابت را در عرصه عامل‌های هوش مصنوعی عمومی داغ‌تر می‌کند

چشم‌انداز عامل‌های هوش مصنوعی (AI agents) همه‌منظوره به طور ناگهانی بسیار شلوغ‌تر و جاه‌طلبانه‌تر شده است.

این هفته، استارتاپ مستقر در پالو آلتو به نام Genspark، محصولی را منتشر کرد که آن را Super Agent (ابرعامل) می‌نامد؛ یک سیستم خودکار سریع که برای انجام وظایف دنیای واقعی در طیف وسیعی از حوزه‌ها طراحی شده است – از جمله برخی که تعجب‌برانگیز هستند، مانند برقراری تماس تلفنی با رستوران‌ها با استفاده از صدای مصنوعی واقع‌گرایانه.

این عرضه، به رقابتی که در حال شکل‌گیری به عنوان جبهه جدید و مهمی در عرصه هوش مصنوعی است، دامن می‌زند: چه کسی اولین عامل همه‌منظوره قابل اعتماد، انعطاف‌پذیر و واقعاً مفید را خواهد ساخت؟ شاید پرسش فوری‌تر این باشد که این امر برای شرکت‌ها چه معنایی دارد؟

عرضه Super Agent توسط Genspark تنها سه هفته پس از آن صورت می‌گیرد که یک استارتاپ دیگر با بنیان‌گذار چینی به نام Manus، به دلیل توانایی‌اش در هماهنگ‌سازی ابزارها و منابع داده برای تکمیل وظایف ناهمزمان ابری مانند رزرو سفر، غربالگری رزومه و تحلیل سهام – همه بدون نیاز به نظارت دستی که معمولاً در اکثر عامل‌های فعلی وجود دارد – توجه‌ها را به خود جلب کرد.

اکنون Genspark ادعا می‌کند که حتی فراتر رفته است. به گفته اریک جینگ، هم‌بنیان‌گذار، Super Agent بر سه ستون بنا شده است: ترکیبی هماهنگ از نُه مدل زبان بزرگ (LLM) مختلف، بیش از ۸۰ ابزار و بیش از ۱۰ مجموعه داده اختصاصی – که همگی در یک جریان هماهنگ با هم کار می‌کنند. این سیستم بسیار فراتر از چت‌بات‌های سنتی عمل می‌کند، گردش کارهای پیچیده را مدیریت کرده و نتایج کاملاً اجرا شده را باز می‌گرداند.

در یک دمو، عامل Genspark یک سفر پنج روزه کامل به سن دیگو را برنامه‌ریزی کرد، مسافت‌های پیاده‌روی بین جاذبه‌ها را محاسبه کرد، گزینه‌های حمل و نقل عمومی را ترسیم نمود و سپس از یک عامل تماس صوتی برای رزرو رستوران‌ها استفاده کرد، از جمله مدیریت آلرژی‌های غذایی و ترجیحات صندلی. دموی دیگری نشان داد که این عامل با تولید مراحل دستور پخت، صحنه‌های ویدئویی و پوشش‌های صوتی، یک ویدیوی کوتاه آشپزی ایجاد می‌کند. در دموی سوم، این عامل یک قسمت انیمیشنی به سبک ساوت پارک نوشت و تولید کرد که به رسوایی سیاسی اخیر Signalgate مربوط به اشتراک‌گذاری طرح‌های جنگی با یک خبرنگار سیاسی می‌پرداخت.

این‌ها ممکن است مصرف‌کننده محور به نظر برسند، اما نشان می‌دهند که این فناوری به کدام سمت در حرکت است – به سوی اتوماسیون وظایف چندوجهی و چندمرحله‌ای که مرز بین تولید خلاقانه و اجرا را محو می‌کند.

جینگ در ویدئو می‌گوید: «حل این مشکلات دنیای واقعی بسیار سخت‌تر از آن چیزی بود که فکر می‌کردیم، اما از پیشرفتی که داشته‌ایم هیجان‌زده‌ایم.»

یک ویژگی قانع‌کننده: Super Agent فرآیند فکری خود را به وضوح تجسم می‌کند و نشان می‌دهد که چگونه در هر مرحله استدلال می‌کند، کدام ابزارها را فراخوانی می‌کند و چرا. تماشای این منطق که در زمان واقعی اجرا می‌شود، باعث می‌شود سیستم کمتر شبیه یک جعبه سیاه و بیشتر شبیه یک شریک همکاری‌کننده به نظر برسد. این همچنین می‌تواند توسعه‌دهندگان سازمانی را ترغیب کند تا مسیرهای استدلال قابل ردیابی مشابهی را در سیستم‌های هوش مصنوعی خود ایجاد کنند و برنامه‌ها را شفاف‌تر و قابل اعتمادتر سازند.

استفاده از Super Agent نیز به طرز چشمگیری آسان بود. رابط کاربری به راحتی در مرورگر و بدون نیاز به تنظیمات فنی راه‌اندازی شد. Genspark به کاربران اجازه می‌دهد بدون نیاز به اطلاعات شخصی، آزمایش را شروع کنند. در مقابل، Manus هنوز متقاضیان را ملزم به پیوستن به لیست انتظار و افشای حساب‌های اجتماعی و سایر اطلاعات خصوصی می‌کند که این امر مانعی برای آزمایش محسوب می‌شود.

ما اولین بار در ماه نوامبر درباره Genspark نوشتیم، زمانی که این شرکت گزارش‌های مالی مبتنی بر Claude را راه‌اندازی کرد. این شرکت حداقل ۱۶۰ میلیون دلار در دو دوره جذب سرمایه کرده است و توسط سرمایه‌گذاران مستقر در ایالات متحده و سنگاپور حمایت می‌شود.

آخرین بحث ویدئویی بین سم ویتیوین، توسعه‌دهنده عامل هوش مصنوعی، و من را در اینجا تماشا کنید تا عمیق‌تر بررسی کنیم که رویکرد Genspark چگونه با سایر چارچوب‌های عامل مقایسه می‌شود و چرا برای تیم‌های هوش مصنوعی سازمانی اهمیت دارد.

Genspark چگونه این کار را انجام می‌دهد؟

رویکرد Genspark برجسته است زیرا بر یک چالش مهندسی هوش مصنوعی دیرینه غلبه می‌کند: هماهنگ‌سازی ابزار در مقیاس بزرگ.

اکثر عامل‌های فعلی هنگام مدیریت بیش از تعداد انگشت‌شماری API یا ابزار خارجی دچار مشکل می‌شوند. به نظر می‌رسد Super Agent Genspark این موضوع را بهتر مدیریت می‌کند، احتمالاً با استفاده از مسیریابی مدل و انتخاب مبتنی بر بازیابی برای انتخاب پویا ابزارها و زیرمدل‌ها بر اساس وظیفه.

این استراتژی بازتاب تحقیقات نوظهور پیرامون CoTools، یک چارچوب جدید از دانشگاه سوچو در چین است که نحوه استفاده مدل‌های زبان بزرگ از مجموعه‌های ابزار گسترده و در حال تکامل را بهبود می‌بخشد. برخلاف رویکردهای قدیمی‌تر که به شدت به مهندسی پرامپت یا تنظیم دقیق (fine-tuning) سفت و سخت متکی هستند، CoTools مدل پایه را «منجمد» نگه می‌دارد در حالی که اجزای کوچک‌تری را برای قضاوت، بازیابی و فراخوانی مؤثر ابزارها آموزش می‌دهد.

یکی دیگر از عوامل توانمندساز، پروتکل زمینه مدل (Model Context Protocol - MCP) است، استانداردی کمتر شناخته شده اما به طور فزاینده‌ای در حال پذیرش که به عامل‌ها اجازه می‌دهد زمینه‌های ابزار و حافظه غنی‌تری را در طول مراحل حمل کنند. MCP، همراه با مجموعه داده‌های اختصاصی Genspark، ممکن است یکی از دلایلی باشد که عامل آن‌ها «هدایت‌پذیرتر» از گزینه‌های جایگزین به نظر می‌رسد.

این چگونه با Manus مقایسه می‌شود؟

Genspark اولین استارتاپی نیست که عامل‌های عمومی را ترویج می‌کند. Manus، که ماه گذشته توسط شرکت چینی Monica راه‌اندازی شد، با سیستم چندعاملی خود که به طور خودکار ابزارهایی مانند مرورگر وب، ویرایشگر کد یا موتور صفحه گسترده را برای تکمیل وظایف چندمرحله‌ای اجرا می‌کند، سروصدا به پا کرد.

ادغام کارآمد Manus از اجزای منبع باز، از جمله ابزارهای وب و مدل‌های زبان بزرگ مانند Claude از Anthropic، شگفت‌انگیز بود. علی‌رغم عدم ساخت پشته مدل اختصاصی، این سیستم همچنان در معیار GAIA - یک آزمون مصنوعی که برای ارزیابی اتوماسیون وظایف دنیای واقعی توسط عامل‌ها طراحی شده است - از OpenAI عملکرد بهتری داشت.

با این حال، Genspark ادعا می‌کند که از Manus پیشی گرفته است و امتیاز ۸۷.۸٪ را در GAIA کسب کرده است – که بالاتر از ۸۶٪ گزارش شده برای Manus است – و این کار را با معماری‌ای انجام داده که شامل اجزای اختصاصی و پوشش ابزار گسترده‌تری است.

بازیگران بزرگ فناوری: هنوز محتاطانه عمل می‌کنند؟

در همین حال، بزرگترین شرکت‌های هوش مصنوعی مستقر در ایالات متحده محتاط بوده‌اند.

پیشنهاد اصلی عامل هوش مصنوعی مایکروسافت، Copilot Studio، بر روی عامل‌های عمودی تنظیم‌شده دقیق (fine-tuned) تمرکز دارد که با برنامه‌های سازمانی مانند اکسل و اوت‌لوک هماهنگی نزدیکی دارند. OpenAI با Agent SDK خود، بلوک‌های سازنده را فراهم می‌کند اما از ارائه عامل همه‌منظوره و کاملاً مجهز خودداری می‌کند Nova Act که اخیراً توسط آمازون اعلام شده است، رویکردی توسعه‌دهنده-محور اتخاذ می‌کند و اقدامات اتمی مبتنی بر مرورگر را از طریق SDK ارائه می‌دهد، اما به شدت به مدل زبان بزرگ Nova و زیرساخت ابری خود وابسته است.

این رویکردها ماژولارتر، امن‌تر و به وضوح برای استفاده سازمانی هدف‌گذاری شده‌اند. اما فاقد جاه‌طلبی – یا خودمختاری – نشان داده شده در دموی Genspark هستند.

یک دلیل ممکن است ریسک‌گریزی باشد. هزینه اعتباری می‌تواند بالا باشد اگر یک عامل عمومی از گوگل یا مایکروسافت پرواز اشتباهی رزرو کند یا در یک تماس صوتی چیز عجیبی بگوید. این شرکت‌ها همچنین به اکوسیستم‌های مدل خود محدود هستند، که انعطاف‌پذیری آن‌ها را برای آزمایش با هماهنگ‌سازی چندمدلی محدود می‌کند.

در مقابل، استارتاپ‌هایی مانند Genspark، آزادی ترکیب و تطبیق مدل‌های زبان بزرگ – و حرکت سریع – را دارند.

آیا شرکت‌ها باید اهمیت دهند؟

این سؤال استراتژیک است. اکثر شرکت‌ها به یک عامل همه‌منظوره برای رزرو شام یا تولید کارتون‌های طنز نیاز ندارند. اما ممکن است به زودی به عامل‌هایی نیاز پیدا کنند که بتوانند وظایف چندمرحله‌ای و خاص دامنه را مدیریت کنند، مانند استخراج و قالب‌بندی داده‌های انطباق، هماهنگ‌سازی فرآیند پذیرش مشتری یا تولید محتوا در چندین فرمت.

در این زمینه، کار Genspark مرتبط‌تر می‌شود. هرچه عامل‌های عمومی یکپارچه‌تر و خودمختارتر شوند – و هرچه بیشتر صدا، حافظه و ابزارهای خارجی را ادغام کنند – بیشتر می‌توانند با برنامه‌های کاربردی SaaS قدیمی و پلتفرم‌های RPA رقابت کنند.

و آن‌ها این کار را با زیرساخت سبک‌تری انجام می‌دهند. به عنوان مثال، Genspark ادعا می‌کند که عامل آن «فوق‌العاده هدایت‌پذیر» است و توسط بازاریابان، معلمان، استخدام‌کنندگان، طراحان و تحلیلگران – همگی با حداقل تنظیمات – قابل استفاده است.

عصر عامل عمومی دیگر فرضی نیست. اینجاست – و به سرعت در حال حرکت است.

ویدئوی گفتگو را اینجا تماشا کنید:

https://www.youtube.com/watch?v=Zd47nOxI81w