همه‌ی فعالان حوزه هوش مصنوعی درباره مانوس صحبت می‌کنند. ما آن را آزمایش کردیم.

از زمان عرضه عامل هوش مصنوعی عمومی مانوس (Manus) در هفته گذشته، این عامل مانند آتش‌سوزی در اینترنت پخش شده است. این موضوع فقط به چین، جایی که توسط استارتاپ Butterfly Effect مستقر در ووهان توسعه یافته، محدود نمی‌شود. مانوس راه خود را به گفتگوی جهانی باز کرده است و صداهای تأثیرگذار در حوزه فناوری، از جمله جک دورسی (Jack Dorsey)، بنیانگذار توییتر و ویکتور موستار (Victor Mustar)، مدیر محصول Hugging Face، عملکرد آن را تحسین کرده‌اند. برخی حتی آن را "دومین DeepSeek" نامیده‌اند و آن را با مدل هوش مصنوعی قبلی که این صنعت را شگفت‌زده کرد مقایسه می‌کنند—هم به دلیل قابلیت‌های غیرمنتظره‌اش و هم به دلیل منشأ آن.

مانوس ادعا می‌کند که اولین عامل هوش مصنوعی عمومی در جهان است—با بهره‌گیری از چندین مدل هوش مصنوعی (مانند Claude 3.5 Sonnet از Anthropic و نسخه‌های دقیق تنظیم‌شده Qwen منبع باز Alibaba) و عوامل مختلف مستقل عمل‌کننده برای انجام خودکار طیف گسترده‌ای از وظایف. (این با ربات‌های گفتگو هوش مصنوعی، از جمله DeepSeek، که بر اساس یک خانواده مدل زبانی بزرگ واحد ساخته شده‌اند و در درجه اول برای تعاملات مکالمه طراحی شده‌اند، متفاوت است.)

داستان مرتبط

عوامل هوش مصنوعی (AI agents) چه هستند؟

موضوع بزرگ بعدی ابزارهای هوش مصنوعی هستند که می‌توانند وظایف پیچیده‌تری را انجام دهند. در اینجا نحوه عملکرد آنها آمده است.

با وجود تمام تبلیغات، افراد بسیار کمی فرصت استفاده از آن را داشته‌اند. در حال حاضر، کمتر از 1٪ از کاربران در لیست انتظار یک کد دعوت دریافت کرده‌اند. (مشخص نیست چه تعداد افراد در این لیست انتظار هستند، اما برای درک میزان علاقه، کانال Discord مانوس بیش از 186000 عضو دارد.)

MIT Technology Review توانست به مانوس دسترسی پیدا کند، و وقتی من آن را آزمایش کردم، متوجه شدم که استفاده از آن مانند همکاری با یک کارآموز بسیار باهوش و کارآمد است: در حالی که گاهی اوقات فاقد درک درستی از آنچه از آن خواسته می‌شود، فرضیات نادرستی می‌سازد، یا برای تسریع وظایف، میانبر می‌زند، اما استدلال خود را به وضوح توضیح می‌دهد، به طرز چشمگیری سازگار است و می‌تواند با ارائه دستورالعمل‌ها یا بازخورد دقیق، به طور قابل توجهی بهبود یابد. در نهایت، امیدوارکننده است اما کامل نیست.

تصاویری از رابط کاربری مانوس

مانند محصول قبلی شرکت مادرش، یک دستیار هوش مصنوعی به نام Monica که در سال 2023 منتشر شد، مانوس برای مخاطبان جهانی در نظر گرفته شده است. زبان انگلیسی به عنوان زبان پیش فرض تنظیم شده است و طراحی آن تمیز و مینیمالیستی است.

برای ورود به سیستم، کاربر باید یک کد دعوت معتبر وارد کند. سپس سیستم کاربران را به یک صفحه فرود هدایت می‌کند که شباهت زیادی به صفحات ChatGPT یا DeepSeek دارد، با جلسات تاریخی نمایش داده شده در یک ستون سمت چپ و یک جعبه ورودی چت در مرکز. صفحه فرود همچنین دارای وظایف نمونه‌ای است که توسط شرکت تنظیم شده است—از توسعه استراتژی تجاری گرفته تا یادگیری تعاملی تا جلسات مدیتیشن صوتی سفارشی.

مانند سایر ابزارهای هوش مصنوعی مبتنی بر استدلال، مانند ChatGPT DeepResearch، مانوس قادر است وظایف را به مراحلی تقسیم کند و به طور خودکار در وب حرکت کند تا اطلاعات مورد نیاز خود را برای تکمیل وظایف به دست آورد. چیزی که آن را متمایز می‌کند پنجره "کامپیوتر مانوس" است که به کاربران این امکان را می‌دهد نه تنها آنچه را که عامل انجام می‌دهد مشاهده کنند، بلکه در هر نقطه‌ای مداخله کنند.

برای آزمایش آن، من به مانوس سه وظیفه دادم: (1) لیستی از خبرنگاران برجسته پوشش‌دهنده فناوری چین تهیه کند، (2) لیست‌های املاک دو خوابه در شهر نیویورک را جستجو کند، و (3) نامزدهای بالقوه را برای Innovators Under 35، لیستی که توسط MIT Technology Review هر سال ایجاد می‌شود، معرفی کند.

در اینجا نحوه عملکرد آن آمده است:

وظیفه 1: اولین لیست خبرنگارانی که مانوس به من داد فقط شامل پنج نام بود، با پنج "ذکر افتخاری" در زیر آنها. متوجه شدم که کارهای قابل توجه برخی از روزنامه‌نگاران را ذکر کرده است در حالی که کارهای دیگران را ذکر نکرده است. از مانوس پرسیدم چرا این کار را انجام داده است. دلیلی که ارائه داد به طرز خنده‌داری ساده بود: تنبلی کرده بود. این عامل به من گفت: "تا حدودی به دلیل محدودیت‌های زمانی در تلاشم برای تسریع روند تحقیق بود." وقتی بر سازگاری و دقت اصرار کردم، مانوس با یک لیست جامع از 30 روزنامه‌نگار پاسخ داد و به رسانه فعلی آنها اشاره کرد و کارهای قابل توجه آنها را فهرست کرد. (خوشحال شدم که دیدم من نیز به همراه بسیاری از همکاران عزیزم در این لیست قرار دارم.)

تحت تأثیر قرار گرفتم که توانستم پیشنهادهای سطح بالایی برای تغییرات ارائه دهم، درست مانند کاری که کسی با یک کارآموز یا دستیار واقعی انجام می‌دهد، و اینکه به همین ترتیب پاسخ داد. و در حالی که در ابتدا از برخی تغییرات وضعیت کارفرمای روزنامه‌نگاران چشم‌پوشی کرد، وقتی از او خواستم برخی از نتایج را دوباره بررسی کند، به سرعت آنها را تصحیح کرد. یکی دیگر از ویژگی‌های خوب: خروجی به صورت فایل Word یا Excel قابل دانلود بود، که ویرایش یا اشتراک‌گذاری آن را با دیگران آسان می‌کند.

با این حال، مانوس هنگام دسترسی به مقالات خبری روزنامه‌نگاران در پشت paywallها به مشکل برخورد. اغلب با بلوک‌های CAPTCHA مواجه می‌شد. از آنجایی که می‌توانستم گام به گام دنبال کنم، می‌توانستم به راحتی برای تکمیل این موارد، کنترل را در دست بگیرم، اگرچه بسیاری از سایت‌های رسانه‌ای همچنان به دلیل فعالیت مشکوک این ابزار را مسدود می‌کردند. من پتانسیل بهبودهای عمده را در اینجا می‌بینم—و اگر نسخه آینده مانوس بتواند به طور فعال در صورت مواجهه با این نوع محدودیت‌ها درخواست کمک کند، مفید خواهد بود.

وظیفه 2: برای جستجوی آپارتمان، من به مانوس مجموعه پیچیده‌ای از معیارها را دادم، از جمله بودجه، و پارامترهایی برای یک آشپزخانه بزرگ، فضای باز، دسترسی به مرکز شهر منهتن، و یک ایستگاه قطار اصلی در عرض هفت دقیقه پیاده‌روی. مانوس در ابتدا الزامات مبهمی مانند "نوعی دسترسی به فضای باز" را بیش از حد تحت اللفظی تفسیر کرد و به طور کامل املاکی را که بدون تراس خصوصی یا دسترسی به بالکن بودند، حذف کرد. با این حال، پس از راهنمایی و توضیح بیشتر، توانست یک لیست گسترده‌تر و مفیدتر تهیه کند و توصیه‌هایی را در سطوح مختلف و با نکات گلوله‌ای ارائه دهد.

خروجی نهایی مستقیماً از Wirecutter احساس می‌شد و حاوی زیرنویس‌هایی مانند "بهترین در کل"، "بهترین ارزش" و "گزینه لوکس" بود. این وظیفه (از جمله رفت و برگشت) کمتر از نیم ساعت طول کشید—بسیار سریع‌تر از تهیه لیست روزنامه‌نگاران (که کمی بیش از یک ساعت طول کشید)، احتمالاً به این دلیل که لیست‌های املاک به طور آشکارتر و ساختاریافته‌تری به صورت آنلاین در دسترس هستند.

وظیفه 3: این بزرگترین در محدوده بود: من از مانوس خواستم 50 نفر را برای لیست Innovators Under 35 امسال معرفی کند. تهیه این لیست یک تعهد بزرگ است و ما معمولاً هر سال صدها نامزد دریافت می‌کنیم. بنابراین من کنجکاو بودم ببینم مانوس چقدر خوب می‌تواند این کار را انجام دهد. این وظیفه را به مراحلی تقسیم کرد، از جمله بررسی لیست‌های گذشته برای درک معیارهای انتخاب، ایجاد یک استراتژی جستجو برای شناسایی نامزدها، گردآوری نام‌ها و اطمینان از انتخاب متنوعی از نامزدها از سراسر جهان.

داستان مرتبط

چگونه DeepSeek به یک فالگیر برای جوانان چین تبدیل شد

تجزیه و تحلیل BaZi مبتنی بر هوش مصنوعی به اوراکل جدیدی برای نسل ناامید در جستجوی پاسخ تبدیل شده است.

توسعه یک استراتژی جستجو پرهزینه‌ترین بخش برای مانوس بود. در حالی که رویکرد خود را به صراحت تشریح نکرد، پنجره کامپیوتر مانوس نشان داد که عامل به سرعت در حال پیمایش در وب‌سایت‌های دانشگاه‌های تحقیقاتی معتبر، اعلامیه‌های جوایز فناوری و مقالات خبری است. با این حال، دوباره هنگام تلاش برای دسترسی به مقالات علمی و محتوای رسانه‌ای paywalled با موانعی روبرو شد.

پس از سه ساعت جستجو در اینترنت—که در طی آن مانوس (به طور قابل درکی) چندین بار از من پرسید که آیا می‌توانم جستجو را محدود کنم—فقط توانست سه نامزد با مشخصات کامل ارائه دهد. وقتی دوباره به او فشار آوردم تا یک لیست کامل از 50 نام ارائه دهد، در نهایت یک لیست تولید کرد، اما برخی از مؤسسات و زمینه‌های علمی به شدت بیش از حد نمایندگی می‌شدند، که نشان‌دهنده یک فرآیند تحقیق ناقص بود. پس از اینکه این موضوع را خاطرنشان کردم و از او خواستم پنج نامزد از چین پیدا کند، توانست یک لیست محکم پنج نامی تهیه کند، اگرچه نتایج به سمت محبوب‌های رسانه‌های چینی متمایل بود. در نهایت، مجبور شدم پس از اینکه سیستم هشدار داد که اگر به وارد کردن متن زیاد ادامه دهم، ممکن است عملکرد مانوس کاهش یابد، دست از کار بکشم.

ارزیابی من: به طور کلی، من مانوس را یک ابزار بسیار شهودی مناسب برای کاربرانی با یا بدون پیشینه کدنویسی یافتم. در دو مورد از سه وظیفه، نتایج بهتری نسبت به زمانی که همان وظایف را به ChatGPT DeepResearch ارائه دادم، ارائه داد، اگرچه تکمیل آنها به طور قابل توجهی بیشتر طول کشید. به نظر می‌رسد مانوس برای وظایف تحلیلی که نیاز به تحقیقات گسترده در اینترنت آزاد دارند، اما دامنه محدودی دارند، مناسب‌تر است. به عبارت دیگر، بهتر است به چیزهایی بچسبید که یک کارآموز انسانی ماهر می‌تواند در یک روز کاری انجام دهد.

با این حال، همه چیز به آرامی پیش نمی‌رود. مانوس می‌تواند از خرابی‌های مکرر و بی‌ثباتی سیستم رنج ببرد، و هنگام پردازش تکه‌های بزرگ متن با مشکل مواجه شود. پیام "به دلیل بار بالای سرویس فعلی، امکان ایجاد وظایف وجود ندارد. لطفاً چند دقیقه دیگر دوباره امتحان کنید" چند بار هنگام شروع درخواست‌های جدید روی صفحه من چشمک زد، و گاهی اوقات کامپیوتر مانوس برای مدت طولانی در یک صفحه خاص یخ می‌زد.

نرخ خرابی آن بیشتر از ChatGPT DeepResearch است—مشکلی که تیم در حال رسیدگی به آن است، طبق گزارش Peak Ji، دانشمند ارشد مانوس. با این اوصاف، رسانه چینی 36Kr گزارش می‌دهد که هزینه هر وظیفه مانوس حدود 2 دلار است، که فقط یک دهم هزینه DeepResearch است. اگر تیم مانوس زیرساخت سرور خود را تقویت کند، می‌توانم ببینم که این ابزار به یک انتخاب ارجح برای کاربران فردی، به ویژه متخصصان یقه سفید، توسعه دهندگان مستقل و تیم‌های کوچک تبدیل می‌شود.

در نهایت، فکر می‌کنم واقعاً ارزشمند است که روند کاری مانوس شفاف‌تر و مشارکتی‌تر است. این ابزار به طور فعال در طول مسیر سؤال می‌پرسد و دستورالعمل‌های کلیدی را به عنوان "دانش" در حافظه خود برای استفاده در آینده حفظ می‌کند، و امکان یک تجربه عامل قابل تنظیم آسان را فراهم می‌کند. همچنین واقعاً خوب است که هر جلسه قابل پخش و اشتراک‌گذاری است.

انتظار دارم به استفاده از مانوس برای انواع وظایف، هم در زندگی شخصی و هم در زندگی حرفه‌ای خود ادامه دهم. در حالی که مطمئن نیستم مقایسه‌ها با DeepSeek کاملاً درست باشند، اما به عنوان مدرکی بیشتر مبنی بر اینکه شرکت‌های هوش مصنوعی چینی فقط از ردپای همتایان غربی خود پیروی نمی‌کنند، عمل می‌کند. آنها فقط در مدل‌های پایه نوآوری نمی‌کنند، بلکه به طور فعال در حال شکل دادن به پذیرش عوامل هوش مصنوعی خودمختار به روش خود هستند.