Stephanie Arnett/MIT Technology Review | Adobe Stock, Envato
Stephanie Arnett/MIT Technology Review | Adobe Stock, Envato

OpenAI از اپراتور رونمایی کرد - عاملی که می‌تواند از کامپیوتر برای شما استفاده کند

پس از هفته‌ها گمانه‌زنی، OpenAI از اپراتور، اولین عامل هوش مصنوعی خود، رونمایی کرد. اپراتور یک برنامه وب است که می‌تواند وظایف ساده آنلاین را در یک مرورگر انجام دهد، مانند رزرو بلیط کنسرت یا پر کردن سفارش آنلاین مواد غذایی. این برنامه توسط یک مدل جدید به نام عامل استفاده‌کننده از کامپیوتر - CUA (به اختصار "کو-آ") - ساخته شده بر روی مدل زبانی بزرگ چندوجهی OpenAI، GPT-4o، پشتیبانی می‌شود.

اپراتور امروز در operator.chatgpt.com برای افرادی که در ایالات متحده با ChatGPT Pro، سرویس پریمیوم ۲۰۰ دلاری ماهانه OpenAI، ثبت‌نام کرده‌اند، در دسترس است. این شرکت می‌گوید که قصد دارد این ابزار را در آینده برای سایر کاربران نیز عرضه کند.

OpenAI ادعا می‌کند که اپراتور از ابزارهای مشابه رقیب، از جمله Computer Use Anthropic (نسخه‌ای از Claude 3.5 Sonnet که می‌تواند وظایف ساده‌ای را روی کامپیوتر انجام دهد) و Mariner گوگل دیپ‌مایند (یک عامل مرورگر وب ساخته شده بر روی Gemini 2.0) بهتر عمل می‌کند.

این واقعیت که سه شرکت برتر هوش مصنوعی جهان در مورد چشم‌انداز مدل‌های مبتنی بر عامل به یک دیدگاه مشترک رسیده‌اند، یک چیز را روشن می‌کند. نبرد برای برتری هوش مصنوعی مرز جدیدی دارد - و آن صفحه نمایش کامپیوتر ماست.

علی فرهادی، مدیرعامل مؤسسه هوش مصنوعی آلن (AI2)، می‌گوید: «حرکت از تولید متن و تصاویر به انجام کارها، مسیر درستی است. این کسب‌وکار را آزاد می‌کند و مشکلات جدید را حل می‌کند.»

فرهادی فکر می‌کند که انجام کارها روی صفحه کامپیوتر اولین قدم طبیعی برای عامل‌ها است: «به اندازه کافی محدود است که وضعیت فعلی فناوری واقعاً می‌تواند کار کند. در عین حال، به اندازه کافی تأثیرگذار است که مردم ممکن است از آن استفاده کنند.» (فرهادی می‌گوید AI2 در حال کار بر روی عامل استفاده‌کننده از کامپیوتر خود است.)

به این هیاهو باور نکنید

اعلامیه OpenAI همچنین یکی از دو شایعه‌ای را که این هفته در اینترنت منتشر شد، تأیید می‌کند. یکی پیش‌بینی می‌کرد که OpenAI پس از انتشار جزئیاتی در مورد اپراتور در رسانه‌های اجتماعی قبل از انتشار آن، قرار است یک برنامه مبتنی بر عامل را معرفی کند. دیگری پیش‌بینی می‌کرد که OpenAI قرار است یک ابرهوش جدید را معرفی کند - و مقامات رئیس‌جمهور تازه تحلیف‌شده ترامپ در مورد آن توجیه خواهند شد.

آیا این دو شایعه می‌توانند به هم مرتبط باشند؟ طرفداران پروپاقرص OpenAI می‌خواستند بدانند.

خیر. OpenAI دیروز پیش‌نمایشی از اپراتور در عمل را به MIT Technology Review داد. این ابزار نگاهی هیجان‌انگیز به پتانسیل مدل‌های زبانی بزرگ برای انجام کارهای بسیار بیشتر از پاسخ دادن به سؤالات است. اما اپراتور یک کار تجربی در حال پیشرفت است. یاش کومار، محققی در OpenAI، می‌گوید: «هنوز زود است، هنوز اشتباهاتی می‌کند.»

(در مورد شایعات وحشیانه ابرهوش، اجازه دهید آن را به سم آلتمن، مدیرعامل OpenAI، واگذار کنیم: «هیاهوی توییتر دوباره از کنترل خارج شده است،» او در ۲۰ ژانویه پست گذاشت. «لطفاً آرام باشید و انتظارات خود را ۱۰۰ برابر کاهش دهید!»)

مانند Computer Use Anthropic و Mariner گوگل دیپ‌مایند، اپراتور از صفحه نمایش کامپیوتر اسکرین‌شات می‌گیرد و پیکسل‌ها را اسکن می‌کند تا بفهمد چه اقداماتی می‌تواند انجام دهد. CUA، مدل پشت آن، برای تعامل با همان رابط‌های کاربری گرافیکی - دکمه‌ها، جعبه‌های متن، منو