پس از هفتهها گمانهزنی، OpenAI از اپراتور، اولین عامل هوش مصنوعی خود، رونمایی کرد. اپراتور یک برنامه وب است که میتواند وظایف ساده آنلاین را در یک مرورگر انجام دهد، مانند رزرو بلیط کنسرت یا پر کردن سفارش آنلاین مواد غذایی. این برنامه توسط یک مدل جدید به نام عامل استفادهکننده از کامپیوتر - CUA (به اختصار "کو-آ") - ساخته شده بر روی مدل زبانی بزرگ چندوجهی OpenAI، GPT-4o، پشتیبانی میشود.
اپراتور امروز در operator.chatgpt.com برای افرادی که در ایالات متحده با ChatGPT Pro، سرویس پریمیوم ۲۰۰ دلاری ماهانه OpenAI، ثبتنام کردهاند، در دسترس است. این شرکت میگوید که قصد دارد این ابزار را در آینده برای سایر کاربران نیز عرضه کند.
OpenAI ادعا میکند که اپراتور از ابزارهای مشابه رقیب، از جمله Computer Use Anthropic (نسخهای از Claude 3.5 Sonnet که میتواند وظایف سادهای را روی کامپیوتر انجام دهد) و Mariner گوگل دیپمایند (یک عامل مرورگر وب ساخته شده بر روی Gemini 2.0) بهتر عمل میکند.
این واقعیت که سه شرکت برتر هوش مصنوعی جهان در مورد چشمانداز مدلهای مبتنی بر عامل به یک دیدگاه مشترک رسیدهاند، یک چیز را روشن میکند. نبرد برای برتری هوش مصنوعی مرز جدیدی دارد - و آن صفحه نمایش کامپیوتر ماست.
علی فرهادی، مدیرعامل مؤسسه هوش مصنوعی آلن (AI2)، میگوید: «حرکت از تولید متن و تصاویر به انجام کارها، مسیر درستی است. این کسبوکار را آزاد میکند و مشکلات جدید را حل میکند.»
فرهادی فکر میکند که انجام کارها روی صفحه کامپیوتر اولین قدم طبیعی برای عاملها است: «به اندازه کافی محدود است که وضعیت فعلی فناوری واقعاً میتواند کار کند. در عین حال، به اندازه کافی تأثیرگذار است که مردم ممکن است از آن استفاده کنند.» (فرهادی میگوید AI2 در حال کار بر روی عامل استفادهکننده از کامپیوتر خود است.)
به این هیاهو باور نکنید
اعلامیه OpenAI همچنین یکی از دو شایعهای را که این هفته در اینترنت منتشر شد، تأیید میکند. یکی پیشبینی میکرد که OpenAI پس از انتشار جزئیاتی در مورد اپراتور در رسانههای اجتماعی قبل از انتشار آن، قرار است یک برنامه مبتنی بر عامل را معرفی کند. دیگری پیشبینی میکرد که OpenAI قرار است یک ابرهوش جدید را معرفی کند - و مقامات رئیسجمهور تازه تحلیفشده ترامپ در مورد آن توجیه خواهند شد.
آیا این دو شایعه میتوانند به هم مرتبط باشند؟ طرفداران پروپاقرص OpenAI میخواستند بدانند.
خیر. OpenAI دیروز پیشنمایشی از اپراتور در عمل را به MIT Technology Review داد. این ابزار نگاهی هیجانانگیز به پتانسیل مدلهای زبانی بزرگ برای انجام کارهای بسیار بیشتر از پاسخ دادن به سؤالات است. اما اپراتور یک کار تجربی در حال پیشرفت است. یاش کومار، محققی در OpenAI، میگوید: «هنوز زود است، هنوز اشتباهاتی میکند.»
(در مورد شایعات وحشیانه ابرهوش، اجازه دهید آن را به سم آلتمن، مدیرعامل OpenAI، واگذار کنیم: «هیاهوی توییتر دوباره از کنترل خارج شده است،» او در ۲۰ ژانویه پست گذاشت. «لطفاً آرام باشید و انتظارات خود را ۱۰۰ برابر کاهش دهید!»)
مانند Computer Use Anthropic و Mariner گوگل دیپمایند، اپراتور از صفحه نمایش کامپیوتر اسکرینشات میگیرد و پیکسلها را اسکن میکند تا بفهمد چه اقداماتی میتواند انجام دهد. CUA، مدل پشت آن، برای تعامل با همان رابطهای کاربری گرافیکی - دکمهها، جعبههای متن، منو