مطالعه جدید: مدل جدید OpenAI انسانی‌تر از انسان‌هاست

در یک مطالعه جدید از دانشگاه کالیفرنیا سن دیگو، محققان دریافتند که مدل اوپن‌ای‌آی چت جی‌پی‌تی ۴.۵ (Chat GPT 4.5)، زمانی که به آن دستور داده شد تا شخصیتی «شبه‌انسانی» اتخاذ کند، در ۷۳٪ موارد به عنوان انسان پذیرفته شد.

شرکت‌کنندگان در این مطالعه، مکالماتی پنج دقیقه‌ای هم با یک شرکت‌کننده انسانی دیگر و هم با چت‌بات داشتند و سپس قضاوت می‌کردند که کدام یک را انسان می‌دانند.

قابل ذکر است که GPT-4.5 بدون درخواست برای اتخاذ شخصیت انسانی، امتیاز بسیار پایین‌تری کسب کرد. بدون این درخواست، چت‌بات تنها نرخ موفقیت ۳۶٪ را به دست آورد.

سایر چت‌بات‌ها در این آزمایش‌ها امتیاز کمی پایین‌تری کسب کردند.

مدل LLaMa-3.1 متا، با درخواست برای اتخاذ شخصیت، در ۵۶٪ موارد به عنوان انسان قضاوت شد.

GPT-40 اوپن‌ای‌آی و الایزا (Eliza)، یک چت‌بات اولیه که در دهه ۱۹۶۰ توسعه یافته بود، نیز مورد آزمایش قرار گرفتند، هرچند به آن‌ها درخواست مشابه برای رفتار انسانی داده نشد. در عوض، به این مدل‌ها فقط گفته شد که در یک تست تورینگ (Turing test) شرکت می‌کنند و هدفشان «متقاعد کردن پرسشگر مبنی بر انسان بودنشان» است.

در این مطالعه، GPT-40 و الایزا به ترتیب امتیاز ۲۱٪ و ۲۳٪ را کسب کردند.

محققان گفتند که این نتایج «اولین شواهد تجربی» از گذراندن یک تست تورینگ سه طرفه توسط هر سیستم مصنوعی را نشان می‌دهد.

آن‌ها نوشتند: «این نتایج پیامدهایی برای بحث‌ها در مورد نوع هوشمندی که توسط مدل‌های زبانی بزرگ (Large Language Models) به نمایش گذاشته می‌شود و تأثیرات اجتماعی و اقتصادی که این سیستم‌ها احتمالاً خواهند داشت، دارد.»

کمرون جونز، نویسنده اصلی و محقق در آزمایشگاه زبان و شناخت UC San Diego، در شبکه X گفت: «افراد در تشخیص انسان‌ها از GPT-4.5 و LLaMa (با درخواست شخصیت) بهتر از شانس عمل نکردند. و ۴.۵ حتی به طور قابل توجهی *بیشتر* از انسان‌های واقعی به عنوان انسان قضاوت شد!»

اوپن‌ای‌آی مدل GPT 4.5 را در اواخر فوریه منتشر کرد و آن را به عنوان «بزرگترین و بهترین مدل تاکنون برای گفتگو» معرفی کرد.

اوپن‌ای‌آی در بیانیه‌ای هنگام عرضه گفت: «با مقیاس‌بندی یادگیری بدون نظارت، GPT-4.5 توانایی خود را در تشخیص الگوها، ایجاد ارتباطات و تولید بینش‌های خلاقانه بدون نیاز به استدلال بهبود می‌بخشد.»

اوپن‌ای‌آی بیان کرد که این نسخه با پایگاه دانش گسترده‌تر و توانایی بهبود یافته برای دنبال کردن «قصد کاربر»، برای کارهایی مانند بهبود نوشتن، برنامه‌نویسی و حل مسائل عملی مفید است.

این گزارش ترجمه و بازنویسی خبری با موتور هوش مصنوعی افق آبی است و برای خوانندهٔ فارسی‌زبان بازتنظیم شده. منبع اصلی: ai business (translated)