در یک مطالعه جدید از دانشگاه کالیفرنیا سن دیگو، محققان دریافتند که مدل اوپنایآی چت جیپیتی ۴.۵ (Chat GPT 4.5)، زمانی که به آن دستور داده شد تا شخصیتی «شبهانسانی» اتخاذ کند، در ۷۳٪ موارد به عنوان انسان پذیرفته شد.
شرکتکنندگان در این مطالعه، مکالماتی پنج دقیقهای هم با یک شرکتکننده انسانی دیگر و هم با چتبات داشتند و سپس قضاوت میکردند که کدام یک را انسان میدانند.
قابل ذکر است که GPT-4.5 بدون درخواست برای اتخاذ شخصیت انسانی، امتیاز بسیار پایینتری کسب کرد. بدون این درخواست، چتبات تنها نرخ موفقیت ۳۶٪ را به دست آورد.
سایر چتباتها در این آزمایشها امتیاز کمی پایینتری کسب کردند.
مدل LLaMa-3.1 متا، با درخواست برای اتخاذ شخصیت، در ۵۶٪ موارد به عنوان انسان قضاوت شد.
GPT-40 اوپنایآی و الایزا (Eliza)، یک چتبات اولیه که در دهه ۱۹۶۰ توسعه یافته بود، نیز مورد آزمایش قرار گرفتند، هرچند به آنها درخواست مشابه برای رفتار انسانی داده نشد. در عوض، به این مدلها فقط گفته شد که در یک تست تورینگ (Turing test) شرکت میکنند و هدفشان «متقاعد کردن پرسشگر مبنی بر انسان بودنشان» است.
در این مطالعه، GPT-40 و الایزا به ترتیب امتیاز ۲۱٪ و ۲۳٪ را کسب کردند.
محققان گفتند که این نتایج «اولین شواهد تجربی» از گذراندن یک تست تورینگ سه طرفه توسط هر سیستم مصنوعی را نشان میدهد.
آنها نوشتند: «این نتایج پیامدهایی برای بحثها در مورد نوع هوشمندی که توسط مدلهای زبانی بزرگ (Large Language Models) به نمایش گذاشته میشود و تأثیرات اجتماعی و اقتصادی که این سیستمها احتمالاً خواهند داشت، دارد.»
کمرون جونز، نویسنده اصلی و محقق در آزمایشگاه زبان و شناخت UC San Diego، در شبکه X گفت: «افراد در تشخیص انسانها از GPT-4.5 و LLaMa (با درخواست شخصیت) بهتر از شانس عمل نکردند. و ۴.۵ حتی به طور قابل توجهی *بیشتر* از انسانهای واقعی به عنوان انسان قضاوت شد!»
اوپنایآی مدل GPT 4.5 را در اواخر فوریه منتشر کرد و آن را به عنوان «بزرگترین و بهترین مدل تاکنون برای گفتگو» معرفی کرد.
اوپنایآی در بیانیهای هنگام عرضه گفت: «با مقیاسبندی یادگیری بدون نظارت، GPT-4.5 توانایی خود را در تشخیص الگوها، ایجاد ارتباطات و تولید بینشهای خلاقانه بدون نیاز به استدلال بهبود میبخشد.»
اوپنایآی بیان کرد که این نسخه با پایگاه دانش گستردهتر و توانایی بهبود یافته برای دنبال کردن «قصد کاربر»، برای کارهایی مانند بهبود نوشتن، برنامهنویسی و حل مسائل عملی مفید است.