اعتبار: تصویر تولید شده توسط هوش مصنوعی
اعتبار: تصویر تولید شده توسط هوش مصنوعی

مقایسه هوش‌های مصنوعی محبوب: OpenAI در استدلال سطح جمله DeepSeek را شکست می‌دهد

چت‌بات‌های ChatGPT و سایر چت‌بات‌های مبتنی بر مدل‌های زبانی بزرگ، گه‌گاه چیزهایی را جعل می‌کنند، از جمله ارجاعات علمی و حقوقی. مشخص شده است که اندازه‌گیری میزان دقت ارجاعات یک مدل هوش مصنوعی، روش خوبی برای ارزیابی توانایی‌های استدلال مدل است.

یک مدل هوش مصنوعی با تقسیم یک پرسش به مراحل و کار کردن از طریق آن‌ها به ترتیب، "استدلال" می‌کند. به این فکر کنید که چگونه یاد گرفتید مسائل کلامی ریاضی را در مدرسه حل کنید.

به طور ایده‌آل، برای تولید ارجاعات، یک مدل هوش مصنوعی باید مفاهیم کلیدی یک سند را درک کند، یک فهرست رتبه‌بندی شده از مقالات مرتبط برای ارجاع تولید کند و استدلال قانع‌کننده‌ای برای اینکه چگونه هر مقاله پیشنهادی از متن مربوطه پشتیبانی می‌کند، ارائه دهد. این مدل باید ارتباطات خاص بین متن و تحقیق استناد شده را برجسته کند و توضیح دهد که چرا هر منبع مهم است.

سوال این است که آیا می‌توان به مدل‌های امروزی اعتماد کرد تا این ارتباطات را برقرار کرده و استدلال روشنی ارائه دهند که انتخاب‌های منبع آن‌ها را توجیه کند؟ پاسخ فراتر از دقت ارجاع است و به این موضوع می‌پردازد که مدل‌های زبانی بزرگ تا چه اندازه برای هر هدف بازیابی اطلاعات مفید و دقیق هستند.

من یک دانشمند کامپیوتر هستم. همکاران من—محققان موسسه هوش مصنوعی در دانشگاه کارولینای جنوبی، دانشگاه ایالتی اوهایو و دانشگاه مریلند بالتیمور کانتی—و من معیار Reasons را توسعه داده‌ایم تا آزمایش کنیم که مدل‌های زبانی بزرگ تا چه اندازه می‌توانند به‌طور خودکار ارجاعات تحقیق را تولید کرده و استدلال قابل فهمی ارائه دهند.

ما از این معیار برای مقایسه عملکرد دو مدل استدلال هوش مصنوعی محبوب، DeepSeek's R1 و OpenAI's o1 استفاده کردیم. اگرچه DeepSeek با کارایی و اثربخشی هزینه‌ای خیره‌کننده‌اش در صدر اخبار قرار گرفت، اما این شرکت نوپای چینی راهی طولانی در پیش دارد تا با عملکرد استدلال OpenAI برابری کند.

ویژگی‌های سطح جمله

دقت ارجاعات ارتباط زیادی با این دارد که آیا مدل هوش مصنوعی در مورد اطلاعات در سطح جمله استدلال می‌کند یا در سطح پاراگراف یا سند. ارجاعات سطح پاراگراف و سطح سند را می‌توان به عنوان پرتاب کردن یک تکه بزرگ از اطلاعات به یک مدل زبانی بزرگ و درخواست از آن برای ارائه ارجاعات متعدد در نظر گرفت.

در این فرآیند، مدل زبانی بزرگ بیش از حد تعمیم می‌دهد و جملات منفرد را اشتباه تفسیر می‌کند. کاربر در نهایت با ارجاعاتی روبرو می‌شود که کل پاراگراف یا سند را توضیح می‌دهند، نه اطلاعات نسبتاً دقیق موجود در جمله.

علاوه بر این، وقتی از مدل زبانی بزرگ می‌خواهید کل سند را بخواند، استدلال آسیب می‌بیند. این مدل‌ها بیشتر به حفظ الگوهایی متکی هستند که معمولاً در یافتن آن‌ها در ابتدا و انتهای متون طولانی بهتر هستند تا در وسط. این امر درک کامل تمام اطلاعات مهم در یک سند طولانی را برای آن‌ها دشوار می‌کند.

مدل‌های زبانی بزرگ گیج می‌شوند زیرا پاراگراف‌ها و اسناد حاوی اطلاعات زیادی هستند که بر تولید ارجاع و فرآیند استدلال تأثیر می‌گذارد. در نتیجه، استدلال از مدل‌های زبانی بزرگ بر اساس پاراگراف‌ها و اسناد بیشتر شبیه خلاصه‌سازی یا بازنویسی می‌شود.

معیار Reasons با بررسی تولید ارجاع و استدلال مدل‌های زبانی بزرگ به این ضعف می‌پردازد.

آزمایش ارجاعات و استدلال

پس از انتشار DeepSeek R1 در ژانویه 2025، ما می‌خواستیم دقت آن را در تولید ارجاعات و کیفیت استدلال آن بررسی کنیم و آن را با مدل o1 شرکت OpenAI مقایسه کنیم. ما پاراگرافی ایجاد کردیم که جملاتی از منابع مختلف داشت، جملات منفرد این پاراگراف را به مدل‌ها دادیم و درخواست ارجاعات و استدلال کردیم.

برای شروع آزمایش خود، یک بستر آزمایشی کوچک با حدود 4100 مقاله تحقیقاتی در مورد چهار موضوع کلیدی مرتبط با مغز انسان و علوم کامپیوتر ایجاد کردیم: نورون‌ها و شناخت، تعامل انسان و کامپیوتر، پایگاه‌های داده و هوش مصنوعی. ما مدل‌ها را با استفاده از دو معیار ارزیابی کردیم: امتیاز F-1، که میزان دقت ارجاع ارائه شده را اندازه‌گیری می‌کند، و نرخ توهم، که میزان صحیح بودن استدلال مدل را اندازه‌گیری می‌کند—یعنی، چند بار یک پاسخ نادرست یا گمراه‌کننده تولید می‌کند.

آزمایش ما تفاوت‌های عملکرد قابل توجهی بین OpenAI o1 و DeepSeek R1 در حوزه‌های علمی مختلف نشان داد. OpenAI's o1 در ارتباط دادن اطلاعات بین موضوعات مختلف، مانند درک اینکه چگونه تحقیقات در مورد نورون‌ها و شناخت به تعامل انسان و کامپیوتر و سپس به مفاهیم در هوش مصنوعی مرتبط می‌شود، عملکرد خوبی داشت و در عین حال دقیق باقی ماند. معیارهای عملکرد آن به طور مداوم از DeepSeek R1 در تمام دسته‌های ارزیابی، به ویژه در کاهش توهمات و تکمیل موفقیت‌آمیز وظایف محوله، پیشی گرفت.

OpenAI o1 در ترکیب ایده‌ها به صورت معنایی بهتر بود، در حالی که R1 بر این تمرکز داشت که اطمینان حاصل کند که برای هر وظیفه اسناد، پاسخی تولید می‌کند، که به نوبه خود توهم را در طول استدلال افزایش می‌دهد. OpenAI o1 در وظیفه استدلال مبتنی بر اسناد، نرخ توهم تقریباً 35٪ در مقایسه با نرخ تقریباً 85٪ DeepSeek R1 داشت.

از نظر دقت و صلاحیت زبانی، OpenAI o1 در آزمون F-1 حدود 0.65 امتیاز کسب کرد، به این معنی که تقریباً 65٪ مواقع هنگام پاسخ دادن به سوالات درست بود. همچنین در آزمون BLEU حدود 0.70 امتیاز کسب کرد، که میزان خوب نوشتن یک مدل زبانی به زبان طبیعی را اندازه‌گیری می‌کند. اینها امتیازهای بسیار خوبی هستند.

DeepSeek R1 امتیاز کمتری کسب کرد، با حدود 0.35 در آزمون F-1، به این معنی که تقریباً 35٪ مواقع درست بود. با این حال، امتیاز BLEU آن تنها حدود 0.2 بود، به این معنی که نوشتار آن به اندازه OpenAI's o1 طبیعی به نظر نمی‌رسید. این نشان می‌دهد که o1 در ارائه آن اطلاعات به زبان واضح و طبیعی بهتر بود.

OpenAI مزیت را در دست دارد

در سایر معیارها، DeepSeek R1 در وظایف ریاضی، کدنویسی و استدلال علمی هم‌سطح با OpenAI o1 عمل می‌کند. اما تفاوت قابل توجه در معیار ما نشان می‌دهد که o1 اطلاعات قابل اعتمادتری ارائه می‌دهد، در حالی که R1 با سازگاری واقعی دست و پنجه نرم می‌کند.

اگرچه ما مدل‌های دیگری را در آزمایش جامع خود گنجانده‌ایم، اما شکاف عملکرد بین o1 و R1 به طور خاص چشم‌انداز رقابتی فعلی در توسعه هوش مصنوعی را برجسته می‌کند، به طوری که ارائه OpenAI مزیت قابل توجهی را در قابلیت‌های استدلال و ادغام دانش حفظ می‌کند.

این نتایج نشان می‌دهد که OpenAI هنوز در زمینه اسناد منبع و استدلال برتری دارد، که احتمالاً به دلیل ماهیت و حجم داده‌هایی است که روی آن آموزش داده شده است. این شرکت اخیراً ابزار تحقیقاتی عمیق خود را اعلام کرده است که می‌تواند گزارش‌هایی با ارجاعات ایجاد کند، سوالات پیگیری بپرسد و استدلالی برای پاسخ تولید شده ارائه دهد.

هنوز ارزش این ابزار برای محققان مشخص نشده است، اما این هشدار برای همه باقی می‌ماند: تمام ارجاعاتی را که یک هوش مصنوعی به شما می‌دهد، دوباره بررسی کنید.

ارائه‌شده توسط The Conversation

این مقاله از The Conversation تحت مجوز Creative Commons بازنشر شده است. مقاله اصلی را بخوانید.The Conversation