چتباتهای ChatGPT و سایر چتباتهای مبتنی بر مدلهای زبانی بزرگ، گهگاه چیزهایی را جعل میکنند، از جمله ارجاعات علمی و حقوقی. مشخص شده است که اندازهگیری میزان دقت ارجاعات یک مدل هوش مصنوعی، روش خوبی برای ارزیابی تواناییهای استدلال مدل است.
یک مدل هوش مصنوعی با تقسیم یک پرسش به مراحل و کار کردن از طریق آنها به ترتیب، "استدلال" میکند. به این فکر کنید که چگونه یاد گرفتید مسائل کلامی ریاضی را در مدرسه حل کنید.
به طور ایدهآل، برای تولید ارجاعات، یک مدل هوش مصنوعی باید مفاهیم کلیدی یک سند را درک کند، یک فهرست رتبهبندی شده از مقالات مرتبط برای ارجاع تولید کند و استدلال قانعکنندهای برای اینکه چگونه هر مقاله پیشنهادی از متن مربوطه پشتیبانی میکند، ارائه دهد. این مدل باید ارتباطات خاص بین متن و تحقیق استناد شده را برجسته کند و توضیح دهد که چرا هر منبع مهم است.
سوال این است که آیا میتوان به مدلهای امروزی اعتماد کرد تا این ارتباطات را برقرار کرده و استدلال روشنی ارائه دهند که انتخابهای منبع آنها را توجیه کند؟ پاسخ فراتر از دقت ارجاع است و به این موضوع میپردازد که مدلهای زبانی بزرگ تا چه اندازه برای هر هدف بازیابی اطلاعات مفید و دقیق هستند.
من یک دانشمند کامپیوتر هستم. همکاران من—محققان موسسه هوش مصنوعی در دانشگاه کارولینای جنوبی، دانشگاه ایالتی اوهایو و دانشگاه مریلند بالتیمور کانتی—و من معیار Reasons را توسعه دادهایم تا آزمایش کنیم که مدلهای زبانی بزرگ تا چه اندازه میتوانند بهطور خودکار ارجاعات تحقیق را تولید کرده و استدلال قابل فهمی ارائه دهند.
ما از این معیار برای مقایسه عملکرد دو مدل استدلال هوش مصنوعی محبوب، DeepSeek's R1 و OpenAI's o1 استفاده کردیم. اگرچه DeepSeek با کارایی و اثربخشی هزینهای خیرهکنندهاش در صدر اخبار قرار گرفت، اما این شرکت نوپای چینی راهی طولانی در پیش دارد تا با عملکرد استدلال OpenAI برابری کند.
ویژگیهای سطح جمله
دقت ارجاعات ارتباط زیادی با این دارد که آیا مدل هوش مصنوعی در مورد اطلاعات در سطح جمله استدلال میکند یا در سطح پاراگراف یا سند. ارجاعات سطح پاراگراف و سطح سند را میتوان به عنوان پرتاب کردن یک تکه بزرگ از اطلاعات به یک مدل زبانی بزرگ و درخواست از آن برای ارائه ارجاعات متعدد در نظر گرفت.
در این فرآیند، مدل زبانی بزرگ بیش از حد تعمیم میدهد و جملات منفرد را اشتباه تفسیر میکند. کاربر در نهایت با ارجاعاتی روبرو میشود که کل پاراگراف یا سند را توضیح میدهند، نه اطلاعات نسبتاً دقیق موجود در جمله.
علاوه بر این، وقتی از مدل زبانی بزرگ میخواهید کل سند را بخواند، استدلال آسیب میبیند. این مدلها بیشتر به حفظ الگوهایی متکی هستند که معمولاً در یافتن آنها در ابتدا و انتهای متون طولانی بهتر هستند تا در وسط. این امر درک کامل تمام اطلاعات مهم در یک سند طولانی را برای آنها دشوار میکند.
مدلهای زبانی بزرگ گیج میشوند زیرا پاراگرافها و اسناد حاوی اطلاعات زیادی هستند که بر تولید ارجاع و فرآیند استدلال تأثیر میگذارد. در نتیجه، استدلال از مدلهای زبانی بزرگ بر اساس پاراگرافها و اسناد بیشتر شبیه خلاصهسازی یا بازنویسی میشود.
معیار Reasons با بررسی تولید ارجاع و استدلال مدلهای زبانی بزرگ به این ضعف میپردازد.
آزمایش ارجاعات و استدلال
پس از انتشار DeepSeek R1 در ژانویه 2025، ما میخواستیم دقت آن را در تولید ارجاعات و کیفیت استدلال آن بررسی کنیم و آن را با مدل o1 شرکت OpenAI مقایسه کنیم. ما پاراگرافی ایجاد کردیم که جملاتی از منابع مختلف داشت، جملات منفرد این پاراگراف را به مدلها دادیم و درخواست ارجاعات و استدلال کردیم.
برای شروع آزمایش خود، یک بستر آزمایشی کوچک با حدود 4100 مقاله تحقیقاتی در مورد چهار موضوع کلیدی مرتبط با مغز انسان و علوم کامپیوتر ایجاد کردیم: نورونها و شناخت، تعامل انسان و کامپیوتر، پایگاههای داده و هوش مصنوعی. ما مدلها را با استفاده از دو معیار ارزیابی کردیم: امتیاز F-1، که میزان دقت ارجاع ارائه شده را اندازهگیری میکند، و نرخ توهم، که میزان صحیح بودن استدلال مدل را اندازهگیری میکند—یعنی، چند بار یک پاسخ نادرست یا گمراهکننده تولید میکند.
آزمایش ما تفاوتهای عملکرد قابل توجهی بین OpenAI o1 و DeepSeek R1 در حوزههای علمی مختلف نشان داد. OpenAI's o1 در ارتباط دادن اطلاعات بین موضوعات مختلف، مانند درک اینکه چگونه تحقیقات در مورد نورونها و شناخت به تعامل انسان و کامپیوتر و سپس به مفاهیم در هوش مصنوعی مرتبط میشود، عملکرد خوبی داشت و در عین حال دقیق باقی ماند. معیارهای عملکرد آن به طور مداوم از DeepSeek R1 در تمام دستههای ارزیابی، به ویژه در کاهش توهمات و تکمیل موفقیتآمیز وظایف محوله، پیشی گرفت.
OpenAI o1 در ترکیب ایدهها به صورت معنایی بهتر بود، در حالی که R1 بر این تمرکز داشت که اطمینان حاصل کند که برای هر وظیفه اسناد، پاسخی تولید میکند، که به نوبه خود توهم را در طول استدلال افزایش میدهد. OpenAI o1 در وظیفه استدلال مبتنی بر اسناد، نرخ توهم تقریباً 35٪ در مقایسه با نرخ تقریباً 85٪ DeepSeek R1 داشت.
از نظر دقت و صلاحیت زبانی، OpenAI o1 در آزمون F-1 حدود 0.65 امتیاز کسب کرد، به این معنی که تقریباً 65٪ مواقع هنگام پاسخ دادن به سوالات درست بود. همچنین در آزمون BLEU حدود 0.70 امتیاز کسب کرد، که میزان خوب نوشتن یک مدل زبانی به زبان طبیعی را اندازهگیری میکند. اینها امتیازهای بسیار خوبی هستند.
DeepSeek R1 امتیاز کمتری کسب کرد، با حدود 0.35 در آزمون F-1، به این معنی که تقریباً 35٪ مواقع درست بود. با این حال، امتیاز BLEU آن تنها حدود 0.2 بود، به این معنی که نوشتار آن به اندازه OpenAI's o1 طبیعی به نظر نمیرسید. این نشان میدهد که o1 در ارائه آن اطلاعات به زبان واضح و طبیعی بهتر بود.
OpenAI مزیت را در دست دارد
در سایر معیارها، DeepSeek R1 در وظایف ریاضی، کدنویسی و استدلال علمی همسطح با OpenAI o1 عمل میکند. اما تفاوت قابل توجه در معیار ما نشان میدهد که o1 اطلاعات قابل اعتمادتری ارائه میدهد، در حالی که R1 با سازگاری واقعی دست و پنجه نرم میکند.
اگرچه ما مدلهای دیگری را در آزمایش جامع خود گنجاندهایم، اما شکاف عملکرد بین o1 و R1 به طور خاص چشمانداز رقابتی فعلی در توسعه هوش مصنوعی را برجسته میکند، به طوری که ارائه OpenAI مزیت قابل توجهی را در قابلیتهای استدلال و ادغام دانش حفظ میکند.
این نتایج نشان میدهد که OpenAI هنوز در زمینه اسناد منبع و استدلال برتری دارد، که احتمالاً به دلیل ماهیت و حجم دادههایی است که روی آن آموزش داده شده است. این شرکت اخیراً ابزار تحقیقاتی عمیق خود را اعلام کرده است که میتواند گزارشهایی با ارجاعات ایجاد کند، سوالات پیگیری بپرسد و استدلالی برای پاسخ تولید شده ارائه دهد.
هنوز ارزش این ابزار برای محققان مشخص نشده است، اما این هشدار برای همه باقی میماند: تمام ارجاعاتی را که یک هوش مصنوعی به شما میدهد، دوباره بررسی کنید.
ارائهشده توسط The Conversation
این مقاله از The Conversation تحت مجوز Creative Commons بازنشر شده است. مقاله اصلی را بخوانید.![]()