مقایسه تصاویر تولید شده: DALL-E 3 با درخواست THE DECODER / GPT-4o با درخواست OpenAI
مقایسه تصاویر تولید شده: DALL-E 3 با درخواست THE DECODER / GPT-4o با درخواست OpenAI

مطالعه UCLA نشان می‌دهد GPT-4o تصاویر زیبا می‌سازد اما در آزمون‌های استدلال پایه مردود می‌شود

یک مطالعه جدید از دانشگاه کالیفرنیا، لس آنجلس (UCLA) نشان می‌دهد در حالی که GPT-4o می‌تواند تصاویر بصری چشمگیری تولید کند، در انجام وظایفی که نیاز به درک واقعی تصویر، استدلال متنی و استنتاج منطقی چند مرحله‌ای دارند، با مشکل مواجه می‌شود.

با وجود پیشرفت‌های اخیر در کیفیت تولید تصویر، تجزیه و تحلیل تجربی نقاط ضعف قابل توجهی را در نحوه برخورد

GPT-4o
با درخواست‌های پیچیده نشان می‌دهد. محققان این مدل را در سه دسته ارزیابی کردند: تبعیت از دستورالعمل‌های کلی، ویرایش تصویر و استدلال پس از تولید.

عدم توانایی در پیروی از قوانین کلی

بخش اول بررسی کرد که آیا GPT-4o می‌تواند قوانین فراگیری را که قبل از درخواست تصویر اصلی ارائه شده‌اند، اعمال کند یا خیر. این قوانین کلی برای تغییر معنای اصطلاحات خاص در دستورالعمل‌های بعدی طراحی شده بودند. به عنوان مثال، به کاربران گفته شد: وقتی من می گویم 'چپ'، منظورم در واقع 'راست' است، و به دنبال آن درخواستی مانند تصویری با یک سگ در سمت چپ ایجاد کنید. اگر GPT-4o قانون را درونی کرده بود، سگ باید در سمت راست ظاهر می شد. با این حال، در عمل، سگ را در سمت چپ قرار داد و معنای تعریف شده را نادیده گرفت.

الگوهای مشابهی با قوانین عددی ظاهر شد. هنگامی که به مدل دستور داده شد دو عدد از هر ورودی عددی کم کن، مدل همچنان مقادیر دقیقی را که بیان شده بود - مانند پنج پرنده - به جای عدد تنظیم شده سه، تولید کرد.

این نتایج نشان می‌دهد که GPT-4o به طور قابل اعتمادی دستورالعمل‌های متنی سطح بالا را در فرآیند تولید تصویر خود وارد نمی‌کند. در عوض، به نظر می رسد که اصطلاحات درخواستی را به طور تحت اللفظی دنبال می کند، حتی زمانی که معانی آنها به صراحت تعریف شده باشد.

عملکرد ناموفق GPT-4o
تصویر: Li, Zhang, Cui

وظایف ویرایش، درک معنایی سطحی را نشان می‌دهند

بخش دوم این مطالعه بر توانایی GPT-4o در انجام ویرایش تصویر متمرکز بود. در یک کار، از مدل خواسته شد که فقط انعکاس یک اسب در آب را با یک شیر جایگزین کند. در عوض، هم انعکاس و هم اسب اصلی را تغییر داد. در مثال دیگری، از آن خواسته شد که فقط افراد نشسته را از یک تصویر حذف کند، اما چهره‌های ایستاده در پس‌زمینه را نیز حذف کرد.

این موارد نشان می‌دهد که مدل با اصلاحات معنایی دقیق مشکل دارد. وظایفی که نیاز به تغییرات موضعی و تفسیر ظریف محتوای بصری دارند، اغلب منجر به تغییرات ناخواسته می‌شوند.

استدلال در مراحل مختلف همچنان محدود است

بارزترین نقاط ضعف در وظایفی که شامل منطق شرطی و استدلال چند مرحله‌ای بودند، آشکار شد. در یک سناریو، ابتدا از GPT-4o خواسته شد که تصویری از یک سگ و یک گربه تولید کند. سپس به آن دستور داده شد که سگ را با یک گربه جایگزین کند و صحنه را به ساحل منتقل کند - اما فقط در صورتی که تصویر اصلی قبلاً حاوی گربه نباشد. اگرچه تصویر اولیه شامل یک گربه بود، GPT-4o به هر حال هر دو تغییر را اعمال کرد.

عدم موفقیت GPT-4o در استدلال
تصویر: Li, Zhang, Cui

در مثال‌های دیگر، مدل به طور مشابه نتوانست شرایط را تأیید کند یا سازگاری منطقی را در بین درخواست‌ها حفظ کند. به گفته محققان، این نشان دهنده یک محدودیت اصلی است: GPT-4o فاقد ظرفیت استدلال حساس به متن مورد نیاز برای دستکاری هوشمندانه تصویر است.

معیارهای موجود، محدودیت‌های کلیدی را از دست می‌دهند

ارزیابی‌های قبلی مانند GPT-ImgEval، GPT-4o را برای همسویی قوی متن و تصویر، کیفیت تصویر و قابلیت کنترل در سبک و ویرایش‌های جزئی ستوده‌اند. با این حال، مطالعه UCLA استدلال می‌کند که این معیارها، قابلیت‌های مهمی مانند یکپارچه‌سازی دانش جهان، کاربرد قوانین انتزاعی و استدلال منطقی چند مرحله‌ای را نادیده می‌گیرند.

نویسندگان خواستار معیارهای جدیدی هستند که انسجام معنایی و درک متنی را در اولویت قرار دهند تا سودمندی واقعی مدل‌های تولید تصویر را بهتر ارزیابی کنند.