تکاندهنده: ابزارهای هوش مصنوعی مولد قادر به انجام کارهایی هستند که زمانی تخیلی به نظر میرسیدند، اما بیشتر آنها هنوز با بسیاری از مهارتهای اساسی، از جمله خواندن ساعتهای آنالوگ و تقویمها مشکل دارند. یک مطالعه جدید نشان داده است که به طور کلی، سیستمهای هوش مصنوعی کمتر از یک چهارم مواقع چهره ساعت را به درستی میخوانند.
تیمی از محققان در دانشگاه ادینبورگ برخی از مدلهای زبانی بزرگ چندوجهی برتر را آزمایش کردند تا ببینند چقدر میتوانند به سوالات بر اساس تصاویر ساعتها و تقویمها پاسخ دهند.
سیستمهای مورد آزمایش عبارت بودند از: Gemini 2.0 گوگل دیپمایند، Claude 3.5 Sonnet آنتروپیک، Llama 3.2-11B-Vision-Instruct متا، Qwen2-VL7B-Instruct علیبابا، MiniCPM-V-2.6 مدلبست و GPT-4o و GPT-o1 اوپنایآی.
انواع مختلفی از ساعتها در تصاویر ظاهر شدند: برخی با اعداد رومی، برخی با عقربه ثانیهشمار و بدون آن، صفحههای رنگی مختلف و غیره.
سیستمها کمتر از ۲۵٪ مواقع ساعتها را به درستی خواندند. آنها با ساعتهایی که از اعداد رومی و عقربههای سبکدار استفاده میکردند، بیشتر مشکل داشتند.
عملکرد هوش مصنوعی با حذف عقربه ثانیهشمار بهبود نیافت، که باعث شد محققان پیشنهاد کنند که مشکل از تشخیص عقربههای ساعت و تفسیر زوایا در صفحه ساعت ناشی میشود.
محققان با استفاده از ۱۰ سال تصاویر تقویم، سوالاتی مانند «روز سال نو چه روزی از هفته است؟» و «روز ۱۵۳اُم سال چه روزی است؟» پرسیدند.
حتی موفقترین مدلهای هوش مصنوعی نیز ۲۰ درصد مواقع سوالات تقویم را اشتباه پاسخ دادند.
نرخ موفقیت بر اساس سیستم هوش مصنوعی مورد استفاده متفاوت بود. Gemini-2.0 بالاترین امتیاز را در آزمون ساعت به دست آورد، در حالی که GPT-01 در ۸۰٪ مواقع در سوالات تقویم دقیق بود.
روهیت ساکسنا، سرپرست این مطالعه از دانشکده انفورماتیک دانشگاه ادینبورگ، گفت: «بیشتر مردم میتوانند از سنین پایین ساعت را بخوانند و از تقویم استفاده کنند. یافتههای ما شکاف قابل توجهی را در توانایی هوش مصنوعی در انجام مهارتهای اساسی برای افراد نشان میدهد. اگر قرار است سیستمهای هوش مصنوعی با موفقیت در برنامههای کاربردی حساس به زمان و دنیای واقعی مانند زمانبندی، اتوماسیون و فناوریهای کمکی ادغام شوند، باید به این کمبودها رسیدگی شود.»
آریو گما، یکی دیگر از محققان دانشکده انفورماتیک ادینبورگ، گفت: «تحقیقات هوش مصنوعی امروزه اغلب بر وظایف استدلال پیچیده تأکید دارد، اما از قضا، بسیاری از سیستمها هنوز در مورد وظایف سادهتر و روزمره مشکل دارند.»
این یافتهها در یک مقاله بررسیشده گزارش میشوند که در کارگاه استدلال و برنامهریزی برای مدلهای زبانی بزرگ در سیزدهمین کنفرانس بینالمللی یادگیری بازنمایی (ICLR) در سنگاپور در ۲۸ آوریل ارائه خواهد شد. این یافتهها در حال حاضر در سرور پیشانتشار arXiv موجود است.
این اولین مطالعه در این ماه نیست که نشان میدهد سیستمهای هوش مصنوعی هنوز اشتباهات زیادی مرتکب میشوند. مرکز تاو برای روزنامهنگاری دیجیتال هشت موتور جستجوی هوش مصنوعی را مورد مطالعه قرار داد و دریافت که آنها ۶۰ درصد مواقع نادرست هستند. بدترین مقصر Grok-3 بود که ۹۴ درصد نادرست بود.