هوش مصنوعی در تشخیص و خواندن صحیح زوایای عقربه‌های ساعت و تفسیر اعداد مشکل دارد.
هوش مصنوعی در تشخیص و خواندن صحیح زوایای عقربه‌های ساعت و تفسیر اعداد مشکل دارد.

بیشتر هوش‌های مصنوعی در خواندن ساعت‌ها و تشخیص چهره‌ها با مشکل مواجه هستند

آن‌ها با تقویم‌ها نیز مشکل دارند

نمونه تصویری از تقویم با فرمت های مختلف که هوش مصنوعی در شناسایی تاریخ ها با مشکل مواجه است.

تکان‌دهنده: ابزارهای هوش مصنوعی مولد قادر به انجام کارهایی هستند که زمانی تخیلی به نظر می‌رسیدند، اما بیشتر آن‌ها هنوز با بسیاری از مهارت‌های اساسی، از جمله خواندن ساعت‌های آنالوگ و تقویم‌ها مشکل دارند. یک مطالعه جدید نشان داده است که به طور کلی، سیستم‌های هوش مصنوعی کمتر از یک چهارم مواقع چهره ساعت را به درستی می‌خوانند.

تیمی از محققان در دانشگاه ادینبورگ برخی از مدل‌های زبانی بزرگ چندوجهی برتر را آزمایش کردند تا ببینند چقدر می‌توانند به سوالات بر اساس تصاویر ساعت‌ها و تقویم‌ها پاسخ دهند.

سیستم‌های مورد آزمایش عبارت بودند از: Gemini 2.0 گوگل دیپ‌مایند، Claude 3.5 Sonnet آنتروپیک، Llama 3.2-11B-Vision-Instruct متا، Qwen2-VL7B-Instruct علی‌بابا، MiniCPM-V-2.6 مدل‌بست و GPT-4o و GPT-o1 اوپن‌ای‌آی.

انواع مختلفی از ساعت‌ها در تصاویر ظاهر شدند: برخی با اعداد رومی، برخی با عقربه ثانیه‌شمار و بدون آن، صفحه‌های رنگی مختلف و غیره.

سیستم‌ها کمتر از ۲۵٪ مواقع ساعت‌ها را به درستی خواندند. آن‌ها با ساعت‌هایی که از اعداد رومی و عقربه‌های سبک‌دار استفاده می‌کردند، بیشتر مشکل داشتند.

عملکرد هوش مصنوعی با حذف عقربه ثانیه‌شمار بهبود نیافت، که باعث شد محققان پیشنهاد کنند که مشکل از تشخیص عقربه‌های ساعت و تفسیر زوایا در صفحه ساعت ناشی می‌شود.

محققان با استفاده از ۱۰ سال تصاویر تقویم، سوالاتی مانند «روز سال نو چه روزی از هفته است؟» و «روز ۱۵۳‌اُم سال چه روزی است؟» پرسیدند.

حتی موفق‌ترین مدل‌های هوش مصنوعی نیز ۲۰ درصد مواقع سوالات تقویم را اشتباه پاسخ دادند.

نرخ موفقیت بر اساس سیستم هوش مصنوعی مورد استفاده متفاوت بود. Gemini-2.0 بالاترین امتیاز را در آزمون ساعت به دست آورد، در حالی که GPT-01 در ۸۰٪ مواقع در سوالات تقویم دقیق بود.

روهیت ساکسنا، سرپرست این مطالعه از دانشکده انفورماتیک دانشگاه ادینبورگ، گفت: «بیشتر مردم می‌توانند از سنین پایین ساعت را بخوانند و از تقویم استفاده کنند. یافته‌های ما شکاف قابل توجهی را در توانایی هوش مصنوعی در انجام مهارت‌های اساسی برای افراد نشان می‌دهد. اگر قرار است سیستم‌های هوش مصنوعی با موفقیت در برنامه‌های کاربردی حساس به زمان و دنیای واقعی مانند زمان‌بندی، اتوماسیون و فناوری‌های کمکی ادغام شوند، باید به این کمبودها رسیدگی شود.»

آریو گما، یکی دیگر از محققان دانشکده انفورماتیک ادینبورگ، گفت: «تحقیقات هوش مصنوعی امروزه اغلب بر وظایف استدلال پیچیده تأکید دارد، اما از قضا، بسیاری از سیستم‌ها هنوز در مورد وظایف ساده‌تر و روزمره مشکل دارند.»

این یافته‌ها در یک مقاله بررسی‌شده گزارش می‌شوند که در کارگاه استدلال و برنامه‌ریزی برای مدل‌های زبانی بزرگ در سیزدهمین کنفرانس بین‌المللی یادگیری بازنمایی (ICLR) در سنگاپور در ۲۸ آوریل ارائه خواهد شد. این یافته‌ها در حال حاضر در سرور پیش‌انتشار arXiv موجود است.

این اولین مطالعه در این ماه نیست که نشان می‌دهد سیستم‌های هوش مصنوعی هنوز اشتباهات زیادی مرتکب می‌شوند. مرکز تاو برای روزنامه‌نگاری دیجیتال هشت موتور جستجوی هوش مصنوعی را مورد مطالعه قرار داد و دریافت که آن‌ها ۶۰ درصد مواقع نادرست هستند. بدترین مقصر Grok-3 بود که ۹۴ درصد نادرست بود.