زیرنویس‌های تصویر هوش مصنوعی AOL به طرز وحشتناکی اقدام به قتل را توصیف می‌کنند

وب‌سایت AOL.com از هوش مصنوعی برای نوشتن زیرنویس عکس‌ها استفاده می‌کند، که منجر به ایجاد زیرنویس‌های لوس و نامناسب برای عکس‌های مردی شده است که ادعا می‌شود سعی کرده همسرش را از صخره‌ای در هاوایی به پایین پرت کند و به اقدام به قتل متهم شده است.

این مقاله با عنوان «پزشک برجسته ادعا می‌شود در تلاشی وحشیانه برای قتل، سعی در هل دادن همسرش از نقطه‌ای دیدنی در هاوایی داشته است» از وب‌سایت BoredPanda بازنشر شده است. در نسخه BoredPanda این مقاله، هیچ زیرنویسی برای تصاویر وجود ندارد. اما در نسخه AOL.com، تصاویر گرهارد کونیگ، که به اقدام به قتل همسرش متهم شده است، دارای زیرنویس‌هایی مانند «مردی خندان در محیط پارک به همراه یک سگ، مرتبط با خبر یک پزشک برجسته»، «یک زوج خندان در ساحل هنگام غروب خورشید، مرتبط با حادثه پزشک هاوایی»، «یک زوج خندان زیر طاق گل، در فضای باز طی مراسم عروسی؛ شوهر با کت و شلوار خاکستری، همسر با لباس سفید» و «متأسفم، نمی‌توانم در این مورد کمک کنم» هستند، که به نظر می‌رسد نمونه‌ای از ناتوانی هوش مصنوعی در توصیف تصویر باشد. زیرنویس تصویری از همسر کونیگ می‌گوید: «زن خندان در فضای باز، مرتبط با حادثه پزشک برجسته و نقطه دیدنی هاوایی». زیرنویس یک اسکرین‌شات از نظری در رسانه‌های اجتماعی این است: «نظر در مورد احتمال هل دادن همسر توسط پزشک از نقطه‌ای در هاوایی، با پرسش درباره شرایط پزشکی یا روانی.»

این زیرنویس‌ها اولین بار توسط جان آکسلی در Bluesky مشاهده شدند.

گرهارد کونیگ، متهم به اقدام به قتل، به همراه سگش. زیرنویس: «مردی خندان در محیط پارک به همراه یک سگ، مرتبط با خبر یک پزشک برجسته» — یک زیرنویس از مقاله AOL

تصویر گرهارد کونیگ و همسرش در ساحل. زیرنویس هوش مصنوعی: «یک زوج خندان در ساحل هنگام غروب خورشید، مرتبط با حادثه پزشک هاوایی.» — زیرنویس هوش مصنوعی: «یک زوج خندان در ساحل هنگام غروب خورشید، مرتبط با حادثه پزشک هاوایی.»

تصویر گرهارد کونیگ و همسرش در مراسم عروسی. زیرنویس هوش مصنوعی: «یک زوج خندان زیر طاق گل، در فضای باز طی مراسم عروسی؛ شوهر با کت و شلوار خاکستری، همسر با لباس سفید» — زیرنویس هوش مصنوعی: «یک زوج خندان زیر طاق گل، در فضای باز طی مراسم عروسی؛ شوهر با کت و شلوار خاکستری، همسر با لباس سفید»

تصویر همسر گرهارد کونیگ. زیرنویس هوش مصنوعی: «زن خندان در فضای باز، مرتبط با حادثه پزشک برجسته و نقطه دیدنی هاوایی.» — زیرنویس هوش مصنوعی: «زن خندان در فضای باز، مرتبط با حادثه پزشک برجسته و نقطه دیدنی هاوایی.»

تصویری که هوش مصنوعی قادر به توصیف آن نیست. زیرنویس هوش مصنوعی: «متأسفم، نمی‌توانم در این مورد کمک کنم.» — زیرنویس هوش مصنوعی: «متأسفم، نمی‌توانم در این مورد کمک کنم.»

اسکرین‌شات یک نظر در رسانه اجتماعی. زیرنویس هوش مصنوعی: «نظر در مورد احتمال هل دادن همسر توسط پزشک از نقطه‌ای در هاوایی، با پرسش درباره شرایط پزشکی یا روانی.» — زیرنویس هوش مصنوعی: «نظر در مورد احتمال هل دادن همسر توسط پزشک از نقطه‌ای در هاوایی، با پرسش درباره شرایط پزشکی یا روانی.»

همه اینها نشان‌دهنده بی‌دقتی عمومی است که اکنون در سراسر اینترنت به دلیل کاهش کارکنان رسانه‌ها و وب‌سایت‌ها و جایگزینی وظایف مهم انسانی با هوش مصنوعی در حال رخ دادن است. این موضوع همچنین یادآور فناوری مبتنی بر هوش مصنوعی مورد استفاده توسط Buzzfeed است که به خوانندگان پیشنهاد خرید لباس افرادی را می‌داد که مجرم بودند یا مورد حمله خشونت‌آمیز قرار گرفته بودند، در حوادث غم‌انگیز جان باخته بودند و غیره.

درک چگونگی و چرایی وقوع این اتفاق مهم است. وقتی کد منبع صفحه AOL.com را بررسی کردم، متوجه شدم که زیرنویس‌های تولید شده توسط هوش مصنوعی در واقع اصلاً زیرنویس نبودند. آن‌ها متن جایگزین (alt text) بودند، که توضیحی نوشتاری از تصاویر یا گرافیک‌ها است و برای دسترسی‌پذیری بسیار مهم است، زیرا متن جایگزین می‌تواند توسط صفحه‌خوان‌ها برای افراد کم‌بینا یا نابینا خوانده شود. متن جایگزین همچنین توسط موتورهای جستجو ایندکس می‌شود و در صورتی که اتصال اینترنت کاربر ضعیف باشد یا فایل تصویر به هر دلیلی خراب شود، نمایش داده می‌شود. صفحه AOL طوری تنظیم شده بود که اگر هیچ زیرنویس واقعی نوشته نشده باشد، متن جایگزین را به عنوان زیرنویس نمایش دهد.

آنچه در AOL.com اتفاق افتاده بی‌دقتی است، زیرا متن جایگزین تولید شده توسط هوش مصنوعی چندان خوب نیست و چون بسیاری از زیرنویس‌های موجود در مقاله، بار دیگر، درباره یک مظنون به اقدام به قتل بسیار لوس و نامناسب هستند. این موارد باید توسط یک انسان شناسایی و اصلاح می‌شدند. اما تولید متن جایگزین برای تصاویر یکی از معدود مواردی است که هوش مصنوعی مولد واقعاً نویدبخش است و جایی است که حتی متن جایگزین خودکار نیز اغلب بهبودی نسبت به وضعیت موجود، یعنی عدم وجود متن جایگزین، محسوب می‌شود. انسان‌ها اغلب از افزودن متن جایگزین غفلت می‌کنند، متن جایگزین مفیدی نمی‌نویسند یا متن جایگزین بیش از حد طولانی می‌نویسند. یک مطالعه در سال ۲۰۱۹ نشان داد که در آن زمان، فقط ۰.۱ درصد از توییت‌های دارای تصویر، حاوی متن جایگزین بودند.

بسیاری از گروه‌های فعال در زمینه دسترسی‌پذیری هشدار می‌دهند که متن جایگزین نباید فقط به طور کامل خودکار تولید شود، همانطور که به نظر می‌رسد در مقاله AOL اتفاق افتاده است. مانند هر چیز دیگری در مورد هوش مصنوعی، هوش مصنوعی برای متن جایگزین نیز اغلب زمینه گسترده‌تر را نادیده می‌گیرد، اشتباه می‌کند، لحنی به شدت نامناسب دارد یا خطا تولید می‌کند. «دفتر دسترسی‌پذیری اینترنت» (Bureau of Internet Accessibility)، شرکتی که به وب‌سایت‌ها در رعایت الزامات دسترسی‌پذیری کمک می‌کند، در یک پست وبلاگی نوشت: «از آنجایی که متن جایگزین تا حدی دقیق، مسلماً بهتر از عدم وجود متن جایگزین است، یک مورد استفاده قابل دفاع برای هوش مصنوعی مولد وجود دارد، به ویژه هنگامی که وب‌سایت‌ها هزاران تصویر بدون برچسب دارند. با این حال، در حال حاضر، ما قویاً توصیه می‌کنیم که متن جایگزین را خودتان بنویسید.»

دانشگاه ایالتی اوهایو، که راهنمای نسبتاً جامعی برای متن جایگزین دارد، خاطرنشان می‌کند: «متن جایگزین هوش مصنوعی به طور کلی توسط متخصصان دسترسی‌پذیری نامطلوب تلقی می‌شود و نباید به آن اتکا کرد. این به این دلیل است که فاقد زمینه تصویر و کاربرد آن است. هوش مصنوعی ممکن است بتواند عکس پروفایل شما را تشخیص دهد...

https://www.404media.co/aols-ai-image-captions-terribly-describe-attempted-murder/