وبسایت AOL.com از هوش مصنوعی برای نوشتن زیرنویس عکسها استفاده میکند، که منجر به ایجاد زیرنویسهای لوس و نامناسب برای عکسهای مردی شده است که ادعا میشود سعی کرده همسرش را از صخرهای در هاوایی به پایین پرت کند و به اقدام به قتل متهم شده است.
این مقاله با عنوان «پزشک برجسته ادعا میشود در تلاشی وحشیانه برای قتل، سعی در هل دادن همسرش از نقطهای دیدنی در هاوایی داشته است» از وبسایت BoredPanda بازنشر شده است. در نسخه BoredPanda این مقاله، هیچ زیرنویسی برای تصاویر وجود ندارد. اما در نسخه AOL.com، تصاویر گرهارد کونیگ، که به اقدام به قتل همسرش متهم شده است، دارای زیرنویسهایی مانند «مردی خندان در محیط پارک به همراه یک سگ، مرتبط با خبر یک پزشک برجسته»، «یک زوج خندان در ساحل هنگام غروب خورشید، مرتبط با حادثه پزشک هاوایی»، «یک زوج خندان زیر طاق گل، در فضای باز طی مراسم عروسی؛ شوهر با کت و شلوار خاکستری، همسر با لباس سفید» و «متأسفم، نمیتوانم در این مورد کمک کنم» هستند، که به نظر میرسد نمونهای از ناتوانی هوش مصنوعی در توصیف تصویر باشد. زیرنویس تصویری از همسر کونیگ میگوید: «زن خندان در فضای باز، مرتبط با حادثه پزشک برجسته و نقطه دیدنی هاوایی». زیرنویس یک اسکرینشات از نظری در رسانههای اجتماعی این است: «نظر در مورد احتمال هل دادن همسر توسط پزشک از نقطهای در هاوایی، با پرسش درباره شرایط پزشکی یا روانی.»
این زیرنویسها اولین بار توسط جان آکسلی در Bluesky مشاهده شدند.
همه اینها نشاندهنده بیدقتی عمومی است که اکنون در سراسر اینترنت به دلیل کاهش کارکنان رسانهها و وبسایتها و جایگزینی وظایف مهم انسانی با هوش مصنوعی در حال رخ دادن است. این موضوع همچنین یادآور فناوری مبتنی بر هوش مصنوعی مورد استفاده توسط Buzzfeed است که به خوانندگان پیشنهاد خرید لباس افرادی را میداد که مجرم بودند یا مورد حمله خشونتآمیز قرار گرفته بودند، در حوادث غمانگیز جان باخته بودند و غیره.
درک چگونگی و چرایی وقوع این اتفاق مهم است. وقتی کد منبع صفحه AOL.com را بررسی کردم، متوجه شدم که زیرنویسهای تولید شده توسط هوش مصنوعی در واقع اصلاً زیرنویس نبودند. آنها متن جایگزین (alt text) بودند، که توضیحی نوشتاری از تصاویر یا گرافیکها است و برای دسترسیپذیری بسیار مهم است، زیرا متن جایگزین میتواند توسط صفحهخوانها برای افراد کمبینا یا نابینا خوانده شود. متن جایگزین همچنین توسط موتورهای جستجو ایندکس میشود و در صورتی که اتصال اینترنت کاربر ضعیف باشد یا فایل تصویر به هر دلیلی خراب شود، نمایش داده میشود. صفحه AOL طوری تنظیم شده بود که اگر هیچ زیرنویس واقعی نوشته نشده باشد، متن جایگزین را به عنوان زیرنویس نمایش دهد.
آنچه در AOL.com اتفاق افتاده بیدقتی است، زیرا متن جایگزین تولید شده توسط هوش مصنوعی چندان خوب نیست و چون بسیاری از زیرنویسهای موجود در مقاله، بار دیگر، درباره یک مظنون به اقدام به قتل بسیار لوس و نامناسب هستند. این موارد باید توسط یک انسان شناسایی و اصلاح میشدند. اما تولید متن جایگزین برای تصاویر یکی از معدود مواردی است که هوش مصنوعی مولد واقعاً نویدبخش است و جایی است که حتی متن جایگزین خودکار نیز اغلب بهبودی نسبت به وضعیت موجود، یعنی عدم وجود متن جایگزین، محسوب میشود. انسانها اغلب از افزودن متن جایگزین غفلت میکنند، متن جایگزین مفیدی نمینویسند یا متن جایگزین بیش از حد طولانی مینویسند. یک مطالعه در سال ۲۰۱۹ نشان داد که در آن زمان، فقط ۰.۱ درصد از توییتهای دارای تصویر، حاوی متن جایگزین بودند.
بسیاری از گروههای فعال در زمینه دسترسیپذیری هشدار میدهند که متن جایگزین نباید فقط به طور کامل خودکار تولید شود، همانطور که به نظر میرسد در مقاله AOL اتفاق افتاده است. مانند هر چیز دیگری در مورد هوش مصنوعی، هوش مصنوعی برای متن جایگزین نیز اغلب زمینه گستردهتر را نادیده میگیرد، اشتباه میکند، لحنی به شدت نامناسب دارد یا خطا تولید میکند. «دفتر دسترسیپذیری اینترنت» (Bureau of Internet Accessibility)، شرکتی که به وبسایتها در رعایت الزامات دسترسیپذیری کمک میکند، در یک پست وبلاگی نوشت: «از آنجایی که متن جایگزین تا حدی دقیق، مسلماً بهتر از عدم وجود متن جایگزین است، یک مورد استفاده قابل دفاع برای هوش مصنوعی مولد وجود دارد، به ویژه هنگامی که وبسایتها هزاران تصویر بدون برچسب دارند. با این حال، در حال حاضر، ما قویاً توصیه میکنیم که متن جایگزین را خودتان بنویسید.»
دانشگاه ایالتی اوهایو، که راهنمای نسبتاً جامعی برای متن جایگزین دارد، خاطرنشان میکند: «متن جایگزین هوش مصنوعی به طور کلی توسط متخصصان دسترسیپذیری نامطلوب تلقی میشود و نباید به آن اتکا کرد. این به این دلیل است که فاقد زمینه تصویر و کاربرد آن است. هوش مصنوعی ممکن است بتواند عکس پروفایل شما را تشخیص دهد...