rob dobi/Getty Images
rob dobi/Getty Images

هوش مصنوعی برای جهان یا فقط برای غرب؟ پژوهشگران چگونه با شکاف‌های جهانی غول‌های فناوری مقابله می‌کنند

راهبردهای یکسان هوش مصنوعی شرکت‌های غربی برای بسیاری از جمعیت‌های جهان کارآمد نیست. این پژوهشگران آفریقایی برای تغییر این وضعیت تلاش می‌کنند.

از زمان عرضه ChatGPT توسط OpenAI در سال ۲۰۲۲، هوش مصنوعی (AI) به طور قابل توجهی در زندگی ما ریشه دوانده است. اما محصولات محبوب هوش مصنوعی، با وجود اینکه به عنوان ابزارهای جهانی برای دموکراتیک کردن دسترسی به فناوری معرفی می‌شوند، عمدتاً برای خدمت به منافع آمریکا و اروپا طراحی شده‌اند؛ از موارد استفاده‌ای که برای آنها تعریف می‌شود تا زبان‌هایی که صحبت می‌کنند.

چندین پژوهشگر آفریقایی خارج از هسته فناوری ایالات متحده در تلاش‌اند تا این وضعیت موجود و به تبع آن، پویایی‌های قدرت بزرگ‌تر در صنعت هوش مصنوعی را به چالش بکشند.

عدم توازن قدرت جهانی در هوش مصنوعی

موسسه تحقیقاتی هوش مصنوعی توزیع‌شده (DAIR) گروهی بین‌المللی از پژوهشگران و فناورانی است که بر آنچه «تحقیقات هوش مصنوعی مستقل و ریشه‌دار در جامعه، فارغ از نفوذ فراگیر غول‌های فناوری» می‌نامد، تمرکز دارد. من با اعضای DAIR صحبت کردم که در حال ایجاد راه‌حل‌های هوش مصنوعی متمرکز بر آفریقا هستند که نیازهای اجتماعی خاصی را برآورده می‌کنند. در نهایت، آنها موارد استفاده‌ای از هوش مصنوعی را نشان می‌دهند که به جای شرکت‌های چند ملیتی یا صرفاً کاربران غربی، افراد محروم تاریخی را در اولویت قرار می‌دهند.

نیالنگ موروسی (Nyalleng Moorosi) پژوهشگر ارشد در DAIR مستقر در لسوتو و یکی از اعضای بنیان‌گذار دیپ لرنینگ ایندابا (Deep Learning Indaba)، سازمانی با هدف تقویت هوش مصنوعی و یادگیری ماشین در آفریقا است. پیشینه او در یادگیری ماشین و تدریس در مدارس دولتی آفریقای جنوبی، فلسفه‌های او را در مورد عدالت در فضای فناوری شکل داده است.

موروسی به عنوان یک مدرس در دانشگاه فورت هر - یکی از معدود دانشگاه‌های کشور که در دوران آپارتاید دانشجویان سیاه‌پوست آفریقای جنوبی را می‌پذیرفت - شاهد بود که بسیاری از دانشجویان در حین تحصیل با فقر دست و پنجه نرم می‌کنند. او خاطرنشان کرد: «تصور انجام کارهایی که من در طول دوره کارشناسی و تحصیلات تکمیلی انجام دادم [در حالی که] با این همه ناامنی دست به گریبان باشی، گیج‌کننده بود.»

پس از تدریس، موروسی توسط گوگل استخدام شد و در آنجا یکی از اولین کارمندان آزمایشگاه تحقیقاتی هوش مصنوعی گوگل آفریقا در غنا بود. موروسی به عنوان مهندس نرم‌افزار، روش‌ها و فناوری‌هایی را برای کمک به اطمینان از ساخت مسئولانه سیستم‌های هوش مصنوعی توسعه داد.

موروسی گفت: «من به گوگل پیوستم زیرا آنها در حال ساخت دفتری در آفریقا بودند و من می‌خواستم در آفریقا باشم. من نمی‌خواستم فقط به گوگل بروم. می‌خواستم به گوگل آفریقا بروم.»

اما پس از آنکه دوست و همکارش، تیمنیت گبرو (Timnit Gebru) - بنیان‌گذار DAIR و سرپرست سابق تیم هوش مصنوعی اخلاقی گوگل - با او تماس گرفت و در مورد عدم حضور نمایندگان آفریقایی در گوگل آفریقا پرس‌وجو کرد، موروسی شروع به تردید کرد که آیا گوگل برای نوع کار عدالت‌محورانه‌ای که او می‌خواست در یادگیری ماشین انجام دهد، مناسب است یا خیر.

به نظر می‌رسد شرکت‌های بزرگ فناوری سانسور می‌کنند کسانی را که به دنبال کشف آسیب‌های اجتماعی ناشی از فناوری و به چالش کشیدن شیوه‌های اصلی هوش مصنوعی هستند. به همین دلیل است که موروسی و گبرو می‌خواستند با نگه داشتن - و تأمین مالی - کارشناسان محلی در محل، قدرت را در جوامعی که صنعت فناوری به طور تاریخی آنها را محروم کرده است، متمرکز کنند.

مطالعه هوش مصنوعی DAIR

در سال ۲۰۱۸، موروسی، گبرو و رائستیه سفالا (Raesetje Sefala)، همکار DAIR، شروع به جمع‌آوری تصاویر ماهواره‌ای برای ردیابی تغییرات در محیط ساخته شده شهرک‌های آفریقای جنوبی کردند - محله‌های طبقه کارگر که از نظر تاریخی توسط ساکنان سیاه‌پوست آباد شده بودند. DAIR که علاقه‌مند بود بداند محله‌های شهری تاریخی سیاه‌پوست‌نشین آفریقای جنوبی از زمان پایان آپارتاید چگونه تغییر کرده‌اند، شروع به گردآوری یک مجموعه داده برای تعیین اینکه آیا زندگی ساکنان در طول زمان بهبود یافته است یا خیر، کرد.

شهرک‌های آفریقای جنوبی (Townships) محله‌های شهری توسعه نیافته‌ای هستند که در حومه شهرها قرار دارند. ساکنان شهرک‌ها معمولاً کیفیت زندگی پایین‌تری نسبت به ساکنان حومه‌های ثروتمندتر دارند. با این حال، از آنجایی که سرشماری دولتی برای تخصیص هزینه‌های عمومی به گروه‌های دارای مناطق مرفه‌تر استفاده می‌شد، داده‌های مربوط به شهرک‌ها نامرئی شدند. این رویکرد منجر به آپارتاید فضایی می‌شود که به طور نامتناسبی افراد سیاه‌پوست ساکن در شهرک‌ها را از دسترسی به منابع عمومی حیاتی مانند خدمات بهداشتی کافی، آموزش و فضاهای سبز محروم می‌کند.

این مشکل داده بر مطالعه DAIR تأثیر گذاشت زیرا پژوهشگران به مجموعه داده‌های از پیش موجود متکی بودند - عمدتاً از مدل‌های هوش مصنوعی آفریقای جنوبی که در تشخیص پیچیدگی‌های مناظر شهری کشور و تمایز شهرک‌ها از حومه‌ها مشکل داشتند. بنابراین، در عوض، پژوهشگران از میلیون‌ها تصویر ماهواره‌ای از استان‌های آفریقای جنوبی و داده‌های مکانی جمع‌آوری‌شده برای آموزش مدل‌های یادگیری ماشین و ساخت یک سیستم هوش مصنوعی استفاده کردند که مناطق خاص را به عنوان خوشه‌های ساختمانی ثروتمند، غیرثروتمند و غیرمسکونی، مانند زمین‌های خالی یا مناطق صنعتی، برچسب‌گذاری می‌کرد.

با این حال، هنگامی که DAIR تلاش کرد این یافته‌ها را منتشر کند، از سوی مؤسسات دانشگاهی عمدتاً سفیدپوست غربی با این نظر مواجه شد که این مطالعه یک مطالعه جغرافیایی است، نه تحقیقات یادگیری ماشین. به گفته موروسی، اساساً به آنها گفته شد که این مطالعه، هوش مصنوعی نیست.

همانطور که موروسی توضیح داد، با وجود استفاده از روش‌های بینایی کامپیوتری، مؤسسات دانشگاهی پروژه آپارتاید فضایی آنها را به عنوان بخشی از حوزه یادگیری ماشین نپذیرفتند: «ما از همان معیارها، الگوریتم‌ها و روش‌های ارتباطی، [شامل] نمودارها و همه چیز استفاده می‌کنیم. این خیلی عجیب است زیرا در آن زمان از بسیاری از مجموعه داده‌های نمایشی استفاده می‌شد، [اما] ما این مجموعه داده را در مورد چیزهای واقعی داشتیم و آن را بیش از حد خاص (niche) می‌دانستند.»

او افزود: «اما برای آفریقایی‌ها خاص نیست. این ردیابی چگونگی تأثیر جداسازی تاریخی بر نحوه زندگی ما، در بسیاری از مستعمرات سابق بریتانیا وجود دارد. در نایروبی هست. در لاگوس هست.» او توضیح داد: «در مستعمرات، استاندارد این بود که سفیدپوستان در آنجا زندگی می‌کردند و سیاه‌پوستان در جای دیگر. و توزیع منابع بین این دو مکان متفاوت بود.»

او گفت: «بنابراین، به نظر خاص می‌رسد زیرا این افراد آفریقایی نیستند و تجربه نمی‌کنند که چگونه استعمار در آفریقا، جهانی را که ما در آن زندگی می‌کنیم، شکل داده است.» موروسی به این نکته اشاره کرد که چگونه محتوای - و نه کیفیت - مطالعه هوش مصنوعی DAIR به نظر می‌رسد دیده شدن آن را در صنعتی تحت سلطه غرب تضعیف کرده است.

تأمین نیاز جوامع محروم

اسملش تکا هادگو (Asmelash Teka Hadgu)، هم‌بنیان‌گذار و مدیر ارشد فناوری لسان ای‌آی (Lesan AI) و پژوهشگر همکار در DAIR، بیشتر بر این نکته تأکید کرد. او هدف پشت لسان، ابزار ترجمه و رونویسی زبان که عمدتاً برای زبان‌های بومی آفریقایی است را تشریح کرد.

هادگو گفت رویکرد او به هوش مصنوعی با غول‌های فناوری مستقر در ایالات متحده متفاوت است زیرا لسان ای‌آی بر زبان‌های کم‌منبع مانند آمهری (Amharic)، تیگرینیا (Tigrinya) و دیگر گویش‌ها تمرکز دارد. از آنجایی که هادگو هم به زبان آمهری و هم تیگرینیا صحبت می‌کند، با تمرکز بر توصیفی‌ترین بخش‌های زبان خود، با استفاده از محتوای «باز استفاده شده» روزنامه‌ها و رادیو که در جوامع محلی اتیوپی موجود است، مجموعه داده‌ای قوی ساخت، همانطور که در مصاحبه ما توضیح داد.

در زمینه آفریقا، مدل‌های زبانی محبوب از غول‌های فناوری مانند OpenAI و Anthropic، صدها میلیون نفر را به اندازه کافی نمایندگی نمی‌کنند. به عنوان مثال، عملکرد ChatGPT OpenAI بر روی مجموعه داده‌ای از ۶۷۰ زبان نشان می‌دهد که زبان‌های آفریقایی کمترین پشتیبانی را دارند، طبق مقاله وی روی چن (Wei Rui Chen) با عنوان «دست و پا زدن در بابل: تحقیقی در مورد توانایی شناسایی زبان ChatGPT».

هادگو گفت: «ChatGPT OpenAI کاملاً خراب است، نه کمی اشتباه، بلکه در زبان‌هایی مانند آمهری و تیگرینیا مزخرفات تولید می‌کند. با این حال، آنها همچنان بر آن طرز فکر قدیمی پافشاری می‌کنند که بر یافتن راه‌حل‌ها ابتدا برای زبان انگلیسی متمرکز است و [فرض می‌کند] زبان‌های دیگر خود را خواهند رساند.»

هادگو توضیح داد که لسان با ساخت مجموعه داده‌های با کیفیت بالا برای زبان‌های کم‌منبع، قصد دارد «میلیون‌ها ترجمه دقیق را برای هزاران نفر ارائه دهد و محتوای وب را [برای] این جوامع باز کند» زیرا محتوای آنلاین محدودی در حال حاضر به این زبان‌ها در دسترس است.

او گفت: «آنها افزونه نیستند. ما ۹۵ درصد از منابع خود را صرف تعداد انگشت شماری از زبان‌ها نمی‌کنیم و سپس روی آنچه که آنها زبان‌های دنباله دراز (long-tail languages) می‌نامند، کار کنیم.» در اینجا، زبان‌های دنباله دراز به زبان‌هایی اشاره دارد که کمتر شناخته شده، خاص یا کمتر محلی‌سازی شده‌اند، صرف نظر از اینکه چند نفر به آن زبان‌ها صحبت می‌کنند.

هنگامی که شرکت‌های هوش مصنوعی غربی تلاش می‌کنند زبان‌های کم‌منبع را در سیستم‌های هوش مصنوعی خود نمایندگی کنند، فرآیندهای آنها برای مقابله با چالش ترجمه کافی، مجهز نیستند. این مسئله عمدتاً به این دلیل است که زبان‌های کم‌منبع به همان روشی که زبان‌های غربی مانند انگلیسی برای استخراج داده‌ها (data scraping) به صورت دیجیتالی در دسترس هستند، در دسترس نیستند، به ویژه با توجه به این واقعیت که اینترنت هنوز به طور گسترده‌ای مبتنی بر زبان انگلیسی است.

علاوه بر این، داده‌هایی که اغلب برای آموزش مدل‌های هوش مصنوعی استفاده می‌شوند، به شدت به سمت جهان غرب گرایش دارند. در مطالعه‌ای که توسط ابتکار تبارشناسی داده (Data Provenance Initiative) انجام شد، بیش از ۵۰ پژوهشگر بررسی کردند که داده‌هایی که مدل‌های هوش مصنوعی را می‌سازند از کجا می‌آیند. پژوهشگران بیش از ۴۰۰۰ مجموعه داده عمومی را که بیش از ۶۰۰ زبان، ۶۷ کشور و سه دهه را پوشش می‌داد، تجزیه و تحلیل کردند. حدود ۹۰ درصد از داده‌های مدل‌ها از اروپا و آمریکای شمالی و تنها ۴ درصد از آفریقا آمده بود.

هادگو گفت که پروژه «هیچ زبانی پشت سر نماند» (No Language Left Behind) فیسبوک «روی صدها زبان کار کرد، [با این حال] زبان‌های آفریقایی گنجانده شده بر اساس چیزی است که من آن را "راحتی" می‌نامم. [آنها] وب را برای هر منبعی که می‌توانند برای این زبان‌ها پیدا کنند، جستجو می‌کنند و سپس از روش‌های خودکار برای فیلتر کردن، هم‌تراز کردن و ایجاد سیستم‌ها استفاده می‌کنند.»

او گفت که شرکت‌ها اساساً هیچ منبعی برای زبان‌های آفریقایی ارائه نمی‌دهند: «تعجب خواهید کرد (یا نه) اگر بفهمید که مردم ترجیح می‌دهند میلیون‌ها دلار برای استارت‌