ریچ ساتن و اندرو بارتو، دانشمندان کامپیوتر، به دلیل سابقه طولانی ایدههای تأثیرگذار، جایزه تورینگ امسال، معتبرترین جایزه در این زمینه، را دریافت کردند. مقاله سال ۲۰۱۹ ساتن با عنوان "درس تلخ"، زیربنای بسیاری از شور و هیجان امروزی پیرامون هوش مصنوعی (AI) است.
او استدلال میکند که روشهای بهبود هوش مصنوعی که متکی به محاسبات سنگین هستند تا دانش انسانی، "در نهایت مؤثرترین روشها هستند و با اختلاف زیادی." این ایدهای است که حقیقت آن بارها در تاریخ هوش مصنوعی نشان داده شده است. با این حال، درس مهم دیگری نیز در آن تاریخ از حدود ۲۰ سال پیش وجود دارد که باید به آن توجه کنیم.
رباتهای گفتگوی هوش مصنوعی امروزی بر اساس مدلهای زبانی بزرگ (LLM) ساخته شدهاند که بر روی مقادیر زیادی داده آموزش داده میشوند تا ماشین را قادر سازند تا با پیشبینی کلمه بعدی در یک جمله با استفاده از احتمالات، "استدلال" کند.
مدلهای زبانی احتمالی مفید توسط دانشمند آمریکایی، کلود شانون در سال ۱۹۴۸ فرموله شدند و به سوابقی از دهههای ۱۹۱۰ و ۱۹۲۰ اشاره کردند. مدلهای زبانی به این شکل در دهههای ۱۹۷۰ و ۱۹۸۰ برای استفاده توسط رایانهها در ترجمه و تشخیص گفتار، که در آن کلمات گفتاری به متن تبدیل میشوند، رایج شدند.
اولین مدل زبانی در مقیاس مدلهای زبانی بزرگ معاصر در سال ۲۰۰۷ منتشر شد و یکی از اجزای گوگل ترنسلیت (Google Translate) بود که یک سال قبل از آن راهاندازی شده بود. این مدل که بر روی تریلیونها کلمه با استفاده از بیش از هزار کامپیوتر آموزش داده شده است، پیشروی بیچونوچرای مدلهای زبانی بزرگ امروزی است، حتی اگر از نظر فنی متفاوت باشد.
این مدل متکی به احتمالات محاسبه شده از تعداد کلمات بود، در حالی که مدلهای زبانی بزرگ امروزی بر اساس چیزی هستند که به عنوان ترانسفورمرها (transformers) شناخته میشوند. این ترانسفورمرها که برای اولین بار در سال ۲۰۱۷ توسعه یافتند - همچنین در اصل برای ترجمه - شبکههای عصبی مصنوعی هستند که ماشینها را قادر میسازند تا از زمینه هر کلمه بهتر استفاده کنند.
مزایا و معایب گوگل ترنسلیت
ترجمه ماشینی (MT) در دو دهه گذشته به طور مداوم بهبود یافته است، که نه تنها ناشی از پیشرفتهای فناوری، بلکه همچنین اندازه و تنوع مجموعههای دادههای آموزشی است. در حالی که گوگل ترنسلیت با ارائه ترجمه بین تنها سه زبان در سال ۲۰۰۶ - انگلیسی، چینی و عربی - شروع به کار کرد، امروزه از ۲۴۹ زبان پشتیبانی میکند. با این حال، در حالی که این ممکن است چشمگیر به نظر برسد، در واقع کمتر از ۴٪ از ۷۰۰۰ زبان تخمین زده شده در جهان است.
بین تعدادی از این زبانها، مانند انگلیسی و اسپانیایی، ترجمهها اغلب بینقص هستند. با این حال، حتی در این زبانها، مترجم گاهی اوقات در اصطلاحات، نام مکانها، اصطلاحات حقوقی و فنی و سایر تفاوتهای ظریف شکست میخورد.
بین بسیاری از زبانهای دیگر، این سرویس میتواند به شما کمک کند تا اصل مطلب را درک کنید، اما اغلب حاوی اشتباهات جدی است. بزرگترین ارزیابی سالانه سیستمهای ترجمه ماشینی - که اکنون شامل ترجمههای انجام شده توسط مدلهای زبانی بزرگ است که با سیستمهای ترجمه اختصاصی رقابت میکنند - در سال ۲۰۲۴ به صراحت نتیجه گرفت که "ترجمه ماشینی هنوز حل نشده است."
ترجمه ماشینی با وجود این کاستیها به طور گسترده مورد استفاده قرار میگیرد: تا سال ۲۰۲۱، برنامه گوگل ترنسلیت به ۱ میلیارد نصب رسید. با این حال، به نظر میرسد کاربران هنوز درک میکنند که باید با احتیاط از چنین خدماتی استفاده کنند: یک نظرسنجی سال ۲۰۲۲ از ۱۲۰۰ نفر نشان داد که آنها بیشتر از ترجمه ماشینی در محیطهای کمخطر مانند درک محتوای آنلاین خارج از محل کار یا تحصیل استفاده میکنند. تنها حدود ۲٪ از ترجمههای پاسخدهندگان شامل محیطهای پرخطرتر، از جمله تعامل با کارکنان مراقبتهای بهداشتی یا پلیس بود.
مطمئناً، خطرات زیادی در ارتباط با استفاده از ترجمههای ماشینی در این محیطها وجود دارد. مطالعات نشان دادهاند که اشتباهات ترجمه ماشینی در مراقبتهای بهداشتی میتواند به طور بالقوه آسیب جدی وارد کند، و گزارشهایی وجود دارد که به پروندههای پناهندگی معتبر آسیب رسانده است. این کمک نمیکند که کاربران تمایل دارند به ترجمههای ماشینی که درک آنها آسان است اعتماد کنند، حتی زمانی که گمراهکننده هستند.
با دانستن خطرات، صنعت ترجمه به طور گسترده به مترجمان انسانی متکی است در محیطهای پرخطر مانند حقوق بینالملل و تجارت. با این حال، قابلیت فروش این کارگران کاهش یافته است زیرا ماشینها اکنون میتوانند بسیاری از کارهای آنها را انجام دهند و آنها را مجبور میکنند تا بیشتر بر تضمین کیفیت تمرکز کنند.
بسیاری از مترجمان انسانی فریلنسر در یک بازار هستند که توسط پلتفرمهایی با قابلیتهای ترجمه ماشینی واسطه میشوند. کاهش یافتن به دست و پنجه نرم کردن با خروجی نادرست ناامیدکننده است، چه رسد به ناامنی و تنهایی بومی کار پلتفرمی. مترجمان همچنین باید با تهدید واقعی یا درک شده از اینکه رقبای ماشینی آنها در نهایت جایگزین آنها خواهند شد، مقابله کنند - محققان به این موضوع اضطراب اتوماسیون میگویند.
درسهایی برای مدلهای زبانی بزرگ
رونمایی اخیر از مدل هوش مصنوعی چینی Deepseek، که به نظر میرسد نزدیک به قابلیتهای آخرین مدلهای GPT رهبر بازار، OpenAI، اما با کسری از قیمت، نشان میدهد که مدلهای زبانی بزرگ بسیار پیچیده در مسیر کالایی شدن قرار دارند. آنها توسط سازمانهایی در هر اندازه با هزینههای کم مستقر خواهند شد - درست مانند ترجمه ماشینی امروزی.
البته، مدلهای زبانی بزرگ امروزی فراتر از ترجمه ماشینی هستند و طیف بسیار گستردهتری از وظایف را انجام میدهند. محدودیت اساسی آنها داده است، پس از اینکه بیشتر آنچه در اینترنت در دسترس است را تمام کردهاند. با وجود تمام مقیاس آن، احتمالاً دادههای آموزشی آنها اکثر وظایف را کمتر نشان میدهند، همانطور که بیشتر زبانها را برای ترجمه ماشینی کمتر نشان میدهد.
در واقع، این مشکل با هوش مصنوعی مولد بدتر است: برخلاف زبانها، دشوار است بدانیم کدام وظایف به خوبی در یک مدل زبانی بزرگ نشان داده شدهاند. بدون شک تلاشهایی برای بهبود دادههای آموزشی انجام خواهد شد که مدلهای زبانی بزرگ را در برخی از وظایف کمتر نشان داده شده بهتر میکند. اما دامنه این چالش کوچکتر از ترجمه ماشینی است.
خوشبینان فناوری ممکن است امید خود را به این موضوع ببندند که ماشینها میتوانند با ساختن نسخههای مصنوعی خود، یا یادگیری از بازخورد انسانی از طریق تعاملات ربات گفتگو، به افزایش اندازه دادههای آموزشی ادامه دهند. این راهها قبلاً در ترجمه ماشینی مورد بررسی قرار گرفتهاند، با موفقیت محدود.
بنابراین آینده قابل پیشبینی برای مدلهای زبانی بزرگ، آیندهای است که در آن آنها در چند کار عالی هستند، در برخی دیگر متوسط هستند و در جاهای دیگر غیرقابل اعتماد هستند. ما از آنها در جاهایی استفاده خواهیم کرد که خطرات کم است، در حالی که ممکن است به کاربران ناآگاه در محیطهای پرخطر آسیب برسانند - همانطور که قبلاً برای وکلایی که به خروجی ChatGPT حاوی ارجاعات به رویههای قانونی غیر موجود اعتماد کردند اتفاق افتاده است.
این مدلهای زبانی بزرگ به کارگران انسانی در صنایعی با فرهنگ تضمین کیفیت، مانند برنامهنویسی کامپیوتر، کمک خواهند کرد، در حالی که تجربه آن کارگران را بدتر میکنند. به علاوه، ما باید با مشکلات جدیدی مانند تهدید آنها برای آثار هنری انسانی و محیط زیست مقابله کنیم. سوال فوری این است: آیا این واقعاً آیندهای است که میخواهیم بسازیم؟