استفانی آرنت / MIT Technology Review | Envato
استفانی آرنت / MIT Technology Review | Envato

جنگ‌های خزنده هوش مصنوعی تهدیدی برای بسته‌تر شدن وب برای همه

ما اغلب اینترنت را بدیهی می‌دانیم. اقیانوسی از اطلاعات در نوک انگشتان ماست—و به سادگی کار می‌کند. اما این سیستم متکی به دسته‌هایی از "خزنده‌ها" است—بات‌هایی که در وب پرسه می‌زنند، روزانه از میلیون‌ها وب‌سایت بازدید می‌کنند و آنچه را که می‌بینند گزارش می‌دهند. این‌گونه است که گوگل موتورهای جستجوی خود را نیرو می‌دهد، آمازون قیمت‌های رقابتی را تعیین می‌کند و Kayak فهرست‌های سفر را جمع‌آوری می‌کند. فراتر از دنیای تجارت، خزنده‌ها برای نظارت بر امنیت وب، فعال‌سازی ابزارهای دسترسی و حفظ آرشیوهای تاریخی ضروری هستند. دانشگاهیان، روزنامه‌نگاران و جوامع مدنی نیز برای انجام تحقیقات حیاتی به آنها تکیه می‌کنند.

خزنده‌ها بومی هستند. آنها که در حال حاضر نیمی از ترافیک اینترنت را تشکیل می‌دهند، به زودی از ترافیک انسانی پیشی خواهند گرفت. این متروی پنهان وب، شب و روز اطلاعات را از سایتی به سایت دیگر منتقل می‌کند. و اخیراً، آنها یک هدف دیگر را نیز دنبال می‌کنند: شرکت‌هایی مانند OpenAI از داده‌های خزیده‌شده وب برای آموزش سیستم‌های هوش مصنوعی خود، مانند ChatGPT، استفاده می‌کنند.

به طور قابل درک، وب‌سایت‌ها اکنون از ترس اینکه این گونه مهاجم—خزنده‌های هوش مصنوعی—به جابجایی آنها کمک کند، در حال مبارزه هستند. اما یک مشکل وجود دارد: این عقب‌نشینی همچنین شفافیت و مرزهای باز وب را تهدید می‌کند که به برنامه‌های غیرهوش مصنوعی اجازه می‌دهند شکوفا شوند. مگر اینکه در مورد چگونگی رفع این مشکل اندیشمندانه عمل کنیم، وب به طور فزاینده‌ای با لاگین‌ها، دیوارهای پرداخت و عوارض دسترسی تقویت می‌شود که نه تنها هوش مصنوعی، بلکه تنوع زیستی کاربران واقعی و خزنده‌های مفید را نیز مهار می‌کند.

سیستمی در آشفتگی

برای درک این مشکل، مهم است که بدانیم وب تا همین اواخر چگونه کار می‌کرد، زمانی که خزنده‌ها و وب‌سایت‌ها در یک همزیستی نسبی با هم کار می‌کردند. خزنده‌ها تا حد زیادی غیرمخرب بودند و حتی می‌توانستند مفید باشند، و افراد را از موتورهای جستجو مانند گوگل یا بینگ در ازای داده‌هایشان به وب‌سایت‌ها می‌آوردند. به نوبه خود، وب‌سایت‌ها محدودیت‌های کمی را برای خزنده‌ها اعمال می‌کردند، حتی به آنها کمک می‌کردند تا در سایت‌های خود حرکت کنند. وب‌سایت‌ها در آن زمان و اکنون از فایل‌های قابل خواندن توسط ماشین، به نام فایل‌های robots.txt، استفاده می‌کنند تا مشخص کنند کدام محتوا را می‌خواهند خزنده‌ها رها کنند. اما تلاش‌های کمی برای اجرای این قوانین یا شناسایی خزنده‌هایی که آنها را نادیده می‌گیرند، انجام شد. به نظر می‌رسید خطرات کم است، بنابراین سایت‌ها در ممانعت از آن خزنده‌ها سرمایه‌گذاری نکردند.

اما اکنون محبوبیت هوش مصنوعی اکوسیستم خزنده را دچار هرج و مرج کرده است.

مانند یک گونه مهاجم، خزنده‌ها برای هوش مصنوعی اشتهای سیری‌ناپذیر و بی‌تمایزی برای داده‌ها دارند، و مقالات ویکی‌پدیا، مقالات آکادمیک و پست‌ها در Reddit، وب‌سایت‌های بررسی و وبلاگ‌ها را جارو می‌کنند. همه اشکال داده در منو هستند—متن، جداول، تصاویر، صدا و ویدئو. و سیستم‌های هوش مصنوعی که حاصل می‌شوند می‌توانند (اما نه همیشه) به روش‌هایی مورد استفاده قرار گیرند که مستقیماً با منابع داده خود رقابت می‌کنند. سایت‌های خبری می‌ترسند که چت‌بات‌های هوش مصنوعی خوانندگان آنها را فریب دهند. هنرمندان و طراحان می‌ترسند که ژنراتورهای تصویر هوش مصنوعی مشتریان آنها را اغوا کنند. و انجمن‌های کدنویسی می‌ترسند که ژنراتورهای کد هوش مصنوعی جایگزین مشارکت‌کنندگان آنها شوند.

در پاسخ، وب‌سایت‌ها شروع به دور کردن خزنده‌ها در در ورودی کرده‌اند. انگیزه تا حد زیادی یکسان است: سیستم‌های هوش مصنوعی و خزنده‌هایی که آنها را نیرو می‌دهند، ممکن است با استفاده از داده‌های خود وب‌سایت‌ها، منافع اقتصادی هر کسی را که محتوایی را در وب منتشر می‌کند، تضعیف کنند. این درک مجموعه‌ای از جنگ‌های خزنده را برانگیخته است که در زیر سطح موج می‌زند.

مبارزه

ناشران وب با مجموعه‌ای از دادخواست‌ها، قوانین و علوم کامپیوتر به هوش مصنوعی پاسخ داده‌اند. آنچه با مجموعه‌ای از دادخواست‌های نقض حق نسخه‌برداری آغاز شد، از جمله دادخواستی از نیویورک تایمز، به موجی از محدودیت‌ها در استفاده از داده‌های وب‌سایت‌ها و همچنین قوانینی مانند قانون هوش مصنوعی اتحادیه اروپا برای محافظت از توانایی دارندگان حق نسخه‌برداری برای انصراف از آموزش هوش مصنوعی تبدیل شده است.

با این حال، احکام قانونی و قانونی ممکن است سال‌ها طول بکشد، در حالی که پیامدهای پذیرش هوش مصنوعی فوری است. بنابراین در این میان، سازندگان داده بر سفت کردن شیر داده در منبع تمرکز کرده‌اند: خزنده‌های وب. از اواسط سال 2023، وب‌سایت‌ها محدودیت‌های خزنده را برای بیش از 25٪ از داده‌های با بالاترین کیفیت ایجاد کرده‌اند. با این حال، بسیاری از این محدودیت‌ها را می‌توان به سادگی نادیده گرفت، و در حالی که توسعه‌دهندگان بزرگ هوش مصنوعی مانند OpenAI و Anthropic ادعا می‌کنند که به محدودیت‌های وب‌سایت‌ها احترام می‌گذارند، آنها متهم شده‌اند که آنها را نادیده می‌گیرند یا به طور تهاجمی وب‌سایت‌ها را غرق می‌کنند (انجمن پشتیبانی فنی اصلی iFixit از جمله کسانی است که چنین ادعاهایی را مطرح می‌کنند).

اکنون وب‌سایت‌ها به آخرین گزینه خود روی می‌آورند: فناوری‌های ضد خزنده. مجموعه‌ای از استارت‌آپ‌های جدید (TollBit، ScalePost و غیره) و شرکت‌های زیرساخت وب مانند Cloudflare (تخمین زده می‌شود که از 20٪ از ترافیک جهانی وب پشتیبانی می‌کند)، شروع به ارائه ابزارهایی برای شناسایی، مسدود کردن و شارژ ترافیک غیرانسانی کرده‌اند. این ابزارها موانعی ایجاد می‌کنند که حرکت در سایت‌ها را سخت‌تر می‌کنند یا خزنده‌ها را ملزم به ثبت‌نام می‌کنند.

این اقدامات هنوز محافظت فوری ارائه می‌دهند. از این گذشته، شرکت‌های هوش مصنوعی نمی‌توانند از آنچه نمی‌توانند به دست آورند استفاده کنند، صرف نظر از اینکه دادگاه‌ها در مورد حق نسخه‌برداری و استفاده منصفانه چه حکمی صادر می‌کنند. اما نتیجه این است که ناشران، انجمن‌ها و سایت‌های بزرگ وب اغلب در حال بالا بردن پل متحرک برای همه خزنده‌ها هستند—حتی آنهایی که هیچ تهدیدی ندارند. این حتی در صورتی است که آنها قراردادهای پرسودی را با شرکت‌های هوش مصنوعی امضا کنند که می‌خواهند انحصار خود را بر آن داده‌ها حفظ کنند. در نهایت، وب به مناطقی تقسیم می‌شود که خزنده‌های کمتری در آن استقبال می‌شوند.

چگونه ضرر می‌کنیم

همانطور که این بازی موش و گربه شتاب می‌گیرد، بازیکنان بزرگ تمایل دارند از بازیکنان کوچک‌تر دوام بیاورند. وب‌سایت‌ها و ناشران بزرگ از محتوای خود در دادگاه دفاع می‌کنند یا قراردادهایی را مذاکره می‌کنند. و شرکت‌های فناوری بزرگ می‌توانند مجوز مجموعه‌های داده بزرگ را دریافت کنند یا خزنده‌های قدرتمندی را برای دور زدن محدودیت‌ها ایجاد کنند. اما سازندگان کوچک، مانند هنرمندان تجسمی، مربیان YouTube یا وبلاگ‌نویسان، ممکن است احساس کنند که فقط دو گزینه دارند: محتوای خود را پشت لاگین‌ها و دیوارهای پرداخت پنهان کنند یا آن را به طور کامل آفلاین کنند. برای کاربران واقعی، این کار دسترسی به مقالات خبری، دیدن محتوا از سازندگان مورد علاقه خود و حرکت در وب بدون برخورد با لاگین‌ها، درخواست‌های اشتراک و کپچاها را در هر مرحله سخت‌تر می‌کند.

شاید نگران‌کننده‌تر این باشد که چگونه قراردادهای بزرگ و انحصاری با شرکت‌های هوش مصنوعی وب را تقسیم می‌کنند. هر معامله انگیزه وب‌سایت را برای انحصاری ماندن و جلوگیری از دسترسی هر کس دیگری به داده‌ها افزایش می‌دهد—خواه رقیب باشد یا نه. این احتمالاً منجر به تمرکز بیشتر قدرت در دست توسعه‌دهندگان هوش مصنوعی و ناشران داده کمتر می‌شود. آینده‌ای که در آن فقط شرکت‌های بزرگ می‌توانند مجوز داده‌ها یا خزش داده‌های حیاتی وب را دریافت کنند، رقابت را سرکوب می‌کند و در خدمت کاربران واقعی یا بسیاری از دارندگان حق نسخه‌برداری نخواهد بود.

به بیان ساده، دنبال کردن این مسیر باعث کاهش تنوع زیستی وب می‌شود. خزنده‌ها از محققان دانشگاهی، روزنامه‌نگاران و برنامه‌های غیرهوش مصنوعی ممکن است به طور فزاینده‌ای از دسترسی آزاد محروم شوند. مگر اینکه بتوانیم اکوسیستمی را با قوانین متفاوت برای مصارف مختلف داده پرورش دهیم، ممکن است در نهایت با مرزهای سختگیرانه‌ای در سراسر وب مواجه شویم و هزینه‌ای را برای باز بودن و شفافیت تحمیل کنیم.

در حالی که اجتناب از این مسیر آسان نیست، مدافعان اینترنت باز می‌توانند بر قوانین، سیاست‌ها و زیرساخت‌های فنی اصرار ورزند که به صراحت از استفاده‌های غیررقابتی از داده‌های وب در برابر قراردادهای انحصاری محافظت می‌کنند و در عین حال از سازندگان و ناشران داده محافظت می‌کنند. این حقوق در تضاد نیستند. ما از مبارزه برای دستیابی به حق دسترسی به داده‌ها در سراسر اینترنت، چیزهای زیادی برای از دست دادن یا به دست آوردن داریم. همانطور که وب‌سایت‌ها به دنبال راه‌هایی برای سازگاری هستند، نباید وب باز را بر محراب هوش مصنوعی تجاری قربانی کنیم.

Shayne Longpre دانشجوی دکترای MIT است، جایی که تحقیقات او بر تقاطع هوش مصنوعی و سیاست متمرکز است. او رهبری ابتکار عمل منشأ داده را بر عهده دارد.