ما اغلب اینترنت را بدیهی میدانیم. اقیانوسی از اطلاعات در نوک انگشتان ماست—و به سادگی کار میکند. اما این سیستم متکی به دستههایی از "خزندهها" است—باتهایی که در وب پرسه میزنند، روزانه از میلیونها وبسایت بازدید میکنند و آنچه را که میبینند گزارش میدهند. اینگونه است که گوگل موتورهای جستجوی خود را نیرو میدهد، آمازون قیمتهای رقابتی را تعیین میکند و Kayak فهرستهای سفر را جمعآوری میکند. فراتر از دنیای تجارت، خزندهها برای نظارت بر امنیت وب، فعالسازی ابزارهای دسترسی و حفظ آرشیوهای تاریخی ضروری هستند. دانشگاهیان، روزنامهنگاران و جوامع مدنی نیز برای انجام تحقیقات حیاتی به آنها تکیه میکنند.
خزندهها بومی هستند. آنها که در حال حاضر نیمی از ترافیک اینترنت را تشکیل میدهند، به زودی از ترافیک انسانی پیشی خواهند گرفت. این متروی پنهان وب، شب و روز اطلاعات را از سایتی به سایت دیگر منتقل میکند. و اخیراً، آنها یک هدف دیگر را نیز دنبال میکنند: شرکتهایی مانند OpenAI از دادههای خزیدهشده وب برای آموزش سیستمهای هوش مصنوعی خود، مانند ChatGPT، استفاده میکنند.
به طور قابل درک، وبسایتها اکنون از ترس اینکه این گونه مهاجم—خزندههای هوش مصنوعی—به جابجایی آنها کمک کند، در حال مبارزه هستند. اما یک مشکل وجود دارد: این عقبنشینی همچنین شفافیت و مرزهای باز وب را تهدید میکند که به برنامههای غیرهوش مصنوعی اجازه میدهند شکوفا شوند. مگر اینکه در مورد چگونگی رفع این مشکل اندیشمندانه عمل کنیم، وب به طور فزایندهای با لاگینها، دیوارهای پرداخت و عوارض دسترسی تقویت میشود که نه تنها هوش مصنوعی، بلکه تنوع زیستی کاربران واقعی و خزندههای مفید را نیز مهار میکند.
سیستمی در آشفتگی
برای درک این مشکل، مهم است که بدانیم وب تا همین اواخر چگونه کار میکرد، زمانی که خزندهها و وبسایتها در یک همزیستی نسبی با هم کار میکردند. خزندهها تا حد زیادی غیرمخرب بودند و حتی میتوانستند مفید باشند، و افراد را از موتورهای جستجو مانند گوگل یا بینگ در ازای دادههایشان به وبسایتها میآوردند. به نوبه خود، وبسایتها محدودیتهای کمی را برای خزندهها اعمال میکردند، حتی به آنها کمک میکردند تا در سایتهای خود حرکت کنند. وبسایتها در آن زمان و اکنون از فایلهای قابل خواندن توسط ماشین، به نام فایلهای robots.txt، استفاده میکنند تا مشخص کنند کدام محتوا را میخواهند خزندهها رها کنند. اما تلاشهای کمی برای اجرای این قوانین یا شناسایی خزندههایی که آنها را نادیده میگیرند، انجام شد. به نظر میرسید خطرات کم است، بنابراین سایتها در ممانعت از آن خزندهها سرمایهگذاری نکردند.
اما اکنون محبوبیت هوش مصنوعی اکوسیستم خزنده را دچار هرج و مرج کرده است.
مانند یک گونه مهاجم، خزندهها برای هوش مصنوعی اشتهای سیریناپذیر و بیتمایزی برای دادهها دارند، و مقالات ویکیپدیا، مقالات آکادمیک و پستها در Reddit، وبسایتهای بررسی و وبلاگها را جارو میکنند. همه اشکال داده در منو هستند—متن، جداول، تصاویر، صدا و ویدئو. و سیستمهای هوش مصنوعی که حاصل میشوند میتوانند (اما نه همیشه) به روشهایی مورد استفاده قرار گیرند که مستقیماً با منابع داده خود رقابت میکنند. سایتهای خبری میترسند که چتباتهای هوش مصنوعی خوانندگان آنها را فریب دهند. هنرمندان و طراحان میترسند که ژنراتورهای تصویر هوش مصنوعی مشتریان آنها را اغوا کنند. و انجمنهای کدنویسی میترسند که ژنراتورهای کد هوش مصنوعی جایگزین مشارکتکنندگان آنها شوند.
در پاسخ، وبسایتها شروع به دور کردن خزندهها در در ورودی کردهاند. انگیزه تا حد زیادی یکسان است: سیستمهای هوش مصنوعی و خزندههایی که آنها را نیرو میدهند، ممکن است با استفاده از دادههای خود وبسایتها، منافع اقتصادی هر کسی را که محتوایی را در وب منتشر میکند، تضعیف کنند. این درک مجموعهای از جنگهای خزنده را برانگیخته است که در زیر سطح موج میزند.
مبارزه
ناشران وب با مجموعهای از دادخواستها، قوانین و علوم کامپیوتر به هوش مصنوعی پاسخ دادهاند. آنچه با مجموعهای از دادخواستهای نقض حق نسخهبرداری آغاز شد، از جمله دادخواستی از نیویورک تایمز، به موجی از محدودیتها در استفاده از دادههای وبسایتها و همچنین قوانینی مانند قانون هوش مصنوعی اتحادیه اروپا برای محافظت از توانایی دارندگان حق نسخهبرداری برای انصراف از آموزش هوش مصنوعی تبدیل شده است.
با این حال، احکام قانونی و قانونی ممکن است سالها طول بکشد، در حالی که پیامدهای پذیرش هوش مصنوعی فوری است. بنابراین در این میان، سازندگان داده بر سفت کردن شیر داده در منبع تمرکز کردهاند: خزندههای وب. از اواسط سال 2023، وبسایتها محدودیتهای خزنده را برای بیش از 25٪ از دادههای با بالاترین کیفیت ایجاد کردهاند. با این حال، بسیاری از این محدودیتها را میتوان به سادگی نادیده گرفت، و در حالی که توسعهدهندگان بزرگ هوش مصنوعی مانند OpenAI و Anthropic ادعا میکنند که به محدودیتهای وبسایتها احترام میگذارند، آنها متهم شدهاند که آنها را نادیده میگیرند یا به طور تهاجمی وبسایتها را غرق میکنند (انجمن پشتیبانی فنی اصلی iFixit از جمله کسانی است که چنین ادعاهایی را مطرح میکنند).
اکنون وبسایتها به آخرین گزینه خود روی میآورند: فناوریهای ضد خزنده. مجموعهای از استارتآپهای جدید (TollBit، ScalePost و غیره) و شرکتهای زیرساخت وب مانند Cloudflare (تخمین زده میشود که از 20٪ از ترافیک جهانی وب پشتیبانی میکند)، شروع به ارائه ابزارهایی برای شناسایی، مسدود کردن و شارژ ترافیک غیرانسانی کردهاند. این ابزارها موانعی ایجاد میکنند که حرکت در سایتها را سختتر میکنند یا خزندهها را ملزم به ثبتنام میکنند.
این اقدامات هنوز محافظت فوری ارائه میدهند. از این گذشته، شرکتهای هوش مصنوعی نمیتوانند از آنچه نمیتوانند به دست آورند استفاده کنند، صرف نظر از اینکه دادگاهها در مورد حق نسخهبرداری و استفاده منصفانه چه حکمی صادر میکنند. اما نتیجه این است که ناشران، انجمنها و سایتهای بزرگ وب اغلب در حال بالا بردن پل متحرک برای همه خزندهها هستند—حتی آنهایی که هیچ تهدیدی ندارند. این حتی در صورتی است که آنها قراردادهای پرسودی را با شرکتهای هوش مصنوعی امضا کنند که میخواهند انحصار خود را بر آن دادهها حفظ کنند. در نهایت، وب به مناطقی تقسیم میشود که خزندههای کمتری در آن استقبال میشوند.
چگونه ضرر میکنیم
همانطور که این بازی موش و گربه شتاب میگیرد، بازیکنان بزرگ تمایل دارند از بازیکنان کوچکتر دوام بیاورند. وبسایتها و ناشران بزرگ از محتوای خود در دادگاه دفاع میکنند یا قراردادهایی را مذاکره میکنند. و شرکتهای فناوری بزرگ میتوانند مجوز مجموعههای داده بزرگ را دریافت کنند یا خزندههای قدرتمندی را برای دور زدن محدودیتها ایجاد کنند. اما سازندگان کوچک، مانند هنرمندان تجسمی، مربیان YouTube یا وبلاگنویسان، ممکن است احساس کنند که فقط دو گزینه دارند: محتوای خود را پشت لاگینها و دیوارهای پرداخت پنهان کنند یا آن را به طور کامل آفلاین کنند. برای کاربران واقعی، این کار دسترسی به مقالات خبری، دیدن محتوا از سازندگان مورد علاقه خود و حرکت در وب بدون برخورد با لاگینها، درخواستهای اشتراک و کپچاها را در هر مرحله سختتر میکند.
شاید نگرانکنندهتر این باشد که چگونه قراردادهای بزرگ و انحصاری با شرکتهای هوش مصنوعی وب را تقسیم میکنند. هر معامله انگیزه وبسایت را برای انحصاری ماندن و جلوگیری از دسترسی هر کس دیگری به دادهها افزایش میدهد—خواه رقیب باشد یا نه. این احتمالاً منجر به تمرکز بیشتر قدرت در دست توسعهدهندگان هوش مصنوعی و ناشران داده کمتر میشود. آیندهای که در آن فقط شرکتهای بزرگ میتوانند مجوز دادهها یا خزش دادههای حیاتی وب را دریافت کنند، رقابت را سرکوب میکند و در خدمت کاربران واقعی یا بسیاری از دارندگان حق نسخهبرداری نخواهد بود.
به بیان ساده، دنبال کردن این مسیر باعث کاهش تنوع زیستی وب میشود. خزندهها از محققان دانشگاهی، روزنامهنگاران و برنامههای غیرهوش مصنوعی ممکن است به طور فزایندهای از دسترسی آزاد محروم شوند. مگر اینکه بتوانیم اکوسیستمی را با قوانین متفاوت برای مصارف مختلف داده پرورش دهیم، ممکن است در نهایت با مرزهای سختگیرانهای در سراسر وب مواجه شویم و هزینهای را برای باز بودن و شفافیت تحمیل کنیم.
در حالی که اجتناب از این مسیر آسان نیست، مدافعان اینترنت باز میتوانند بر قوانین، سیاستها و زیرساختهای فنی اصرار ورزند که به صراحت از استفادههای غیررقابتی از دادههای وب در برابر قراردادهای انحصاری محافظت میکنند و در عین حال از سازندگان و ناشران داده محافظت میکنند. این حقوق در تضاد نیستند. ما از مبارزه برای دستیابی به حق دسترسی به دادهها در سراسر اینترنت، چیزهای زیادی برای از دست دادن یا به دست آوردن داریم. همانطور که وبسایتها به دنبال راههایی برای سازگاری هستند، نباید وب باز را بر محراب هوش مصنوعی تجاری قربانی کنیم.
Shayne Longpre دانشجوی دکترای MIT است، جایی که تحقیقات او بر تقاطع هوش مصنوعی و سیاست متمرکز است. او رهبری ابتکار عمل منشأ داده را بر عهده دارد.