ریکاردو میلانی از طریق گتی ایمیجز
ریکاردو میلانی از طریق گتی ایمیجز

ویکی‌پدیا مجموعه داده آموزشی را به توسعه‌دهندگان هوش مصنوعی ارائه می‌دهد تا شاید ربات‌های خراشنده را از سر خود باز کند

این دانشنامه با تأثیری که خزنده‌های داده بر سرورهای آن می‌گذارند، دست و پنجه نرم می‌کند.

ویکی‌پدیا با تأثیری که خزنده‌های هوش مصنوعی - ربات‌هایی که متن و چندرسانه‌ای‌ها را از دانشنامه برای آموزش مدل‌های هوش مصنوعی مولد خراش می‌دهند - بر سرورهایش می‌گذارند، دست و پنجه نرم می‌کند که منجر به افزایش هزینه‌ها و کندتر شدن زمان بارگذاری برای کاربران انسانی در برخی موارد شده است. شاید در تلاش برای جلوگیری از کوبیدن ربات‌ها به وب‌سایت عمومی ویکی‌پدیا و جذب بیش از حد پهنای باند، بنیاد ویکی‌مدیا (که داده‌های ویکی‌پدیا را مدیریت می‌کند) یک مجموعه داده را به توسعه‌دهندگان هوش مصنوعی ارائه می‌دهد که می‌توانند آزادانه از آن استفاده کنند.

این سازمان با کاگل (Kaggle)، یک پلتفرم علم داده، همکاری کرده است تا یک نسخه بتا از یک مجموعه داده ساختاریافته را به دو زبان انگلیسی و فرانسوی ارائه دهد. به گفته گوگل - که مالک کاگل است - این مجموعه داده برای یادگیری ماشین فرمت‌بندی شده است تا برای آموزش، توسعه و علم داده مفیدتر باشد.

ویکی‌مدیا اینترپرایز اشاره می‌کند که این مجموعه داده شامل "خلاصه‌ها، توضیحات کوتاه، داده‌های کلید-مقدار به سبک جعبه اطلاعات، پیوندهای تصویر و بخش‌های مقاله به وضوح تقسیم‌بندی شده" است. هیچ مرجع یا سایر "عناصر غیر متنی" مانند کلیپ‌های ویدئویی وجود ندارد. فقدان مراجع می‌تواند موضوع انتساب اطلاعات در مجموعه داده را تا حدودی مبهم کند. با این حال، ویکی‌مدیا اینترپرایز (بخشی از بنیاد ویکی‌مدیا که به دنبال در دسترس قرار دادن داده‌های ویکی‌پدیا از طریق APIها است) می‌گوید که محتوای موجود در مجموعه داده به صورت آزادانه تحت مجوز Creative Commons، دامنه عمومی و غیره مجوز داده شده است، زیرا همه از ویکی‌پدیا است.