ویکیپدیا با تأثیری که خزندههای هوش مصنوعی - رباتهایی که متن و چندرسانهایها را از دانشنامه برای آموزش مدلهای هوش مصنوعی مولد خراش میدهند - بر سرورهایش میگذارند، دست و پنجه نرم میکند که منجر به افزایش هزینهها و کندتر شدن زمان بارگذاری برای کاربران انسانی در برخی موارد شده است. شاید در تلاش برای جلوگیری از کوبیدن رباتها به وبسایت عمومی ویکیپدیا و جذب بیش از حد پهنای باند، بنیاد ویکیمدیا (که دادههای ویکیپدیا را مدیریت میکند) یک مجموعه داده را به توسعهدهندگان هوش مصنوعی ارائه میدهد که میتوانند آزادانه از آن استفاده کنند.
این سازمان با کاگل (Kaggle)، یک پلتفرم علم داده، همکاری کرده است تا یک نسخه بتا از یک مجموعه داده ساختاریافته را به دو زبان انگلیسی و فرانسوی ارائه دهد. به گفته گوگل - که مالک کاگل است - این مجموعه داده برای یادگیری ماشین فرمتبندی شده است تا برای آموزش، توسعه و علم داده مفیدتر باشد.
ویکیمدیا اینترپرایز اشاره میکند که این مجموعه داده شامل "خلاصهها، توضیحات کوتاه، دادههای کلید-مقدار به سبک جعبه اطلاعات، پیوندهای تصویر و بخشهای مقاله به وضوح تقسیمبندی شده" است. هیچ مرجع یا سایر "عناصر غیر متنی" مانند کلیپهای ویدئویی وجود ندارد. فقدان مراجع میتواند موضوع انتساب اطلاعات در مجموعه داده را تا حدودی مبهم کند. با این حال، ویکیمدیا اینترپرایز (بخشی از بنیاد ویکیمدیا که به دنبال در دسترس قرار دادن دادههای ویکیپدیا از طریق APIها است) میگوید که محتوای موجود در مجموعه داده به صورت آزادانه تحت مجوز Creative Commons، دامنه عمومی و غیره مجوز داده شده است، زیرا همه از ویکیپدیا است.