وباسکرپینگ و استخراج داده برای تبدیل محتوای بدون ساختار وب به بینشهای عملی بسیار مهم هستند. فایرکراول پلیگراند این فرآیند را با یک رابط کاربری آسان ساده میکند و توسعهدهندگان و متخصصان داده را قادر میسازد تا به راحتی پاسخهای API را از طریق روشهای مختلف استخراج بررسی و پیشنمایش کنند. در این آموزش، ما چهار ویژگی اصلی فایرکراول پلیگراند را بررسی میکنیم: تک URL (اسکریپ)، کراول، مپ و استخراج، و عملکردهای منحصربهفرد آنها را برجسته میکنیم.
تک URL اسکریپ
در حالت تک URL، کاربران میتوانند با ارائه یک URL خاص، محتوای ساختاریافته را از صفحات وب جداگانه استخراج کنند. پیشنمایش پاسخ در فایرکراول پلیگراند یک نمایش JSON مختصر، شامل فرادادههای ضروری مانند عنوان صفحه، توضیحات، محتوای اصلی، تصاویر و تاریخ انتشار را ارائه میدهد. کاربر میتواند به راحتی ساختار و کیفیت دادههای برگشتی توسط این روش اسکرپینگ تک صفحهای را ارزیابی کند. این ویژگی برای مواردی مفید است که دادههای متمرکز و دقیق از صفحات جداگانه، مانند مقالات خبری، صفحات محصول یا پستهای وبلاگ مورد نیاز است.
کاربر به فایرکراول پلیگراند دسترسی پیدا میکند و URL وبسایت www.marktechpost.com را در زیر تب Single URL (/scrape) وارد میکند. آنها مدل FIRE-1 را انتخاب میکنند و این دستور را مینویسند: "تمام مقالات موجود در صفحه اصلی را برای من بیاورید." این کار باعث میشود که عامل فایرکراول برای بازیابی محتوای ساختاریافته از صفحه اصلی MarkTechPost با استفاده از یک روش استخراج مبتنی بر مدل زبانی بزرگ (LLM) تنظیم شود.
نتیجه اسکریپ تک صفحهای در نمای Markdown نمایش داده میشود. با موفقیت لینکهایی به بخشهای مختلف مانند "پردازش زبان طبیعی"، "عوامل هوش مصنوعی"، "انتشارات جدید" و غیره را از صفحه اصلی MarkTechPost استخراج میکند. در زیر این لینکها، یک نمونه عنوان مقاله با متن مقدماتی نیز نمایش داده میشود که نشاندهنده تجزیه دقیق محتوا است.
کراول
حالت Crawl با اجازه دادن به پیمایش خودکار از طریق چندین صفحه وب متصل به هم از یک URL معین، قابلیتهای استخراج را به طور چشمگیری گسترش میدهد. در پیشنمایش Playground، کاربران میتوانند به سرعت پاسخها را از کراول اولیه بررسی کنند و خلاصه محتوای صفحه با فرمت JSON را در کنار URLهای کشف شده در طول کراول مشاهده کنند. ویژگی Crawl به طور موثر وظایف استخراج گستردهتر، از جمله بازیابی محتوای جامع از کل وبسایتها، صفحات دستهبندی یا مقالات چند بخشی را مدیریت میکند. کاربران از طریق این قابلیت پیشنمایش، از امکان ارزیابی عمق کراول، محدودیتهای صفحه و جزئیات پاسخ بهرهمند میشوند.
در تب Crawl (/crawl)، از همان سایت (www.marktechpost.com) استفاده میشود. کاربر یک محدودیت کراول 10 صفحهای تعیین میکند و فیلترهای مسیر را برای حذف صفحاتی مانند "blog" یا "about" پیکربندی میکند، در حالی که فقط URLها را در مسیر "/articles/" قرار میدهد. گزینههای صفحه برای استخراج فقط محتوای اصلی، اجتناب از تگهایی مانند اسکریپتها، تبلیغات و پاورقیها سفارشی میشوند، در نتیجه کراول برای اطلاعات مرتبط بهینهسازی میشود.
این پلتفرم نتایج 10 صفحه اسکرپ شده از MarkTechPost را نشان میدهد. هر کاشی در شبکه نتایج، محتوای استخراج شده از بخشهای مختلف مانند "محتوای حمایت شده"، "داشبورد SLD" و "لینک Embed" را ارائه میدهد. هر صفحه دارای تبهای پاسخ Markdown و JSON است که انعطافپذیری در نحوه مشاهده یا پردازش محتوای استخراج شده را ارائه میدهد.
مپ
ویژگی Map یک مکانیزم استخراج پیشرفته را با اعمال نگاشتهای تعریف شده توسط کاربر در دادههای کراول شده معرفی میکند. این به کاربران امکان میدهد ساختارهای طرحواره سفارشی را مشخص کنند، مانند استخراج قطعههای متن خاص، نام نویسندگان یا توضیحات دقیق محصول از چندین صفحه به طور همزمان. پیشنمایش Playground به وضوح نشان میدهد که چگونه قوانین نگاشت اعمال میشوند و دادههای استخراج شده را در یک فرمت JSON منظم ارائه میدهد. کاربران میتوانند به سرعت صحت نگاشتهای خود را تأیید کنند و اطمینان حاصل کنند که محتوای استخراج شده دقیقاً با الزامات تحلیلی آنها مطابقت دارد. این ویژگی گردش کار استخراج داده پیچیده را که نیاز به سازگاری در چندین صفحه وب دارد، به طور قابل توجهی ساده میکند.
در تب Map (/map)، کاربر دوباره www.marktechpost.com را هدف قرار میدهد، اما این بار از ویژگی Search (Beta) با کلمه کلیدی "blog" استفاده میکند. گزینههای اضافی شامل فعال کردن جستجوهای زیردامنه و احترام به نقشه سایت است. هدف این حالت بازیابی تعداد زیادی از URLهای مرتبط است که با الگوی جستجو مطابقت دارند.
عملیات نگاشت در مجموع 5000 URL منطبق را از وبسایت MarkTechPost برمیگرداند. این شامل لینکهایی به دستهها و مقالات تحت مضامینی مانند هوش مصنوعی، یادگیری ماشین، گرافهای دانش و غیره است. لینکها در یک لیست ساختاریافته نمایش داده میشوند، با این گزینه که نتایج را به صورت JSON مشاهده کنید یا آنها را برای پردازش بیشتر دانلود کنید.
استخراج (بتا)
ویژگی Extract که در حال حاضر در نسخه بتا موجود است، با تسهیل بازیابی دادههای سفارشی از طریق طرحوارههای استخراج پیشرفته، قابلیتهای فایرکراول را بیشتر پالایش میکند. با Extract، کاربران الگوهای استخراج بسیار دانهای را طراحی میکنند، مانند جداسازی نقاط داده خاص، از جمله فراداده نویسنده، مشخصات دقیق محصول، اطلاعات قیمتگذاری یا مهرهای زمانی انتشار. پیشنمایش Extract در Playground پاسخهای API را در زمان واقعی نمایش میدهد که منعکسکننده طرحوارههای تعریفشده توسط کاربر است و بازخورد فوری در مورد صحت و کامل بودن استخراج ارائه میدهد. در نتیجه، کاربران میتوانند قوانین استخراج را به طور یکپارچه تکرار و تنظیم کنند و از دقت و مرتبط بودن دادهها اطمینان حاصل کنند.
در زیر تب Extract (/extract) (بتا)، کاربر URL https://marktechpost.com را وارد میکند و یک طرحواره استخراج سفارشی را تعریف میکند. دو فیلد مشخص میشوند: company_mission به عنوان یک رشته و is_open_source به عنوان یک بولی. این دستور استخراج را راهنمایی میکند تا جزئیاتی مانند شرکا یا ادغامها را نادیده بگیرد و در عوض بر مأموریت شرکت و اینکه آیا منبع باز است یا خیر تمرکز کند.
خروجی JSON نهایی قالببندی شده نشان میدهد که MarkTechPost به عنوان یک پلتفرم منبع باز شناسایی شده است و مأموریت آن به طور دقیق استخراج شده است: "ارائه آخرین اخبار و بینشها در زمینه هوش مصنوعی و فناوری، با تمرکز بر تحقیق، آموزش و توسعه صنعت."
در خاتمه، فایرکراول پلیگراند یک محیط قوی و کاربرپسند را ارائه میدهد که پیچیدگیهای استخراج دادههای وب را به میزان قابل توجهی ساده میکند. از طریق پیشنمایشهای بصری پاسخهای API در حالتهای Single URL، Crawl، Map و Extract، کاربران میتوانند بدون زحمت استراتژیهای استخراج خود را اعتبارسنجی و بهینهسازی کنند. چه کار با صفحات وب مجزا باشد و چه اجرای طرحوارههای استخراج پیچیده و چند لایه در کل سایتها، فایرکراول پلیگراند متخصصان داده را با ابزارهای قدرتمند و متنوعی که برای بازیابی موثر و دقیق دادههای وب ضروری هستند، توانمند میسازد.