راهنمای جامع فایرکراول پلی‌گراند: بررسی ویژگی‌های اسکریپ، کراول، مپ و استخراج برای استخراج هوشمندانه‌تر داده‌های وب

وب‌اسکرپینگ و استخراج داده برای تبدیل محتوای بدون ساختار وب به بینش‌های عملی بسیار مهم هستند. فایرکراول پلی‌گراند این فرآیند را با یک رابط کاربری آسان ساده می‌کند و توسعه‌دهندگان و متخصصان داده را قادر می‌سازد تا به راحتی پاسخ‌های API را از طریق روش‌های مختلف استخراج بررسی و پیش‌نمایش کنند. در این آموزش، ما چهار ویژگی اصلی فایرکراول پلی‌گراند را بررسی می‌کنیم: تک URL (اسکریپ)، کراول، مپ و استخراج، و عملکردهای منحصربه‌فرد آن‌ها را برجسته می‌کنیم.

تک URL اسکریپ

در حالت تک URL، کاربران می‌توانند با ارائه یک URL خاص، محتوای ساختاریافته را از صفحات وب جداگانه استخراج کنند. پیش‌نمایش پاسخ در فایرکراول پلی‌گراند یک نمایش JSON مختصر، شامل فراداده‌های ضروری مانند عنوان صفحه، توضیحات، محتوای اصلی، تصاویر و تاریخ انتشار را ارائه می‌دهد. کاربر می‌تواند به راحتی ساختار و کیفیت داده‌های برگشتی توسط این روش اسکرپینگ تک صفحه‌ای را ارزیابی کند. این ویژگی برای مواردی مفید است که داده‌های متمرکز و دقیق از صفحات جداگانه، مانند مقالات خبری، صفحات محصول یا پست‌های وبلاگ مورد نیاز است.

نمونه تک URL اسکریپ
نمونه تک URL اسکریپ

کاربر به فایرکراول پلی‌گراند دسترسی پیدا می‌کند و URL وب‌سایت www.marktechpost.com را در زیر تب Single URL (/scrape) وارد می‌کند. آن‌ها مدل FIRE-1 را انتخاب می‌کنند و این دستور را می‌نویسند: "تمام مقالات موجود در صفحه اصلی را برای من بیاورید." این کار باعث می‌شود که عامل فایرکراول برای بازیابی محتوای ساختاریافته از صفحه اصلی MarkTechPost با استفاده از یک روش استخراج مبتنی بر مدل زبانی بزرگ (LLM) تنظیم شود.

نتیجه تک URL اسکریپ
نتیجه تک URL اسکریپ

نتیجه اسکریپ تک صفحه‌ای در نمای Markdown نمایش داده می‌شود. با موفقیت لینک‌هایی به بخش‌های مختلف مانند "پردازش زبان طبیعی"، "عوامل هوش مصنوعی"، "انتشارات جدید" و غیره را از صفحه اصلی MarkTechPost استخراج می‌کند. در زیر این لینک‌ها، یک نمونه عنوان مقاله با متن مقدماتی نیز نمایش داده می‌شود که نشان‌دهنده تجزیه دقیق محتوا است.

کراول

حالت Crawl با اجازه دادن به پیمایش خودکار از طریق چندین صفحه وب متصل به هم از یک URL معین، قابلیت‌های استخراج را به طور چشمگیری گسترش می‌دهد. در پیش‌نمایش Playground، کاربران می‌توانند به سرعت پاسخ‌ها را از کراول اولیه بررسی کنند و خلاصه محتوای صفحه با فرمت JSON را در کنار URL‌های کشف شده در طول کراول مشاهده کنند. ویژگی Crawl به طور موثر وظایف استخراج گسترده‌تر، از جمله بازیابی محتوای جامع از کل وب‌سایت‌ها، صفحات دسته‌بندی یا مقالات چند بخشی را مدیریت می‌کند. کاربران از طریق این قابلیت پیش‌نمایش، از امکان ارزیابی عمق کراول، محدودیت‌های صفحه و جزئیات پاسخ بهره‌مند می‌شوند.

نمونه حالت کراول
نمونه حالت کراول

در تب Crawl (/crawl)، از همان سایت (www.marktechpost.com) استفاده می‌شود. کاربر یک محدودیت کراول 10 صفحه‌ای تعیین می‌کند و فیلترهای مسیر را برای حذف صفحاتی مانند "blog" یا "about" پیکربندی می‌کند، در حالی که فقط URL‌ها را در مسیر "/articles/" قرار می‌دهد. گزینه‌های صفحه برای استخراج فقط محتوای اصلی، اجتناب از تگ‌هایی مانند اسکریپت‌ها، تبلیغات و پاورقی‌ها سفارشی می‌شوند، در نتیجه کراول برای اطلاعات مرتبط بهینه‌سازی می‌شود.

نتایج حالت کراول
نتایج حالت کراول

این پلتفرم نتایج 10 صفحه اسکرپ شده از MarkTechPost را نشان می‌دهد. هر کاشی در شبکه نتایج، محتوای استخراج شده از بخش‌های مختلف مانند "محتوای حمایت شده"، "داشبورد SLD" و "لینک Embed" را ارائه می‌دهد. هر صفحه دارای تب‌های پاسخ Markdown و JSON است که انعطاف‌پذیری در نحوه مشاهده یا پردازش محتوای استخراج شده را ارائه می‌دهد.

مپ

ویژگی Map یک مکانیزم استخراج پیشرفته را با اعمال نگاشت‌های تعریف شده توسط کاربر در داده‌های کراول شده معرفی می‌کند. این به کاربران امکان می‌دهد ساختارهای طرح‌واره سفارشی را مشخص کنند، مانند استخراج قطعه‌های متن خاص، نام نویسندگان یا توضیحات دقیق محصول از چندین صفحه به طور همزمان. پیش‌نمایش Playground به وضوح نشان می‌دهد که چگونه قوانین نگاشت اعمال می‌شوند و داده‌های استخراج شده را در یک فرمت JSON منظم ارائه می‌دهد. کاربران می‌توانند به سرعت صحت نگاشت‌های خود را تأیید کنند و اطمینان حاصل کنند که محتوای استخراج شده دقیقاً با الزامات تحلیلی آن‌ها مطابقت دارد. این ویژگی گردش کار استخراج داده پیچیده را که نیاز به سازگاری در چندین صفحه وب دارد، به طور قابل توجهی ساده می‌کند.

نمونه ویژگی مپ
نمونه ویژگی مپ

در تب Map (/map)، کاربر دوباره www.marktechpost.com را هدف قرار می‌دهد، اما این بار از ویژگی Search (Beta) با کلمه کلیدی "blog" استفاده می‌کند. گزینه‌های اضافی شامل فعال کردن جستجوهای زیردامنه و احترام به نقشه سایت است. هدف این حالت بازیابی تعداد زیادی از URL‌های مرتبط است که با الگوی جستجو مطابقت دارند.

نتایج ویژگی مپ
نتایج ویژگی مپ

عملیات نگاشت در مجموع 5000 URL منطبق را از وب‌سایت MarkTechPost برمی‌گرداند. این شامل لینک‌هایی به دسته‌ها و مقالات تحت مضامینی مانند هوش مصنوعی، یادگیری ماشین، گراف‌های دانش و غیره است. لینک‌ها در یک لیست ساختاریافته نمایش داده می‌شوند، با این گزینه که نتایج را به صورت JSON مشاهده کنید یا آن‌ها را برای پردازش بیشتر دانلود کنید.

استخراج (بتا)

ویژگی Extract که در حال حاضر در نسخه بتا موجود است، با تسهیل بازیابی داده‌های سفارشی از طریق طرح‌واره‌های استخراج پیشرفته، قابلیت‌های فایرکراول را بیشتر پالایش می‌کند. با Extract، کاربران الگوهای استخراج بسیار دانه‌ای را طراحی می‌کنند، مانند جداسازی نقاط داده خاص، از جمله فراداده نویسنده، مشخصات دقیق محصول، اطلاعات قیمت‌گذاری یا مهرهای زمانی انتشار. پیش‌نمایش Extract در Playground پاسخ‌های API را در زمان واقعی نمایش می‌دهد که منعکس‌کننده طرح‌واره‌های تعریف‌شده توسط کاربر است و بازخورد فوری در مورد صحت و کامل بودن استخراج ارائه می‌دهد. در نتیجه، کاربران می‌توانند قوانین استخراج را به طور یکپارچه تکرار و تنظیم کنند و از دقت و مرتبط بودن داده‌ها اطمینان حاصل کنند.

نمونه ویژگی استخراج
نمونه ویژگی استخراج

در زیر تب Extract (/extract) (بتا)، کاربر URL https://marktechpost.com را وارد می‌کند و یک طرح‌واره استخراج سفارشی را تعریف می‌کند. دو فیلد مشخص می‌شوند: company_mission به عنوان یک رشته و is_open_source به عنوان یک بولی. این دستور استخراج را راهنمایی می‌کند تا جزئیاتی مانند شرکا یا ادغام‌ها را نادیده بگیرد و در عوض بر مأموریت شرکت و اینکه آیا منبع باز است یا خیر تمرکز کند.

نتایج ویژگی استخراج
نتایج ویژگی استخراج

خروجی JSON نهایی قالب‌بندی شده نشان می‌دهد که MarkTechPost به عنوان یک پلتفرم منبع باز شناسایی شده است و مأموریت آن به طور دقیق استخراج شده است: "ارائه آخرین اخبار و بینش‌ها در زمینه هوش مصنوعی و فناوری، با تمرکز بر تحقیق، آموزش و توسعه صنعت."

در خاتمه، فایرکراول پلی‌گراند یک محیط قوی و کاربرپسند را ارائه می‌دهد که پیچیدگی‌های استخراج داده‌های وب را به میزان قابل توجهی ساده می‌کند. از طریق پیش‌نمایش‌های بصری پاسخ‌های API در حالت‌های Single URL، Crawl، Map و Extract، کاربران می‌توانند بدون زحمت استراتژی‌های استخراج خود را اعتبارسنجی و بهینه‌سازی کنند. چه کار با صفحات وب مجزا باشد و چه اجرای طرح‌واره‌های استخراج پیچیده و چند لایه در کل سایت‌ها، فایرکراول پلی‌گراند متخصصان داده را با ابزارهای قدرتمند و متنوعی که برای بازیابی موثر و دقیق داده‌های وب ضروری هستند، توانمند می‌سازد.