پیاده‌سازی کد پیشرفته: تسلط بر هوش مصنوعی مبتنی بر مرورگر در Google Colab با Playwright، Agent و BrowserContext مرورگر_استفاده، LangChain و Gemini

در این آموزش، یاد خواهیم گرفت چگونه از قدرت یک عامل هوش مصنوعی مبتنی بر مرورگر به طور کامل در Google Colab استفاده کنیم. ما از موتور بدون سر (headless) Chromium در Playwright به همراه Agent سطح بالا و انتزاعات BrowserContext کتابخانه browser_use برای پیمایش برنامه‌نویسی وب‌سایت‌ها، استخراج داده‌ها و خودکارسازی گردش‌کارهای پیچیده استفاده خواهیم کرد. مدل Gemini گوگل را از طریق اتصال langchain_google_genai برای ارائه استدلال و تصمیم‌گیری به زبان طبیعی، ایمن شده توسط SecretStr pydantic برای مدیریت ایمن کلید API، بسته‌بندی خواهیم کرد. با مدیریت اعتبارنامه‌ها توسط getpass، تنظیم اجرای غیرمسدودکننده توسط asyncio و پشتیبانی اختیاری .env از طریق python-dotenv، این تنظیم یک پلتفرم عامل تعاملی و انتها به انتها را بدون خروج از محیط نوت‌بوک در اختیار شما قرار می‌دهد.

ما ابتدا لیست بسته‌های سیستم را تازه کرده و Chromium بدون سر، WebDriver آن و فونت‌های Liberation را برای فعال کردن اتوماسیون مرورگر نصب می‌کنیم. سپس Playwright را به همراه python-dotenv، اتصال LangChain GoogleGenerativeAI و browser-use نصب می‌کند و در نهایت باینری‌های مرورگر مورد نیاز را از طریق playwright install دانلود می‌کند.

ما ابزارهای اصلی پایتون، os برای مدیریت محیط و asyncio برای اجرای ناهمزمان، به علاوه getpass و SecretStr pydantic را برای ورودی و ذخیره‌سازی ایمن کلید API وارد می‌کنیم. سپس بسته‌بندی Gemini LangChain (ChatGoogleGenerativeAI) و جعبه ابزار browser_use (Agent، Browser، BrowserContextConfig، BrowserConfig و BrowserContext) را برای پیکربندی و هدایت یک عامل مرورگر بدون سر بارگیری می‌کند.

ما با تنظیم متغیر محیطی ANONYMIZED_TELEMETRY روی "false"، گزارش استفاده ناشناس را غیرفعال می‌کنیم و اطمینان می‌دهیم که نه Playwright و نه کتابخانه browser_use هیچ داده تله‌متری را به نگهدارندگان خود ارسال نمی‌کنند.

این کمک‌کننده ناهمزمان یک نمونه Browser بدون سر (یا دارای سر) را مقداردهی اولیه می‌کند و آن را در یک BrowserContext پیچیده می‌کند که برای منتظر ماندن برای بارگیری صفحه شبکه-بیکار، برجسته کردن بصری عناصر در طول تعاملات و ذخیره یک ضبط از هر جلسه در زیر ./recordings پیکربندی شده است. سپس هم مرورگر و هم زمینه آماده استفاده آن را برای وظایف عامل شما برمی‌گرداند.

این کمک‌کننده async یک چرخه "فکر کردن و مرور" را کپسوله می‌کند: یک Agent را با LLM، زمینه مرورگر و تب URL اولیه اختیاری پیکربندی می‌کند، در صورت وجود از بینایی استفاده می‌کند و ضبط GIF را غیرفعال می‌کند. هنگامی که agent_loop را فراخوانی می‌کنید، عامل را از طریق مراحل خود اجرا می‌کند و نتیجه نهایی عامل را برمی‌گرداند (یا اگر چیزی تولید نشود، None).

در نهایت، این کوروتین اصلی کل جلسه Colab را هدایت می‌کند: به طور ایمن کلید API Gemini شما را درخواست می‌کند (با استفاده از getpass و SecretStr)، LLM ChatGoogleGenerativeAI و یک زمینه مرورگر Playwright بدون سر را تنظیم می‌کند، سپس وارد یک حلقه تعاملی می‌شود که در آن دستورات زبان طبیعی شما (و URL شروع اختیاری) را می‌خواند، agent_loop را برای انجام وظیفه هوش مصنوعی مبتنی بر مرورگر فراخوانی می‌کند، نتایج را چاپ می‌کند و در نهایت اطمینان می‌دهد که مرورگر به طور تمیز بسته می‌شود.

در خاتمه، با دنبال کردن این راهنما، اکنون یک الگوی Colab قابل بازتولید دارید که اتوماسیون مرورگر، استدلال LLM و مدیریت ایمن اعتبارنامه را در یک خط لوله منسجم ادغام می‌کند. چه در حال خراشیدن داده‌های بازار در زمان واقعی، خلاصه‌سازی مقالات خبری یا خودکارسازی وظایف گزارش‌دهی باشید، ترکیب Playwright، browser_use و رابط Gemini LangChain یک پایه انعطاف‌پذیر برای پروژه بعدی شما با هوش مصنوعی فراهم می‌کند. در صورت تمایل، قابلیت‌های عامل را گسترش دهید، ضبط GIF را دوباره فعال کنید، مراحل پیمایش سفارشی را اضافه کنید یا پشتیبان‌های LLM دیگر را مبادله کنید تا گردش کار را دقیقاً متناسب با نیازهای تحقیق یا تولید خود تنظیم کنید.