در این آموزش، یاد خواهیم گرفت چگونه از قدرت یک عامل هوش مصنوعی مبتنی بر مرورگر به طور کامل در Google Colab استفاده کنیم. ما از موتور بدون سر (headless) Chromium در Playwright به همراه Agent سطح بالا و انتزاعات BrowserContext کتابخانه browser_use برای پیمایش برنامهنویسی وبسایتها، استخراج دادهها و خودکارسازی گردشکارهای پیچیده استفاده خواهیم کرد. مدل Gemini گوگل را از طریق اتصال langchain_google_genai برای ارائه استدلال و تصمیمگیری به زبان طبیعی، ایمن شده توسط SecretStr pydantic برای مدیریت ایمن کلید API، بستهبندی خواهیم کرد. با مدیریت اعتبارنامهها توسط getpass، تنظیم اجرای غیرمسدودکننده توسط asyncio و پشتیبانی اختیاری .env از طریق python-dotenv، این تنظیم یک پلتفرم عامل تعاملی و انتها به انتها را بدون خروج از محیط نوتبوک در اختیار شما قرار میدهد.
ما ابتدا لیست بستههای سیستم را تازه کرده و Chromium بدون سر، WebDriver آن و فونتهای Liberation را برای فعال کردن اتوماسیون مرورگر نصب میکنیم. سپس Playwright را به همراه python-dotenv، اتصال LangChain GoogleGenerativeAI و browser-use نصب میکند و در نهایت باینریهای مرورگر مورد نیاز را از طریق playwright install دانلود میکند.
ما ابزارهای اصلی پایتون، os برای مدیریت محیط و asyncio برای اجرای ناهمزمان، به علاوه getpass و SecretStr pydantic را برای ورودی و ذخیرهسازی ایمن کلید API وارد میکنیم. سپس بستهبندی Gemini LangChain (ChatGoogleGenerativeAI) و جعبه ابزار browser_use (Agent، Browser، BrowserContextConfig، BrowserConfig و BrowserContext) را برای پیکربندی و هدایت یک عامل مرورگر بدون سر بارگیری میکند.
ما با تنظیم متغیر محیطی ANONYMIZED_TELEMETRY روی "false"، گزارش استفاده ناشناس را غیرفعال میکنیم و اطمینان میدهیم که نه Playwright و نه کتابخانه browser_use هیچ داده تلهمتری را به نگهدارندگان خود ارسال نمیکنند.
این کمککننده ناهمزمان یک نمونه Browser بدون سر (یا دارای سر) را مقداردهی اولیه میکند و آن را در یک BrowserContext پیچیده میکند که برای منتظر ماندن برای بارگیری صفحه شبکه-بیکار، برجسته کردن بصری عناصر در طول تعاملات و ذخیره یک ضبط از هر جلسه در زیر ./recordings پیکربندی شده است. سپس هم مرورگر و هم زمینه آماده استفاده آن را برای وظایف عامل شما برمیگرداند.
این کمککننده async یک چرخه "فکر کردن و مرور" را کپسوله میکند: یک Agent را با LLM، زمینه مرورگر و تب URL اولیه اختیاری پیکربندی میکند، در صورت وجود از بینایی استفاده میکند و ضبط GIF را غیرفعال میکند. هنگامی که agent_loop را فراخوانی میکنید، عامل را از طریق مراحل خود اجرا میکند و نتیجه نهایی عامل را برمیگرداند (یا اگر چیزی تولید نشود، None).
در نهایت، این کوروتین اصلی کل جلسه Colab را هدایت میکند: به طور ایمن کلید API Gemini شما را درخواست میکند (با استفاده از getpass و SecretStr)، LLM ChatGoogleGenerativeAI و یک زمینه مرورگر Playwright بدون سر را تنظیم میکند، سپس وارد یک حلقه تعاملی میشود که در آن دستورات زبان طبیعی شما (و URL شروع اختیاری) را میخواند، agent_loop را برای انجام وظیفه هوش مصنوعی مبتنی بر مرورگر فراخوانی میکند، نتایج را چاپ میکند و در نهایت اطمینان میدهد که مرورگر به طور تمیز بسته میشود.
در خاتمه، با دنبال کردن این راهنما، اکنون یک الگوی Colab قابل بازتولید دارید که اتوماسیون مرورگر، استدلال LLM و مدیریت ایمن اعتبارنامه را در یک خط لوله منسجم ادغام میکند. چه در حال خراشیدن دادههای بازار در زمان واقعی، خلاصهسازی مقالات خبری یا خودکارسازی وظایف گزارشدهی باشید، ترکیب Playwright، browser_use و رابط Gemini LangChain یک پایه انعطافپذیر برای پروژه بعدی شما با هوش مصنوعی فراهم میکند. در صورت تمایل، قابلیتهای عامل را گسترش دهید، ضبط GIF را دوباره فعال کنید، مراحل پیمایش سفارشی را اضافه کنید یا پشتیبانهای LLM دیگر را مبادله کنید تا گردش کار را دقیقاً متناسب با نیازهای تحقیق یا تولید خود تنظیم کنید.