پیاده‌سازی کد برای ساخت سیستم تعامل با PDF مبتنی بر هوش مصنوعی در Google Colab با استفاده از Gemini Flash 1.5، PyMuPDF و Google Generative AI API

در این آموزش، نحوه ساخت یک سیستم تعامل با PDF مبتنی بر هوش مصنوعی را در Google Colab با استفاده از Gemini Flash 1.5، PyMuPDF و Google Generative AI API نشان می‌دهیم. با بهره‌گیری از این ابزارها، می‌توانیم به طور یکپارچه یک PDF را بارگذاری کنیم، متن آن را استخراج کنیم و به طور تعاملی سؤال بپرسیم و پاسخ‌های هوشمندانه‌ای از آخرین مدل Gemini Flash 1.5 گوگل دریافت کنیم.

ابتدا وابستگی‌های لازم برای ساخت یک سیستم پرسش و پاسخ PDF مبتنی بر هوش مصنوعی را در Google Colab نصب می‌کنیم. google-generativeai دسترسی به Gemini Flash 1.5 را فراهم می‌کند و امکان تعاملات زبان طبیعی را فراهم می‌کند، در حالی که PyMuPDF (همچنین به عنوان Fitz شناخته می‌شود) امکان استخراج کارآمد متن از PDFها را فراهم می‌کند. همچنین، python-dotenv به مدیریت متغیرهای محیطی مانند کلیدهای API به طور ایمن در نوت‌بوک کمک می‌کند.

ما فایل‌ها را از دستگاه محلی شما به Google Colab بارگذاری می‌کنیم. هنگام اجرا، یک کادر انتخاب فایل باز می‌شود و به شما امکان می‌دهد یک فایل (به عنوان مثال، یک PDF) را برای بارگذاری انتخاب کنید. فایل بارگذاری شده در یک شیء شبیه به دیکشنری (بارگذاری شده) ذخیره می‌شود، جایی که کلیدها نشان‌دهنده نام فایل‌ها و مقادیر حاوی داده‌های باینری فایل هستند. این مرحله برای پردازش مستقیم اسناد، مجموعه‌داده‌ها یا وزن‌های مدل در یک محیط Colab ضروری است.

ما از PyMuPDF (fitz) برای استخراج متن از یک فایل PDF در Google Colab استفاده می‌کنیم. تابع extract_pdf_text(pdf_path) فایل PDF را می‌خواند، از طریق صفحات آن تکرار می‌شود و محتوای متنی را بازیابی می‌کند. سپس متن استخراج شده در document_text ذخیره می‌شود و 1000 کاراکتر اول برای پیش‌نمایش محتوا چاپ می‌شود. این مرحله برای فعال کردن تجزیه و تحلیل مبتنی بر متن و پرسش و پاسخ مبتنی بر هوش مصنوعی از PDFها بسیار مهم است.

ما کلید Google API را به عنوان یک متغیر محیطی در Google Colab تنظیم می‌کنیم. کلید API برای احراز هویت درخواست‌ها به Google Generative AI مورد نیاز است و امکان دسترسی به Gemini Flash 1.5 را برای پردازش متن مبتنی بر هوش مصنوعی فراهم می‌کند. جایگزینی «Use your own API key here» با یک کلید معتبر تضمین می‌کند که مدل می‌تواند پاسخ‌ها را به طور ایمن در نوت‌بوک تولید کند.

در نهایت، ما Gemini Flash 1.5 را با استفاده از یک سند PDF برای تولید متن مبتنی بر هوش مصنوعی پیکربندی و پرس و جو می‌کنیم. این کتابخانه genai را با کلید API مقداردهی اولیه می‌کند و مدل Gemini Flash 1.5 (gemini-1.5-flash-001) را بارگیری می‌کند. تابع query_gemini_flash() یک سؤال و متن PDF استخراج شده را به عنوان ورودی می‌گیرد، یک اعلان ساختاریافته فرموله می‌کند و یک پاسخ تولید شده توسط هوش مصنوعی را بازیابی می‌کند. این تنظیمات امکان خلاصه‌سازی خودکار اسناد و پرسش و پاسخ هوشمند از PDFها را فراهم می‌کند.

در پایان، با دنبال کردن این آموزش، ما با موفقیت یک سیستم تعامل تعاملی مبتنی بر PDF را در Google Colab با استفاده از Gemini Flash 1.5، PyMuPDF و Google Generative AI API ساختیم. این راه حل به کاربران امکان می‌دهد به راحتی اطلاعات را از PDFها استخراج کرده و به طور تعاملی از آنها سؤال کنند. ترکیب مدل‌های هوش مصنوعی پیشرفته گوگل و محیط مبتنی بر ابر Colab یک راه قدرتمند و در دسترس برای پردازش اسناد بزرگ بدون نیاز به منابع محاسباتی سنگین ارائه می‌دهد.

در اینجا نوت‌بوک Colab وجود دارد. همچنین، فراموش نکنید که ما را در دنبال کنید و به کانال تلگرام و گروه لینکدین ما بپیوندید. فراموش نکنید که به ما بپیوندید.