در این آموزش، نحوه ساخت یک سیستم تعامل با PDF مبتنی بر هوش مصنوعی را در Google Colab با استفاده از Gemini Flash 1.5، PyMuPDF و Google Generative AI API نشان میدهیم. با بهرهگیری از این ابزارها، میتوانیم به طور یکپارچه یک PDF را بارگذاری کنیم، متن آن را استخراج کنیم و به طور تعاملی سؤال بپرسیم و پاسخهای هوشمندانهای از آخرین مدل Gemini Flash 1.5 گوگل دریافت کنیم.
ابتدا وابستگیهای لازم برای ساخت یک سیستم پرسش و پاسخ PDF مبتنی بر هوش مصنوعی را در Google Colab نصب میکنیم. google-generativeai دسترسی به Gemini Flash 1.5 را فراهم میکند و امکان تعاملات زبان طبیعی را فراهم میکند، در حالی که PyMuPDF (همچنین به عنوان Fitz شناخته میشود) امکان استخراج کارآمد متن از PDFها را فراهم میکند. همچنین، python-dotenv به مدیریت متغیرهای محیطی مانند کلیدهای API به طور ایمن در نوتبوک کمک میکند.
ما فایلها را از دستگاه محلی شما به Google Colab بارگذاری میکنیم. هنگام اجرا، یک کادر انتخاب فایل باز میشود و به شما امکان میدهد یک فایل (به عنوان مثال، یک PDF) را برای بارگذاری انتخاب کنید. فایل بارگذاری شده در یک شیء شبیه به دیکشنری (بارگذاری شده) ذخیره میشود، جایی که کلیدها نشاندهنده نام فایلها و مقادیر حاوی دادههای باینری فایل هستند. این مرحله برای پردازش مستقیم اسناد، مجموعهدادهها یا وزنهای مدل در یک محیط Colab ضروری است.
ما از PyMuPDF (fitz) برای استخراج متن از یک فایل PDF در Google Colab استفاده میکنیم. تابع extract_pdf_text(pdf_path) فایل PDF را میخواند، از طریق صفحات آن تکرار میشود و محتوای متنی را بازیابی میکند. سپس متن استخراج شده در document_text ذخیره میشود و 1000 کاراکتر اول برای پیشنمایش محتوا چاپ میشود. این مرحله برای فعال کردن تجزیه و تحلیل مبتنی بر متن و پرسش و پاسخ مبتنی بر هوش مصنوعی از PDFها بسیار مهم است.
ما کلید Google API را به عنوان یک متغیر محیطی در Google Colab تنظیم میکنیم. کلید API برای احراز هویت درخواستها به Google Generative AI مورد نیاز است و امکان دسترسی به Gemini Flash 1.5 را برای پردازش متن مبتنی بر هوش مصنوعی فراهم میکند. جایگزینی «Use your own API key here» با یک کلید معتبر تضمین میکند که مدل میتواند پاسخها را به طور ایمن در نوتبوک تولید کند.
در نهایت، ما Gemini Flash 1.5 را با استفاده از یک سند PDF برای تولید متن مبتنی بر هوش مصنوعی پیکربندی و پرس و جو میکنیم. این کتابخانه genai را با کلید API مقداردهی اولیه میکند و مدل Gemini Flash 1.5 (gemini-1.5-flash-001) را بارگیری میکند. تابع query_gemini_flash() یک سؤال و متن PDF استخراج شده را به عنوان ورودی میگیرد، یک اعلان ساختاریافته فرموله میکند و یک پاسخ تولید شده توسط هوش مصنوعی را بازیابی میکند. این تنظیمات امکان خلاصهسازی خودکار اسناد و پرسش و پاسخ هوشمند از PDFها را فراهم میکند.
در پایان، با دنبال کردن این آموزش، ما با موفقیت یک سیستم تعامل تعاملی مبتنی بر PDF را در Google Colab با استفاده از Gemini Flash 1.5، PyMuPDF و Google Generative AI API ساختیم. این راه حل به کاربران امکان میدهد به راحتی اطلاعات را از PDFها استخراج کرده و به طور تعاملی از آنها سؤال کنند. ترکیب مدلهای هوش مصنوعی پیشرفته گوگل و محیط مبتنی بر ابر Colab یک راه قدرتمند و در دسترس برای پردازش اسناد بزرگ بدون نیاز به منابع محاسباتی سنگین ارائه میدهد.
در اینجا نوتبوک Colab وجود دارد. همچنین، فراموش نکنید که ما را در دنبال کنید و به کانال تلگرام و گروه لینکدین ما بپیوندید. فراموش نکنید که به ما بپیوندید.