به بخش اول راهنمای ما در مورد ساخت یک برنامه تشخیص کاراکتر نوری (OCR) محلی با استفاده از کتابخانه smoldocling خوش آمدید. در این سری، فرآیند راهاندازی محیط خود، ادغام smoldocling، و ایجاد یک ابزار OCR کاربردی که روی دستگاه محلی شما اجرا میشود را گام به گام بررسی خواهیم کرد.
فناوری OCR به ما امکان میدهد متن را از تصاویر و اسناد اسکن شده استخراج کنیم. در حالی که بسیاری از سرویسهای OCR مبتنی بر ابر وجود دارند، ساخت یک برنامه محلی کنترل بیشتری بر حریم خصوصی دادهها، عملکرد آفلاین، و سفارشیسازی بالقوه ارائه میدهد.
Smoldocling یک کتابخانه OCR سبک و کارآمد است که برای پیادهسازیهای محلی بسیار مناسب است. این کتابخانه به گونهای طراحی شده که استفاده و ادغام آن در پروژههای مختلف آسان باشد.
راهاندازی محیط
قبل از شروع کدنویسی، باید محیط توسعه خود را راهاندازی کنیم. این راهنما فرض میکند که پایتون روی سیستم شما نصب شده است. ما از pip برای مدیریت بستهها استفاده خواهیم کرد.
ابتدا، بیایید یک محیط مجازی برای جدا نگه داشتن وابستگیهای پروژه خود ایجاد کنیم. ترمینال یا خط فرمان خود را باز کنید و دستورات زیر را اجرا کنید:
python -m venv ocr_env
source ocr_env/bin/activate # در ویندوز از `ocr_env\Scripts\activate` استفاده کنید
این یک محیط مجازی به نام ocr_env ایجاد کرده و آن را فعال میکند. شما باید نام محیط را در خط فرمان ترمینال خود مشاهده کنید.
نصب smoldocling
با فعال بودن محیط مجازی، اکنون میتوانیم کتابخانه smoldocling را نصب کنیم. دستور زیر را اجرا کنید:
pip install smoldocling
این دستور آخرین نسخه smoldocling و وابستگیهای آن را دانلود و نصب میکند.
استفاده پایه: استخراج متن از یک تصویر
بیایید یک مثال ساده را امتحان کنیم تا ببینیم آیا smoldocling به درستی کار میکند یا خیر. یک اسکریپت پایتون برای استخراج متن از یک تصویر نمونه ایجاد خواهیم کرد. برای این مثال، به یک فایل تصویری حاوی مقداری متن (مانند sample.png) نیاز دارید. مطمئن شوید که تصویر در همان دایرکتوری اسکریپت شما قرار دارد، یا مسیر کامل آن را ارائه دهید.
یک فایل پایتون جدید (مانند basic_ocr.py) ایجاد کنید و کد زیر را اضافه کنید:
import smoldocling
# Initialize the OCR engine
ocr = smoldocling.OCR()
# Path to your image file
image_path = 'sample.png'
# Perform OCR on the image
text = ocr.recognize(image_path)
# Print the extracted text
print(text)
'sample.png' را با مسیر فایل تصویری خود جایگزین کنید. فایل را ذخیره کرده و از ترمینال خود اجرا کنید:
python basic_ocr.py
اگر همه چیز به درستی راهاندازی شده باشد، اسکریپت متنی را که از تصویر شما استخراج شده است، در کنسول چاپ میکند.
نتیجهگیری بخش ۱
در این بخش، ما با موفقیت محیط پایتون خود را راهاندازی کردیم، کتابخانه smoldocling را نصب کردیم، و یک عملیات OCR پایه را برای استخراج متن از یک تصویر انجام دادیم. این گام اساسی در جهت ساخت یک برنامه OCR محلی جامعتر است.
در بخش بعدی این سری، عمیقتر به ویژگیهای پیشرفتهتر smoldocling خواهیم پرداخت، از جمله مدیریت فرمتهای مختلف تصویر، بهبود دقت، و احتمالاً ساخت یک رابط خط فرمان ساده برای برنامه خود.
منتظر بخش ۲ باشید!