ساخت یک برنامه OCR محلی با smoldocling: راهنمای گام به گام (بخش ۱)

به بخش اول راهنمای ما در مورد ساخت یک برنامه تشخیص کاراکتر نوری (OCR) محلی با استفاده از کتابخانه smoldocling خوش آمدید. در این سری، فرآیند راه‌اندازی محیط خود، ادغام smoldocling، و ایجاد یک ابزار OCR کاربردی که روی دستگاه محلی شما اجرا می‌شود را گام به گام بررسی خواهیم کرد.

فناوری OCR به ما امکان می‌دهد متن را از تصاویر و اسناد اسکن شده استخراج کنیم. در حالی که بسیاری از سرویس‌های OCR مبتنی بر ابر وجود دارند، ساخت یک برنامه محلی کنترل بیشتری بر حریم خصوصی داده‌ها، عملکرد آفلاین، و سفارشی‌سازی بالقوه ارائه می‌دهد.

Smoldocling یک کتابخانه OCR سبک و کارآمد است که برای پیاده‌سازی‌های محلی بسیار مناسب است. این کتابخانه به گونه‌ای طراحی شده که استفاده و ادغام آن در پروژه‌های مختلف آسان باشد.

راه‌اندازی محیط

قبل از شروع کدنویسی، باید محیط توسعه خود را راه‌اندازی کنیم. این راهنما فرض می‌کند که پایتون روی سیستم شما نصب شده است. ما از pip برای مدیریت بسته‌ها استفاده خواهیم کرد.

ابتدا، بیایید یک محیط مجازی برای جدا نگه داشتن وابستگی‌های پروژه خود ایجاد کنیم. ترمینال یا خط فرمان خود را باز کنید و دستورات زیر را اجرا کنید:

python -m venv ocr_env
source ocr_env/bin/activate  # در ویندوز از `ocr_env\Scripts\activate` استفاده کنید

این یک محیط مجازی به نام ocr_env ایجاد کرده و آن را فعال می‌کند. شما باید نام محیط را در خط فرمان ترمینال خود مشاهده کنید.

نصب smoldocling

با فعال بودن محیط مجازی، اکنون می‌توانیم کتابخانه smoldocling را نصب کنیم. دستور زیر را اجرا کنید:

pip install smoldocling

این دستور آخرین نسخه smoldocling و وابستگی‌های آن را دانلود و نصب می‌کند.

استفاده پایه: استخراج متن از یک تصویر

بیایید یک مثال ساده را امتحان کنیم تا ببینیم آیا smoldocling به درستی کار می‌کند یا خیر. یک اسکریپت پایتون برای استخراج متن از یک تصویر نمونه ایجاد خواهیم کرد. برای این مثال، به یک فایل تصویری حاوی مقداری متن (مانند sample.png) نیاز دارید. مطمئن شوید که تصویر در همان دایرکتوری اسکریپت شما قرار دارد، یا مسیر کامل آن را ارائه دهید.

یک فایل پایتون جدید (مانند basic_ocr.py) ایجاد کنید و کد زیر را اضافه کنید:

import smoldocling

# Initialize the OCR engine
ocr = smoldocling.OCR()

# Path to your image file
image_path = 'sample.png'

# Perform OCR on the image
text = ocr.recognize(image_path)

# Print the extracted text
print(text)

'sample.png' را با مسیر فایل تصویری خود جایگزین کنید. فایل را ذخیره کرده و از ترمینال خود اجرا کنید:

python basic_ocr.py

اگر همه چیز به درستی راه‌اندازی شده باشد، اسکریپت متنی را که از تصویر شما استخراج شده است، در کنسول چاپ می‌کند.

نتیجه‌گیری بخش ۱

در این بخش، ما با موفقیت محیط پایتون خود را راه‌اندازی کردیم، کتابخانه smoldocling را نصب کردیم، و یک عملیات OCR پایه را برای استخراج متن از یک تصویر انجام دادیم. این گام اساسی در جهت ساخت یک برنامه OCR محلی جامع‌تر است.

در بخش بعدی این سری، عمیق‌تر به ویژگی‌های پیشرفته‌تر smoldocling خواهیم پرداخت، از جمله مدیریت فرمت‌های مختلف تصویر، بهبود دقت، و احتمالاً ساخت یک رابط خط فرمان ساده برای برنامه خود.

منتظر بخش ۲ باشید!

https://pub.towardsai.net/building-local-ocr-application-smoldocling-a-step-by-step-guide-part-1-2bc900bd56e9?source=rss----98111c9905da---4