اکنون در سرویس SaaS la Plateforme مسترال در دسترس است، Mistral OCR (بازشناسی نویسههای نوری مسترال) با هدف ارائه یک راهکار OCR برای دیجیتالی کردن اسناد پیچیدهای که متن و تصاویر، جداول، عبارات ریاضی و طرحبندیهای پیشرفته را در هم میآمیزند، ارائه شده است. به گفته این شرکت، این ویژگی آن را به خصوص برای دیجیتالی کردن تحقیقات علمی، اسناد و آثار تاریخی، راهنماهای کاربری و موارد دیگر مناسب میسازد.
Mistral OCR از مدلهای زبانی بزرگ (LLM) مسترال برای درک محتوای استخراج شده از طریق OCR یک سند استفاده میکند. این به درک زمینه و روابط بین عناصر سند کمک میکند، که آن را برای استفاده با سیستمهای بازیابی-افزوده-تولید (RAG) که اسناد چندوجهی را به عنوان ورودی میگیرند، مناسب میسازد.
بر اساس بنچمارکهای داخلی این شرکت، Mistral OCR عملکرد بهتری نسبت به سایر راهکارهای پیشرو OCR از جمله Google Document AI، Azure OCR، Gemini 1.5 و 2.0 و GPT-4o دارد.
برخلاف سایر مدلها، Mistral OCR هر عنصر از اسناد – رسانه، متن، جداول، معادلات – را با دقت و شناخت بیسابقهای درک میکند. این سرویس تصاویر و فایلهای PDF را به عنوان ورودی دریافت کرده و محتوا را به صورت متن و تصاویر درهمآمیخته و مرتب استخراج میکند.
مسترال ایآی تأکید میکند که API OCR آن تنها API است که تصاویر جاسازی شده را به همراه متن از اسناد استخراج میکند. متن و تصاویر حاصل به یک فایل مارکداون صادر میشوند. فرمتهای اضافی برای خروجی ساختاریافته پشتیبانی میشوند، مانند JSON، برای زنجیرهسازی خروجی OCR در یک گردش کار پیچیدهتر)، که میتواند برای ساخت ایجنتها مفید باشد.
در مورد پشتیبانی چند زبانه، مسترال ایآی تأکید میکند که راهکار آن میتواند هزاران اسکریپت، فونت و زبان را تجزیه، درک و رونویسی کند.
Mistral OCR در حال حاضر قدرتبخش راهکار چت مبتنی بر LLM مسترال به نام le Chat است و به زودی برای پیادهسازیهای داخلی (on-premises) نیز در دسترس خواهد بود. به گفته این شرکت، این سرویس میتواند تا ۲۰۰۰ صفحه در دقیقه را بر روی یک گره (node) پردازش کند.
برای استفاده از Mistral OCR API در پایتون، باید بسته mistralai را نصب کنید که پشتیبانی از احراز هویت و استفاده از تمام قابلیتهای ارائه شده توسط Mistral API را فراهم میکند. برای پردازش یک فایل، ابتدا باید آن را آپلود کنید، همانطور که در قطعه کد زیر نشان داده شده است:
# بارگذاری فایل PDF در سرویس OCR مسترال
uploaded_file = client.files.upload(
file={
"file_name": pdf_file.stem,
"content": pdf_file.read_bytes(),
},
purpose="ocr",
)
# دریافت URL برای فایل آپلود شده
signed_url = client.files.get_signed_url(file_id=uploaded_file.id, expiry=1)
# پردازش PDF با OCR، شامل تصاویر جاسازی شده
pdf_response = client.ocr.process(
document=DocumentURLChunk(document_url=signed_url.url),
model="mistral-ocr-latest",
include_image_base64=True
)
# تبدیل پاسخ به فرمت JSON
response_dict = json.loads(pdf_response.model_dump_json())
در حال حاضر این API به فایلهایی با حجم حداکثر ۵۰ مگابایت یا طول ۱۰۰۰ صفحه محدود است. قیمت برای ۱۰۰۰ صفحه ۱ دلار آمریکا یا برای ۲۰۰۰ صفحه ۱ دلار آمریکا در صورت استفاده از OCR دستهای (batch OCR) تعیین شده است.