مسترال ای‌آی API مبتنی بر LLM برای OCR اسناد چندوجهی راه‌اندازی کرد

اکنون در سرویس SaaS la Plateforme مسترال در دسترس است، Mistral OCR (بازشناسی نویسه‌های نوری مسترال) با هدف ارائه یک راهکار OCR برای دیجیتالی کردن اسناد پیچیده‌ای که متن و تصاویر، جداول، عبارات ریاضی و طرح‌بندی‌های پیشرفته را در هم می‌آمیزند، ارائه شده است. به گفته این شرکت، این ویژگی آن را به خصوص برای دیجیتالی کردن تحقیقات علمی، اسناد و آثار تاریخی، راهنماهای کاربری و موارد دیگر مناسب می‌سازد.

Mistral OCR از مدل‌های زبانی بزرگ (LLM) مسترال برای درک محتوای استخراج شده از طریق OCR یک سند استفاده می‌کند. این به درک زمینه و روابط بین عناصر سند کمک می‌کند، که آن را برای استفاده با سیستم‌های بازیابی-افزوده-تولید (RAG) که اسناد چندوجهی را به عنوان ورودی می‌گیرند، مناسب می‌سازد.

بر اساس بنچمارک‌های داخلی این شرکت، Mistral OCR عملکرد بهتری نسبت به سایر راهکارهای پیشرو OCR از جمله Google Document AI، Azure OCR، Gemini 1.5 و 2.0 و GPT-4o دارد.

برخلاف سایر مدل‌ها، Mistral OCR هر عنصر از اسناد – رسانه، متن، جداول، معادلات – را با دقت و شناخت بی‌سابقه‌ای درک می‌کند. این سرویس تصاویر و فایل‌های PDF را به عنوان ورودی دریافت کرده و محتوا را به صورت متن و تصاویر درهم‌آمیخته و مرتب استخراج می‌کند.

مسترال ای‌آی تأکید می‌کند که API OCR آن تنها API است که تصاویر جاسازی شده را به همراه متن از اسناد استخراج می‌کند. متن و تصاویر حاصل به یک فایل مارک‌داون صادر می‌شوند. فرمت‌های اضافی برای خروجی ساختاریافته پشتیبانی می‌شوند، مانند JSON، برای زنجیره‌سازی خروجی OCR در یک گردش کار پیچیده‌تر)، که می‌تواند برای ساخت ایجنت‌ها مفید باشد.

در مورد پشتیبانی چند زبانه، مسترال ای‌آی تأکید می‌کند که راهکار آن می‌تواند هزاران اسکریپت، فونت و زبان را تجزیه، درک و رونویسی کند.

Mistral OCR در حال حاضر قدرت‌بخش راهکار چت مبتنی بر LLM مسترال به نام le Chat است و به زودی برای پیاده‌سازی‌های داخلی (on-premises) نیز در دسترس خواهد بود. به گفته این شرکت، این سرویس می‌تواند تا ۲۰۰۰ صفحه در دقیقه را بر روی یک گره (node) پردازش کند.

برای استفاده از Mistral OCR API در پایتون، باید بسته mistralai را نصب کنید که پشتیبانی از احراز هویت و استفاده از تمام قابلیت‌های ارائه شده توسط Mistral API را فراهم می‌کند. برای پردازش یک فایل، ابتدا باید آن را آپلود کنید، همانطور که در قطعه کد زیر نشان داده شده است:

# بارگذاری فایل PDF در سرویس OCR مسترال
uploaded_file = client.files.upload(
 file={
 "file_name": pdf_file.stem,
 "content": pdf_file.read_bytes(),
 },
 purpose="ocr",
)

# دریافت URL برای فایل آپلود شده
signed_url = client.files.get_signed_url(file_id=uploaded_file.id, expiry=1)

# پردازش PDF با OCR، شامل تصاویر جاسازی شده
pdf_response = client.ocr.process(
 document=DocumentURLChunk(document_url=signed_url.url),
 model="mistral-ocr-latest",
 include_image_base64=True
)

# تبدیل پاسخ به فرمت JSON
response_dict = json.loads(pdf_response.model_dump_json())

در حال حاضر این API به فایل‌هایی با حجم حداکثر ۵۰ مگابایت یا طول ۱۰۰۰ صفحه محدود است. قیمت برای ۱۰۰۰ صفحه ۱ دلار آمریکا یا برای ۲۰۰۰ صفحه ۱ دلار آمریکا در صورت استفاده از OCR دسته‌ای (batch OCR) تعیین شده است.

این گزارش ترجمه و بازنویسی خبری با موتور هوش مصنوعی افق آبی است و برای خوانندهٔ فارسی‌زبان بازتنظیم شده. منبع اصلی: infoq