Reducto AI مدل RolmOCR را منتشر کرد: یک مدل پیشرفته OCR مبتنی بر Qwen 2.5 VL، کاملاً متن‌باز با مجوز آپاچی ۲.۰ برای درک پیشرفته اسناد

بازشناسی نوری نویسه‌ها (OCR) مدت‌هاست که سنگ بنای دیجیتالی‌سازی اسناد بوده و تبدیل متن چاپی به قالب‌های قابل خواندن توسط ماشین را امکان‌پذیر می‌سازد. با این حال، با افزایش چندزبانگی جهان و وابستگی به محتوای دست‌نویس و ساختاریافته بصری، سیستم‌های سنتی OCR با محدودیت‌های قابل توجهی روبرو هستند. این سیستم‌ها اغلب با پیچیدگی‌های خطوط متنوع، محتوای دست‌نویس آزاد و اسنادی که شامل چیدمان‌های پیچیده با زمینه بصری هستند، دست و پنجه نرم می‌کنند. همچنین، بسیاری از راه‌حل‌های OCR همچنان توسط مجوزهای اختصاصی محدود شده‌اند و برای اصلاح یا استفاده در برنامه‌های کاربردی سفارشی در مقیاس بزرگ غیرقابل دسترس هستند. تقاضا برای مدل‌های OCR باز، با کارایی بالا و آگاه از زمینه، بیش از هر زمان دیگری افزایش یافته است، به‌ویژه با توجه به اینکه شرکت‌ها و توسعه‌دهندگان به دنبال ادغام درک هوشمند اسناد در گردش کار خود هستند.

شرکت Reducto AI مدل RolmOCR را معرفی کرده است، یک مدل پیشرفته OCR که به طور قابل توجهی فناوری زبانی-بصری را ارتقا می‌دهد. RolmOCR که تحت مجوز آپاچی ۲.۰ منتشر شده، بر پایه Qwen-2.5-VL، یک مدل قدرتمند زبانی-بصری توسعه‌یافته توسط علی‌بابا، بنا شده است. این پایه استراتژیک به RolmOCR امکان می‌دهد تا با ترکیب درک عمیق‌تری از چیدمان بصری و محتوای زبانی، فراتر از بازشناسی نویسه‌های سنتی عمل کند. زمان انتشار آن قابل توجه است و با نیاز فزاینده به سیستم‌های OCR که بتوانند انواع زبان‌ها و قالب‌ها، از یادداشت‌های دست‌نویس گرفته تا فرم‌های دولتی ساختاریافته را به دقت تفسیر کنند، همزمان است.

مدل RolmOCR از ترکیب زیربنایی زبان و بینایی Qwen-VL برای درک جامع اسناد بهره می‌برد. برخلاف مدل‌های OCR مرسوم، این مدل عناصر بصری و متنی را با هم تفسیر می‌کند و به آن امکان می‌دهد نه تنها نویسه‌های چاپی و دست‌نویس را در چندین زبان تشخیص دهد، بلکه ساختار چیدمان اسناد را نیز درک کند. این شامل قابلیت‌هایی مانند تشخیص جدول، تجزیه چک‌باکس‌ها و ارتباط معنایی بین نواحی تصویر و متن است. با پشتیبانی از تعاملات مبتنی بر پرامپت، کاربران می‌توانند با زبان طبیعی از مدل برای استخراج محتوای خاص از اسناد پرس‌وجو کنند و قابلیت استفاده آن را در محیط‌های پویا یا مبتنی بر قوانین افزایش دهند. عملکرد آن در مجموعه داده‌های متنوع، از جمله اسناد اسکن‌شده واقعی و زبان‌های کم‌منابع، معیار جدیدی را در OCR متن‌باز تعیین می‌کند.

قابلیت‌های قوی RolmOCR می‌تواند پردازش فرم‌ها، مجوزها و قراردادهای چندزبانه را در بخش‌های حقوقی و دولتی با دقت بالا خودکار کند. جوامع آموزشی و پژوهشی از توانایی آن در دیجیتالی کردن یادداشت‌های دست‌نویس، آرشیوهای تاریخی و نشریات دانشگاهی بهره‌مند می‌شوند و آن‌ها را قابل جستجو و تجزیه و تحلیل می‌کنند. در عملیات مالی و بیمه، RolmOCR استخراج اطلاعات ساختاریافته از فاکتورها، صورت‌حساب‌ها و اسناد بیمه‌نامه را تسهیل می‌کند. موسسات مراقبت‌های بهداشتی می‌توانند از این مدل برای دیجیتالی کردن نسخه‌های دست‌نویس و فرم‌های پذیرش بیمار استفاده کنند و دسترسی به داده‌ها و انطباق را بهبود بخشند. همچنین، RolmOCR با تبدیل اسناد اسکن‌شده به مجموعه داده‌های ساختاریافته مناسب برای نمایه‌سازی و بازیابی، از ساخت موتورهای جستجوی هوشمند پشتیبانی می‌کند. مکانیسم پرس‌وجوی مبتنی بر پرامپت آن، سازگاری آن را بیشتر افزایش می‌دهد و به توسعه‌دهندگان امکان می‌دهد تا استدلال مبتنی بر OCR را در عامل‌های هوش مصنوعی یا اتوماسیون گردش کار تعبیه کنند.

در نتیجه، Reducto AI ابزاری را ارائه می‌دهد که در انواع مختلف اسناد و زبان‌ها عملکرد فوق‌العاده‌ای دارد و از طریق استفاده نامحدود، نوآوری را تقویت می‌کند. انتشار RolmOCR تحت مجوز آپاچی ۲.۰ تضمین می‌کند که می‌توان آن را در محیط‌های دانشگاهی و تجاری به‌خوبی تنظیم، ادغام و مقیاس‌بندی کرد. ابزارهایی مانند RolmOCR در ارائه راه‌حل‌های OCR مقیاس‌پذیر، هوشمند و فراگیر نقش اساسی خواهند داشت. معماری آن که بر پایه Qwen-2.5-VL استوار است، نگاهی اجمالی به آینده درک اسناد مبتنی بر هوش مصنوعی ارائه می‌دهد که چندزبانه، آگاه از چیدمان و قابل برنامه‌ریزی است.

مدل را در Hugging Face بررسی کنید. تمام اعتبار این تحقیق متعلق به پژوهشگران این پروژه است. همچنین، راحت باشید ما را در توییتر دنبال کنید و فراموش نکنید به ساب‌ردیت ۸۵ هزار نفری ما در زمینه یادگیری ماشین بپیوندید.