بازشناسی نوری نویسهها (OCR) مدتهاست که سنگ بنای دیجیتالیسازی اسناد بوده و تبدیل متن چاپی به قالبهای قابل خواندن توسط ماشین را امکانپذیر میسازد. با این حال، با افزایش چندزبانگی جهان و وابستگی به محتوای دستنویس و ساختاریافته بصری، سیستمهای سنتی OCR با محدودیتهای قابل توجهی روبرو هستند. این سیستمها اغلب با پیچیدگیهای خطوط متنوع، محتوای دستنویس آزاد و اسنادی که شامل چیدمانهای پیچیده با زمینه بصری هستند، دست و پنجه نرم میکنند. همچنین، بسیاری از راهحلهای OCR همچنان توسط مجوزهای اختصاصی محدود شدهاند و برای اصلاح یا استفاده در برنامههای کاربردی سفارشی در مقیاس بزرگ غیرقابل دسترس هستند. تقاضا برای مدلهای OCR باز، با کارایی بالا و آگاه از زمینه، بیش از هر زمان دیگری افزایش یافته است، بهویژه با توجه به اینکه شرکتها و توسعهدهندگان به دنبال ادغام درک هوشمند اسناد در گردش کار خود هستند.
شرکت Reducto AI مدل RolmOCR را معرفی کرده است، یک مدل پیشرفته OCR که به طور قابل توجهی فناوری زبانی-بصری را ارتقا میدهد. RolmOCR که تحت مجوز آپاچی ۲.۰ منتشر شده، بر پایه Qwen-2.5-VL، یک مدل قدرتمند زبانی-بصری توسعهیافته توسط علیبابا، بنا شده است. این پایه استراتژیک به RolmOCR امکان میدهد تا با ترکیب درک عمیقتری از چیدمان بصری و محتوای زبانی، فراتر از بازشناسی نویسههای سنتی عمل کند. زمان انتشار آن قابل توجه است و با نیاز فزاینده به سیستمهای OCR که بتوانند انواع زبانها و قالبها، از یادداشتهای دستنویس گرفته تا فرمهای دولتی ساختاریافته را به دقت تفسیر کنند، همزمان است.
مدل RolmOCR از ترکیب زیربنایی زبان و بینایی Qwen-VL برای درک جامع اسناد بهره میبرد. برخلاف مدلهای OCR مرسوم، این مدل عناصر بصری و متنی را با هم تفسیر میکند و به آن امکان میدهد نه تنها نویسههای چاپی و دستنویس را در چندین زبان تشخیص دهد، بلکه ساختار چیدمان اسناد را نیز درک کند. این شامل قابلیتهایی مانند تشخیص جدول، تجزیه چکباکسها و ارتباط معنایی بین نواحی تصویر و متن است. با پشتیبانی از تعاملات مبتنی بر پرامپت، کاربران میتوانند با زبان طبیعی از مدل برای استخراج محتوای خاص از اسناد پرسوجو کنند و قابلیت استفاده آن را در محیطهای پویا یا مبتنی بر قوانین افزایش دهند. عملکرد آن در مجموعه دادههای متنوع، از جمله اسناد اسکنشده واقعی و زبانهای کممنابع، معیار جدیدی را در OCR متنباز تعیین میکند.
قابلیتهای قوی RolmOCR میتواند پردازش فرمها، مجوزها و قراردادهای چندزبانه را در بخشهای حقوقی و دولتی با دقت بالا خودکار کند. جوامع آموزشی و پژوهشی از توانایی آن در دیجیتالی کردن یادداشتهای دستنویس، آرشیوهای تاریخی و نشریات دانشگاهی بهرهمند میشوند و آنها را قابل جستجو و تجزیه و تحلیل میکنند. در عملیات مالی و بیمه، RolmOCR استخراج اطلاعات ساختاریافته از فاکتورها، صورتحسابها و اسناد بیمهنامه را تسهیل میکند. موسسات مراقبتهای بهداشتی میتوانند از این مدل برای دیجیتالی کردن نسخههای دستنویس و فرمهای پذیرش بیمار استفاده کنند و دسترسی به دادهها و انطباق را بهبود بخشند. همچنین، RolmOCR با تبدیل اسناد اسکنشده به مجموعه دادههای ساختاریافته مناسب برای نمایهسازی و بازیابی، از ساخت موتورهای جستجوی هوشمند پشتیبانی میکند. مکانیسم پرسوجوی مبتنی بر پرامپت آن، سازگاری آن را بیشتر افزایش میدهد و به توسعهدهندگان امکان میدهد تا استدلال مبتنی بر OCR را در عاملهای هوش مصنوعی یا اتوماسیون گردش کار تعبیه کنند.
در نتیجه، Reducto AI ابزاری را ارائه میدهد که در انواع مختلف اسناد و زبانها عملکرد فوقالعادهای دارد و از طریق استفاده نامحدود، نوآوری را تقویت میکند. انتشار RolmOCR تحت مجوز آپاچی ۲.۰ تضمین میکند که میتوان آن را در محیطهای دانشگاهی و تجاری بهخوبی تنظیم، ادغام و مقیاسبندی کرد. ابزارهایی مانند RolmOCR در ارائه راهحلهای OCR مقیاسپذیر، هوشمند و فراگیر نقش اساسی خواهند داشت. معماری آن که بر پایه Qwen-2.5-VL استوار است، نگاهی اجمالی به آینده درک اسناد مبتنی بر هوش مصنوعی ارائه میدهد که چندزبانه، آگاه از چیدمان و قابل برنامهریزی است.
مدل را در Hugging Face بررسی کنید. تمام اعتبار این تحقیق متعلق به پژوهشگران این پروژه است. همچنین، راحت باشید ما را در توییتر دنبال کنید و فراموش نکنید به سابردیت ۸۵ هزار نفری ما در زمینه یادگیری ماشین بپیوندید.