محققان IBM و Hugging Face مدل زبان بصری متن باز SmolDocling را برای OCR کامل اسناد منتشر کردند

معماری SmolDocling
معماری SmolDocling
معیارهای عملکرد SmolDocling
معیارهای عملکرد SmolDocling
عناصر مختلف سند
عناصر مختلف سند

تبدیل اسناد پیچیده به داده‌های ساختاریافته، مدت‌هاست که چالش قابل توجهی در حوزه علوم کامپیوتر بوده است. رویکردهای سنتی، شامل سیستم‌های دسته‌جمعی یا مدل‌های بنیادی بسیار بزرگ، اغلب با موانع اساسی مانند دشواری در تنظیم دقیق، مسائل تعمیم، توهمات و هزینه‌های محاسباتی بالا مواجه می‌شوند. سیستم‌های دسته‌جمعی، اگرچه برای وظایف خاص کارآمد هستند، اما به دلیل وابستگی‌شان به خطوط لوله دست‌ساز برای هر زیروظیفه، اغلب در تعمیم دادن با شکست مواجه می‌شوند. از سوی دیگر، مدل‌های بنیادی چندوجهی، اگرچه قدرتمند هستند، اما اغلب از هزینه‌های محاسباتی بالا و مسائل مربوط به قابلیت اطمینان مانند توهمات رنج می‌برند.

محققان IBM و Hugging Face اخیراً با انتشار SmolDocling، یک مدل زبان بصری (VLM) متن باز ۲۵۶ مگابایتی که به طور خاص برای وظایف تبدیل اسناد چندوجهی انتها به انتها طراحی شده است، به این چالش‌ها پرداخته‌اند. برخلاف مدل‌های بنیادی بزرگ‌تر، SmolDocling یک راه حل ساده ارائه می‌دهد که کل صفحات را از طریق یک مدل واحد پردازش می‌کند و به طور قابل توجهی پیچیدگی و نیازهای محاسباتی را کاهش می‌دهد. ماهیت فوق‌العاده فشرده آن، با تنها ۲۵۶ میلیون پارامتر، آن را به طور قابل توجهی سبک و کارآمد از نظر منابع می‌سازد. محققان همچنین یک فرمت نشانه‌گذاری جهانی به نام DocTags ایجاد کردند که عناصر صفحه، ساختارهای آن‌ها و زمینه‌های فضایی را به شکلی بسیار فشرده و واضح ثبت می‌کند.

SmolDocling از SmolVLM-256M فشرده Hugging Face به عنوان پایه معماری خود استفاده می‌کند، که از طریق روش‌های بهینه‌سازی نشانه‌گذاری و فشرده‌سازی ویژگی‌های بصری، کاهش قابل توجهی در پیچیدگی محاسباتی دارد. نقطه قوت اصلی آن در فرمت نوآورانه DocTags نهفته است، که نشانه‌گذاری ساختاریافته‌ای ارائه می‌دهد که به طور مشخص طرح‌بندی سند، محتوای متنی و اطلاعات بصری مانند معادلات، جداول، قطعه کدها و نمودارها را جدا می‌کند. SmolDocling از یادگیری برنامه درسی برای آموزش کارآمد استفاده می‌کند، که در ابتدا شامل فریز کردن رمزگذار بصری آن می‌شود و به تدریج آن را با استفاده از مجموعه‌های داده غنی‌شده‌ای که هم‌ترازی معنایی بصری را در بین عناصر مختلف سند افزایش می‌دهند، تنظیم می‌کند. علاوه بر این، کارایی مدل به آن اجازه می‌دهد تا کل صفحات سند را با سرعت بسیار بالایی پردازش کند، به طور متوسط تنها ۰.۳۵ ثانیه در هر صفحه بر روی یک GPU مصرف‌کننده در حالی که کمتر از ۵۰۰ مگابایت VRAM مصرف می‌کند.

داده‌های عملکرد به وضوح SmolDocling را در خط مقدم فناوری‌های فعلی قرار می‌دهد. در تست‌های معیار جامع شامل وظایف مختلف تبدیل سند، SmolDocling عملکردی به مراتب بهتر از مدل‌های رقیب بزرگ‌تر داشت. به عنوان مثال، در وظایف OCR سند با صفحه کامل، SmolDocling به معیارهای دقت بسیار بهتری دست یافت، مانند فاصله ویرایش به طور قابل توجهی کمتر (۰.۴۸) و امتیاز F1 بالاتر (۰.۸۰)، در مقایسه با مدل‌هایی مانند Qwen2.5 VL (7 میلیارد پارامتر) و Nougat (350 میلیون پارامتر). همچنین در رونویسی معادله برتری داشت و به امتیاز F1 ۰.۹۵ دست یافت که با مدل‌های پیشرفته‌ای مانند GOT مطابقت دارد. علاوه بر این، SmolDocling یک معیار جدید در تشخیص قطعه کد تعیین کرد و نمرات دقت و فراخوانی بالایی به ترتیب ۰.۹۴ و ۰.۹۱ نشان داد.

آنچه SmolDocling را از سایر راه حل‌های OCR سند متمایز می‌کند، قابلیت آن در مدیریت عناصر متنوع در اسناد، از جمله موارد پیچیده‌ای مانند کد، نمودارها، معادلات و طرح‌بندی‌های مختلف است. قابلیت‌های آن فراتر از مقالات علمی معمولی است و به طور قابل اعتمادی از پتنت‌ها، فرم‌ها و مستندات تجاری پشتیبانی می‌کند. SmolDocling با ارائه فراداده‌های ساختاریافته جامع از طریق DocTags، ابهام ذاتی در قالب‌هایی مانند HTML یا Markdown را از بین می‌برد و قابلیت استفاده از تبدیل‌های سند را افزایش می‌دهد. اندازه فشرده آن امکان پردازش دسته‌ای در مقیاس بزرگ را با نیازهای منابع بسیار کم فراهم می‌کند و استقرارهای مقرون به صرفه در مقیاس را تسهیل می‌کند.

در خاتمه، SmolDocling نشان‌دهنده یک پیشرفت چشمگیر در فناوری تبدیل سند است و نشان می‌دهد که مدل‌های فشرده نه تنها می‌توانند رقابت کنند، بلکه به طور قابل توجهی از مدل‌های بنیادی بزرگ‌تر در وظایف حیاتی پیشی می‌گیرند. محققان با موفقیت نشان داده‌اند که چگونه آموزش هدفمند، افزایش داده‌های نوآورانه و فرمت‌های نشانه‌گذاری جدید مانند DocTags می‌توانند بر محدودیت‌های سنتی مرتبط با اندازه و پیچیدگی غلبه کنند. انتشار SmolDocling نه تنها استاندارد جدیدی در کارایی و تطبیق‌پذیری برای فناوری‌های OCR تعیین می‌کند، بلکه از طریق مجموعه‌های داده‌ای که به طور آزاد در دسترس هستند و یک معماری مدل بسیار کارآمد و فشرده، منبع ارزشمندی را برای جامعه فراهم می‌کند. این نشان دهنده یک پیشرفت اساسی در درک سند است و امکانات جدید هیجان‌انگیزی را برای کاربردهای سطح سازمانی و دسترسی گسترده‌تر باز می‌کند.


مقاله و مدل را در Hugging Face بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد.