تبدیل اسناد پیچیده به دادههای ساختاریافته، مدتهاست که چالش قابل توجهی در حوزه علوم کامپیوتر بوده است. رویکردهای سنتی، شامل سیستمهای دستهجمعی یا مدلهای بنیادی بسیار بزرگ، اغلب با موانع اساسی مانند دشواری در تنظیم دقیق، مسائل تعمیم، توهمات و هزینههای محاسباتی بالا مواجه میشوند. سیستمهای دستهجمعی، اگرچه برای وظایف خاص کارآمد هستند، اما به دلیل وابستگیشان به خطوط لوله دستساز برای هر زیروظیفه، اغلب در تعمیم دادن با شکست مواجه میشوند. از سوی دیگر، مدلهای بنیادی چندوجهی، اگرچه قدرتمند هستند، اما اغلب از هزینههای محاسباتی بالا و مسائل مربوط به قابلیت اطمینان مانند توهمات رنج میبرند.
محققان IBM و Hugging Face اخیراً با انتشار SmolDocling، یک مدل زبان بصری (VLM) متن باز ۲۵۶ مگابایتی که به طور خاص برای وظایف تبدیل اسناد چندوجهی انتها به انتها طراحی شده است، به این چالشها پرداختهاند. برخلاف مدلهای بنیادی بزرگتر، SmolDocling یک راه حل ساده ارائه میدهد که کل صفحات را از طریق یک مدل واحد پردازش میکند و به طور قابل توجهی پیچیدگی و نیازهای محاسباتی را کاهش میدهد. ماهیت فوقالعاده فشرده آن، با تنها ۲۵۶ میلیون پارامتر، آن را به طور قابل توجهی سبک و کارآمد از نظر منابع میسازد. محققان همچنین یک فرمت نشانهگذاری جهانی به نام DocTags ایجاد کردند که عناصر صفحه، ساختارهای آنها و زمینههای فضایی را به شکلی بسیار فشرده و واضح ثبت میکند.
SmolDocling از SmolVLM-256M فشرده Hugging Face به عنوان پایه معماری خود استفاده میکند، که از طریق روشهای بهینهسازی نشانهگذاری و فشردهسازی ویژگیهای بصری، کاهش قابل توجهی در پیچیدگی محاسباتی دارد. نقطه قوت اصلی آن در فرمت نوآورانه DocTags نهفته است، که نشانهگذاری ساختاریافتهای ارائه میدهد که به طور مشخص طرحبندی سند، محتوای متنی و اطلاعات بصری مانند معادلات، جداول، قطعه کدها و نمودارها را جدا میکند. SmolDocling از یادگیری برنامه درسی برای آموزش کارآمد استفاده میکند، که در ابتدا شامل فریز کردن رمزگذار بصری آن میشود و به تدریج آن را با استفاده از مجموعههای داده غنیشدهای که همترازی معنایی بصری را در بین عناصر مختلف سند افزایش میدهند، تنظیم میکند. علاوه بر این، کارایی مدل به آن اجازه میدهد تا کل صفحات سند را با سرعت بسیار بالایی پردازش کند، به طور متوسط تنها ۰.۳۵ ثانیه در هر صفحه بر روی یک GPU مصرفکننده در حالی که کمتر از ۵۰۰ مگابایت VRAM مصرف میکند.
دادههای عملکرد به وضوح SmolDocling را در خط مقدم فناوریهای فعلی قرار میدهد. در تستهای معیار جامع شامل وظایف مختلف تبدیل سند، SmolDocling عملکردی به مراتب بهتر از مدلهای رقیب بزرگتر داشت. به عنوان مثال، در وظایف OCR سند با صفحه کامل، SmolDocling به معیارهای دقت بسیار بهتری دست یافت، مانند فاصله ویرایش به طور قابل توجهی کمتر (۰.۴۸) و امتیاز F1 بالاتر (۰.۸۰)، در مقایسه با مدلهایی مانند Qwen2.5 VL (7 میلیارد پارامتر) و Nougat (350 میلیون پارامتر). همچنین در رونویسی معادله برتری داشت و به امتیاز F1 ۰.۹۵ دست یافت که با مدلهای پیشرفتهای مانند GOT مطابقت دارد. علاوه بر این، SmolDocling یک معیار جدید در تشخیص قطعه کد تعیین کرد و نمرات دقت و فراخوانی بالایی به ترتیب ۰.۹۴ و ۰.۹۱ نشان داد.
آنچه SmolDocling را از سایر راه حلهای OCR سند متمایز میکند، قابلیت آن در مدیریت عناصر متنوع در اسناد، از جمله موارد پیچیدهای مانند کد، نمودارها، معادلات و طرحبندیهای مختلف است. قابلیتهای آن فراتر از مقالات علمی معمولی است و به طور قابل اعتمادی از پتنتها، فرمها و مستندات تجاری پشتیبانی میکند. SmolDocling با ارائه فرادادههای ساختاریافته جامع از طریق DocTags، ابهام ذاتی در قالبهایی مانند HTML یا Markdown را از بین میبرد و قابلیت استفاده از تبدیلهای سند را افزایش میدهد. اندازه فشرده آن امکان پردازش دستهای در مقیاس بزرگ را با نیازهای منابع بسیار کم فراهم میکند و استقرارهای مقرون به صرفه در مقیاس را تسهیل میکند.
در خاتمه، SmolDocling نشاندهنده یک پیشرفت چشمگیر در فناوری تبدیل سند است و نشان میدهد که مدلهای فشرده نه تنها میتوانند رقابت کنند، بلکه به طور قابل توجهی از مدلهای بنیادی بزرگتر در وظایف حیاتی پیشی میگیرند. محققان با موفقیت نشان دادهاند که چگونه آموزش هدفمند، افزایش دادههای نوآورانه و فرمتهای نشانهگذاری جدید مانند DocTags میتوانند بر محدودیتهای سنتی مرتبط با اندازه و پیچیدگی غلبه کنند. انتشار SmolDocling نه تنها استاندارد جدیدی در کارایی و تطبیقپذیری برای فناوریهای OCR تعیین میکند، بلکه از طریق مجموعههای دادهای که به طور آزاد در دسترس هستند و یک معماری مدل بسیار کارآمد و فشرده، منبع ارزشمندی را برای جامعه فراهم میکند. این نشان دهنده یک پیشرفت اساسی در درک سند است و امکانات جدید هیجانانگیزی را برای کاربردهای سطح سازمانی و دسترسی گستردهتر باز میکند.
مقاله و مدل را در Hugging Face بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه میرسد.