محققان روشی فشرده‌تر و قابل تفسیرتر برای توکنایز کردن تصاویر طراحی کردند

نمودار: معماری برای بازسازی تصویر با استفاده از یک ترانسفورماتور دید علی به عنوان رمزگذار و یک ترانسفورماتور تفسیر گسسته به عنوان رمزگشا، که از داده‌های تصویر RGB و متن به عنوان ورودی استفاده می‌کنند.
روش توکنایز کردن، محتوای معنایی را در اولویت قرار می‌دهد، به طوری که توکن‌های اولیه مهم‌ترین اطلاعات بصری را رمزگذاری می‌کنند. | تصویر: Wen et al.

تیمی از محققان هنگ کنگی و بریتانیایی روش جدیدی را برای تبدیل تصاویر به بازنمایی‌های دیجیتالی - که به عنوان توکن نیز شناخته می‌شوند - با استفاده از یک ساختار سلسله مراتبی معرفی کرده‌اند که برای ثبت اطلاعات بصری ضروری به صورت فشرده‌تر و دقیق‌تر طراحی شده است.

برخلاف رویکردهای مرسوم که اطلاعات تصویر را به طور مساوی در تمام توکن‌ها توزیع می‌کنند، این روش توکن‌ها را به صورت سلسله مراتبی مرتب می‌کند. اولین توکن‌ها ویژگی‌های بصری سطح بالا، مانند اشکال گسترده و عناصر ساختاری را رمزگذاری می‌کنند، در حالی که توکن‌های بعدی جزئیات دقیق‌تری را اضافه می‌کنند تا تصویر کامل نمایش داده شود.

ماتریس مقایسه: بازسازی گام به گام تصویر از سه صحنه (طبیعت بی جان، منظره شهری، مرتع) با افزایش تعداد توکن‌ها از 1 به 256.
برخلاف رویکردهای سنتی، این سیستم خروجی‌های منسجمی را با حداقل توکن تولید می‌کند، به تدریج از اشکال اساسی با استفاده از یک توکن تا بازسازی‌های دقیق با 256 توکن پالایش می‌شود. | تصویر: Wen et al.

این استراتژی از ایده اصلی پشت تحلیل مولفه اصلی (principal component analysis)، یک تکنیک آماری که در آن داده‌ها به مولفه‌هایی تقسیم می‌شوند که واریانس را به ترتیب نزولی توضیح می‌دهند، استفاده می‌کند. محققان اصل مشابهی را برای توکنایز کردن تصویر به کار بردند و در نتیجه بازنمایی ایجاد شد که هم فشرده و هم قابل تفسیر است.

یکی از نوآوری‌های کلیدی، جداسازی محتوای معنایی از جزئیات تصویر سطح پایین است. در روش‌های قبلی، این نوع اطلاعات اغلب درهم تنیده می‌شدند و تفسیر بازنمایی‌های آموخته شده را دشوار می‌کردند. روش جدید با استفاده از یک رمزگشای مبتنی بر انتشار (diffusion-based decoder) که تصویر را به تدریج، از اشکال درشت شروع و به بافت‌های ظریف پیش می‌رود، این مشکل را برطرف می‌کند. این امر به توکن‌ها اجازه می‌دهد تا بر اطلاعات معنادار معنایی تمرکز کنند در حالی که بافت‌های دقیق را به طور جداگانه در نظر می‌گیرند.

رویکرد کیفیت بازسازی را بهبود می‌بخشد

به گفته محققان، این روش سلسله مراتبی کیفیت بازسازی تصویر - شباهت بین تصویر اصلی و نسخه توکنایز شده آن - را در مقایسه با تکنیک‌های پیشرفته قبلی، تقریبا 10 درصد بهبود می‌بخشد.

همچنین با استفاده از توکن‌های به طور قابل توجهی کمتری به نتایج قابل مقایسه دست می‌یابد. در کارهای پایین دستی مانند طبقه‌بندی تصویر، این روش عملکرد بهتری نسبت به رویکردهای قبلی که به توکنایز کردن مرسوم متکی هستند، داشته است.

سری تصاویر با طیف فرکانس: بازسازی‌های با جزئیات فزاینده از یک تصویر با نمودارهای توان فرکانس مربوطه برای نشان دادن جفت شدن معنایی-طیفی.
با افزایش تعداد توکن‌ها از چپ به راست، بازسازی تصویر دقیق‌تر می‌شود - اگرچه روش جدید با توکن‌های کمتری به کیفیت بالاتری دست می‌یابد. | تصویر: Wen et al.

محققان خاطرنشان می‌کنند که ساختار سلسله مراتبی نحوه پردازش ورودی بصری توسط مغز انسان را منعکس می‌کند - از طرح‌های کلی درشت تا ویژگی‌های دقیق‌تر. طبق این مطالعه، این همسویی با مکانیسم‌های ادراکی ممکن است مسیرهای جدیدی را برای توسعه سیستم‌های هوش مصنوعی برای تجزیه و تحلیل و تولید تصویر باز کند که با شناخت بصری انسان هماهنگ‌تر هستند.

بهبود قابلیت تفسیر و کارایی در سیستم‌های هوش مصنوعی

روش جدید می‌تواند به درک آسان‌تر سیستم‌های هوش مصنوعی کمک کند. با جداسازی محتوای معنایی از جزئیات بصری، بازنمایی‌های آموخته شده قابل تفسیرتر می‌شوند، که ممکن است توضیح اینکه چگونه سیستم به تصمیمات خود می‌رسد را ساده‌تر کند. در عین حال، ساختار فشرده امکان پردازش سریع‌تر و کاهش نیازهای ذخیره‌سازی را فراهم می‌کند.

محققان این رویکرد را گامی مهم در جهت پردازش تصویر می‌دانند که نزدیک‌تر به ادراک انسان است، اما همچنین جایی برای بهبود می‌بینند. کار آینده بر روی پالایش این تکنیک و به کارگیری آن در طیف وسیع‌تری از وظایف متمرکز خواهد بود.

توکنایز کردن همچنان یک جزء اصلی در هر دو مدل تصویر و زبان است. استراتژی‌های جدیدی برای رمزگذاری دیجیتالی بخش‌های متن نیز در حال ظهور هستند و برخی از محققان معتقدند که اینها می‌توانند منجر به مدل‌های زبانی پیشرفته‌تری در آینده شوند.