تیمی از محققان هنگ کنگی و بریتانیایی روش جدیدی را برای تبدیل تصاویر به بازنماییهای دیجیتالی - که به عنوان توکن نیز شناخته میشوند - با استفاده از یک ساختار سلسله مراتبی معرفی کردهاند که برای ثبت اطلاعات بصری ضروری به صورت فشردهتر و دقیقتر طراحی شده است.
برخلاف رویکردهای مرسوم که اطلاعات تصویر را به طور مساوی در تمام توکنها توزیع میکنند، این روش توکنها را به صورت سلسله مراتبی مرتب میکند. اولین توکنها ویژگیهای بصری سطح بالا، مانند اشکال گسترده و عناصر ساختاری را رمزگذاری میکنند، در حالی که توکنهای بعدی جزئیات دقیقتری را اضافه میکنند تا تصویر کامل نمایش داده شود.
این استراتژی از ایده اصلی پشت تحلیل مولفه اصلی (principal component analysis)، یک تکنیک آماری که در آن دادهها به مولفههایی تقسیم میشوند که واریانس را به ترتیب نزولی توضیح میدهند، استفاده میکند. محققان اصل مشابهی را برای توکنایز کردن تصویر به کار بردند و در نتیجه بازنمایی ایجاد شد که هم فشرده و هم قابل تفسیر است.
یکی از نوآوریهای کلیدی، جداسازی محتوای معنایی از جزئیات تصویر سطح پایین است. در روشهای قبلی، این نوع اطلاعات اغلب درهم تنیده میشدند و تفسیر بازنماییهای آموخته شده را دشوار میکردند. روش جدید با استفاده از یک رمزگشای مبتنی بر انتشار (diffusion-based decoder) که تصویر را به تدریج، از اشکال درشت شروع و به بافتهای ظریف پیش میرود، این مشکل را برطرف میکند. این امر به توکنها اجازه میدهد تا بر اطلاعات معنادار معنایی تمرکز کنند در حالی که بافتهای دقیق را به طور جداگانه در نظر میگیرند.
رویکرد کیفیت بازسازی را بهبود میبخشد
به گفته محققان، این روش سلسله مراتبی کیفیت بازسازی تصویر - شباهت بین تصویر اصلی و نسخه توکنایز شده آن - را در مقایسه با تکنیکهای پیشرفته قبلی، تقریبا 10 درصد بهبود میبخشد.
همچنین با استفاده از توکنهای به طور قابل توجهی کمتری به نتایج قابل مقایسه دست مییابد. در کارهای پایین دستی مانند طبقهبندی تصویر، این روش عملکرد بهتری نسبت به رویکردهای قبلی که به توکنایز کردن مرسوم متکی هستند، داشته است.
محققان خاطرنشان میکنند که ساختار سلسله مراتبی نحوه پردازش ورودی بصری توسط مغز انسان را منعکس میکند - از طرحهای کلی درشت تا ویژگیهای دقیقتر. طبق این مطالعه، این همسویی با مکانیسمهای ادراکی ممکن است مسیرهای جدیدی را برای توسعه سیستمهای هوش مصنوعی برای تجزیه و تحلیل و تولید تصویر باز کند که با شناخت بصری انسان هماهنگتر هستند.
بهبود قابلیت تفسیر و کارایی در سیستمهای هوش مصنوعی
روش جدید میتواند به درک آسانتر سیستمهای هوش مصنوعی کمک کند. با جداسازی محتوای معنایی از جزئیات بصری، بازنماییهای آموخته شده قابل تفسیرتر میشوند، که ممکن است توضیح اینکه چگونه سیستم به تصمیمات خود میرسد را سادهتر کند. در عین حال، ساختار فشرده امکان پردازش سریعتر و کاهش نیازهای ذخیرهسازی را فراهم میکند.
محققان این رویکرد را گامی مهم در جهت پردازش تصویر میدانند که نزدیکتر به ادراک انسان است، اما همچنین جایی برای بهبود میبینند. کار آینده بر روی پالایش این تکنیک و به کارگیری آن در طیف وسیعتری از وظایف متمرکز خواهد بود.
توکنایز کردن همچنان یک جزء اصلی در هر دو مدل تصویر و زبان است. استراتژیهای جدیدی برای رمزگذاری دیجیتالی بخشهای متن نیز در حال ظهور هستند و برخی از محققان معتقدند که اینها میتوانند منجر به مدلهای زبانی پیشرفتهتری در آینده شوند.