تصویرسازی از نالینی نیراد
تصویرسازی از نالینی نیراد

محققان سرویس‌نو مدل بنیادی برای تولید SVG از متن و ویدیو منتشر کردند

روز پنج‌شنبه، گروهی از محققان سرویس‌نو (ServiceNow) یک مدل بنیادی جدید به نام استار وکتور (StarVector) منتشر کردند که به تولید گرافیک‌های برداری مقیاس‌پذیر (SVG) از ورودی‌های متن و تصویر کمک می‌کند.

خوان آ. رودریگز، محقق هوش مصنوعی در ServiceNow Research، در X (توییتر سابق) از انتشار این مدل و کد آن خبر داد.

استار وکتور یک مدل زبانی بزرگ چندوجهی (MLLM) است که برای تولید گرافیک‌های برداری مقیاس‌پذیر (SVG) از تصاویر یا دستورالعمل‌های متنی طراحی شده است. این مدل محدودیت‌های روش‌های قبلی تولید SVG را برطرف می‌کند که اغلب مصنوعاتی تولید می‌کردند و با ابتدایی‌ترین اشکال SVG فراتر از منحنی‌های مسیر مشکل داشتند.

در مقاله تحقیقاتی آمده است که استار وکتور مستقیماً در فضای کد SVG کار می‌کند و از درک بصری برای اعمال اشکال ابتدایی SVG دقیق برای خروجی‌های فشرده و دقیق استفاده می‌کند.

برای آموزش استار وکتور، محققان SVG-Stack، یک مجموعه داده بزرگ در مقیاس ۲ میلیون نمونه ایجاد کردند. آن‌ها همچنین SVG-Bench را معرفی می‌کنند، یک معیار در ده مجموعه داده و سه کار: تبدیل تصویر به SVG، تولید متن به SVG و تولید نمودار.

معماری استار وکتور یک رمزگذار تصویر را برای طرح‌ریزی تصاویر به توکن‌های بصری و یک مدل زبانی ترانسفورماتور برای یادگیری روابط بین دستورالعمل‌ها، ویژگی‌های بصری و توالی‌های کد SVG ادغام می‌کند. این امر استار وکتور را قادر می‌سازد تا برداری‌سازی تصویر و تولید SVG مبتنی بر متن را انجام دهد و SVGهای فشرده‌تر و از نظر معنایی غنی‌تری تولید کند.

استار وکتور در مقایسه با مدل‌های موجود در کارهای تبدیل تصویر به SVG و متن به SVG، عملکرد قوی‌ای از خود نشان می‌دهد. بر اساس نتایج معیار، این مدل از مدل‌هایی مانند GPT-4 Vision (2023) و Potrace بهتر عمل کرده است.

رودریگز اشاره کرد که حتی با وجود پیشرفت‌ها در این مدل، گاهی اوقات دچار توهم می‌شود و جزئیات نادرستی تولید می‌کند. او افزود که آن‌ها به طور فعال در تلاش هستند تا این چالش‌ها را بهبود بخشند و برطرف کنند.

این مدل در Hugging Face در دسترس است و کد آن به صورت متن‌باز در GitHub تحت مجوز Apache 2.0 قرار دارد.