روز پنجشنبه، گروهی از محققان سرویسنو (ServiceNow) یک مدل بنیادی جدید به نام استار وکتور (StarVector) منتشر کردند که به تولید گرافیکهای برداری مقیاسپذیر (SVG) از ورودیهای متن و تصویر کمک میکند.
خوان آ. رودریگز، محقق هوش مصنوعی در ServiceNow Research، در X (توییتر سابق) از انتشار این مدل و کد آن خبر داد.
استار وکتور یک مدل زبانی بزرگ چندوجهی (MLLM) است که برای تولید گرافیکهای برداری مقیاسپذیر (SVG) از تصاویر یا دستورالعملهای متنی طراحی شده است. این مدل محدودیتهای روشهای قبلی تولید SVG را برطرف میکند که اغلب مصنوعاتی تولید میکردند و با ابتداییترین اشکال SVG فراتر از منحنیهای مسیر مشکل داشتند.
در مقاله تحقیقاتی آمده است که استار وکتور مستقیماً در فضای کد SVG کار میکند و از درک بصری برای اعمال اشکال ابتدایی SVG دقیق برای خروجیهای فشرده و دقیق استفاده میکند.
برای آموزش استار وکتور، محققان SVG-Stack، یک مجموعه داده بزرگ در مقیاس ۲ میلیون نمونه ایجاد کردند. آنها همچنین SVG-Bench را معرفی میکنند، یک معیار در ده مجموعه داده و سه کار: تبدیل تصویر به SVG، تولید متن به SVG و تولید نمودار.
معماری استار وکتور یک رمزگذار تصویر را برای طرحریزی تصاویر به توکنهای بصری و یک مدل زبانی ترانسفورماتور برای یادگیری روابط بین دستورالعملها، ویژگیهای بصری و توالیهای کد SVG ادغام میکند. این امر استار وکتور را قادر میسازد تا برداریسازی تصویر و تولید SVG مبتنی بر متن را انجام دهد و SVGهای فشردهتر و از نظر معنایی غنیتری تولید کند.
استار وکتور در مقایسه با مدلهای موجود در کارهای تبدیل تصویر به SVG و متن به SVG، عملکرد قویای از خود نشان میدهد. بر اساس نتایج معیار، این مدل از مدلهایی مانند GPT-4 Vision (2023) و Potrace بهتر عمل کرده است.
رودریگز اشاره کرد که حتی با وجود پیشرفتها در این مدل، گاهی اوقات دچار توهم میشود و جزئیات نادرستی تولید میکند. او افزود که آنها به طور فعال در تلاش هستند تا این چالشها را بهبود بخشند و برطرف کنند.
این مدل در Hugging Face در دسترس است و کد آن به صورت متنباز در GitHub تحت مجوز Apache 2.0 قرار دارد.