تصاویر با حسن نیت اجلاس مقیاس هیولای ScyllaDB.
تصاویر با حسن نیت اجلاس مقیاس هیولای ScyllaDB.

چگونه Canva فراداده‌های تصویر خود را تازه نگه می‌دارد

قبل از سال 2020، کلمه "cottagecore" تقریباً وجود نداشت. اما همه‌گیری کووید بسیاری از مردم را بر آن داشت تا خانه‌های خود را بسیار راحت‌تر کنند و عموماً زندگی ساده‌تر و روستایی‌تری را رمانتیزه کنند. این اصطلاح در اینترنت رونق گرفت و تصاویری از سبدهای پیک‌نیک پر از گل‌های خشک، اجاق‌های چدنی، کاسه‌های پر از میوه و موارد مشابه را تداعی کرد.

برای مدیران Canva، پلتفرم طراحی گرافیک، همگام شدن با چنین روندهای زبانی برای خدمت‌رسانی به پایگاه کاربری خود ضروری است. روندها باعث ایجاد تجارت می‌شوند و کسب‌وکارها نیاز به تبلیغ دارند. و به محض اینکه اصطلاح جدیدی مانند cottagecore به وجود می‌آید، طراحان گرافیک، متخصصان بازاریابی و میلیون‌ها کاربر ماهانه دیگر به Canva مراجعه می‌کنند تا تصویر عالی برای زینت دادن به وب، بازاریابی و مواد تبلیغاتی خود را پیدا کنند.

بنابراین Canva چگونه تشخیص می‌دهد که کدام تصاویر در یک دسته جدید مانند cottagecore قرار می‌گیرند؟ این شرکت یک کتابخانه با بیش از 40 میلیارد تصویر را مدیریت می‌کند - یا از خدمات عکس استوک یا به اشتراک گذاشته شده توسط کاربرانش - و روزانه بین 50 تا 100 میلیون تصویر جدید را دریافت می‌کند.

واضح است که علامت‌گذاری دستی این تصاویر مقیاس‌پذیر نخواهد بود.

کری هالپکا، مهندس اصلی یادگیری ماشین Canva، در سخنرانی خود در اجلاس مقیاس هیولای ScyllaDB در سال 2025 که هفته گذشته به صورت مجازی برگزار شد، توضیح داد: «ما به برچسب‌گذاری دقیق و بی‌درنگ در مقیاس بزرگ نیاز داریم.»

و این سیستم طبقه‌بندی می‌تواند پیچیده‌تر از آن چیزی باشد که در ابتدا تصور می‌شود.

فراتر از معنای لغوی

به عنوان مثال، عکسی از یک پدر را در نظر بگیرید که هنوز کت و شلوار تجاری خود را پوشیده است و به نظر می‌رسد با پسر جوانش در اتاق نشیمن بازی می‌کند و اسباب‌بازی‌های بچه‌گانه در کف زمین پراکنده شده‌اند.

خدمات تبدیل تصویر به متن می‌توانند به راحتی تمام اشیاء موجود در عکس را شناسایی کنند. اما این عکس همچنین می‌تواند تحت دسته‌های انتزاعی‌تری مانند «تعادل کار و زندگی» یا «پیوند پدر و پسر» یا حتی از قضا «والد حرفه‌ای» شناسایی شود.

چالش این است که هیچ یک از این مفاهیم را نمی‌توان در خود عکس شناسایی کرد.

هالپکا گفت: «این فقط در مورد شناسایی اشیاء نیست، بلکه در مورد درک زمینه و معنا است.»

و این اصطلاحات ثابت نیستند. مفاهیم جدید هر روز ظاهر می‌شوند. و این مشکلی است که هر صنعتی - نه فقط طراحی گرافیک - هنگام تلاش برای استفاده از هوش مصنوعی برای هر نوع کار طبقه‌بندی با آن روبرو است.

هالپکا توضیح داد: «مفاهیمی که برای کاربران مهم هستند ثابت نیستند. این یک هدف متحرک است، با روندهای جدیدی که هر روز ظاهر می‌شوند. بنابراین ما به مدلی نیاز داشتیم که بتواند هزاران برچسب را مدیریت کند و به راحتی به هزاران برچسب دیگر گسترش یابد تا این مفاهیم عمیق‌تر را ثبت کند.»

هالپکا گفت: «هدف ما این است که ماشین‌ها را فراتر از شناسایی اشیاء ساده سوق دهیم و به درک ظریف‌تری از انسان نزدیک‌تر کنیم.»

و با توجه به اندازه بانک تصاویر Canva، یک سیستم طبقه‌بندی باید سریع باشد. حفظ مدل‌های بیش از حد پیچیده پرهزینه خواهد بود. و باید سریع باشد تا بتواند روندهای جدید را همزمان با خود کاربران تشخیص دهد.

یک "سیستم طبقه‌بندی شدید"

برای رسیدن به این اهداف، این تیم به خارج از معماری‌های رمزگذار-رمزگشای یادگیری ماشین معمولی نگاه کرد. هالپکا گفت، معماری‌های طبقه‌بندی سنتی با تعداد برچسب‌های طبقه‌بندی، "بدتر از خطی" مقیاس می‌شوند.

نمودار مقایسه ML_decoder با روش‌های رمزگشای سنتی.
نمودار مقایسه ML_decoder با روش‌های رمزگشای سنتی.

در عوض، این تیم بر روی معماری ML-Decoder که از علی بابا و آکادمی DAMO سرچشمه می‌گیرد، فرود آمد. تیم توسعه دریافت که ML-Decoder با تعداد مفاهیم معرفی شده در سیستم "بهتر از خطی" مقیاس می‌شود، هالپکا توضیح داد.

توسعه‌دهندگان ML-Decoder در مقاله‌ای توضیح می‌دهند: «ML-Decoder وجود برچسب‌های کلاس را از طریق پرسش‌ها پیش‌بینی می‌کند و در مقایسه با جمع‌آوری میانگین جهانی، استفاده بهتری از داده‌های مکانی را امکان‌پذیر می‌کند. با طراحی مجدد معماری رمزگشا و استفاده از طرح رمزگشایی گروهی جدید، ML-Decoder بسیار کارآمد است و می‌تواند به خوبی به هزاران کلاس مقیاس یابد.»

یک خط لوله برچسب‌گذاری داده تعاملی

آموزش یک اصطلاح کاملاً جدید - مانند cottagecore - به نمونه‌های آموزشی نیاز دارد، و ترجیحاً بدون برچسب‌گذاری دستی هزاران تصویر از قبل.

بنابراین این شرکت یک خط لوله برچسب‌گذاری داده تعاملی برای تعریف مفاهیم جدید ایجاد کرد. هنگامی که یک مفهوم جدید شناسایی می‌شود ("cottagecore")، خط لوله تصاویری را که با استفاده از ترکیبی از جستجوی مبتنی بر متن و مبتنی بر تصویر در یک مجموعه آموزشی کوچک، مطابقت نزدیکی دارند، پیدا می‌کند. سپس کل بانک تصاویر بررسی می‌شود. در بسیاری از موارد، تصاویر برچسب‌گذاری نشده قبلی با اصطلاح جدید برچسب‌گذاری می‌شوند. و در موارد دیگر، تصاویر از قبل برچسب‌گذاری شده نیز برای اصطلاح جدید مناسب خواهند بود.

تصویر صفحه برای برچسب‌گذاری داده.
کری هالپکا توضیح داد: «این یک حلقه بازخورد است. هر مفهوم جدید، توانایی ما را برای طبقه‌بندی دقیق‌تر تصاویر در طول زمان گسترش می‌دهد.»

برای کمک به زمینه‌سازی یک اصطلاح جستجوی واحد، Canva از یک مدل زبان بزرگ برای تولید توصیفات مفصل‌تر از یک عبارت واحد استفاده می‌کند.

به عنوان مثال, "Cottagecore" می‌تواند تولید کند:

  • "یک آشپزخانه دنج مزرعه"
  • "یک زن جوان با گل‌های وحشی"
  • "پیک نیک در جنگل"

هالپکا گفت، اگرچه کمتر واضح است، اما اینها همه انواع تصاویری هستند که همچنان انتظار می‌رود با برچسب "cottagecore" ببینید.

برای یافتن تصاویری که با این توصیفات مفصل‌تر مطابقت دارند، Canva از CLIP (Contrastive Language-Image Pretraining) استفاده می‌کند، یک شبکه عصبی مبتنی بر پایتون که برای یافتن جفت‌های تصویر/متن در یک فضای مشترک آموزش دیده است.

هالپکا توضیح داد: «از آنجایی که CLIP مفاهیم را طبیعی‌تر از تطبیق کلمات کلیدی سنتی درک می‌کند، می‌تواند مثال‌ها را حتی زمانی که به صراحت برچسب‌گذاری نشده‌اند، پیدا کند.»

بنابراین عبارتی مانند "آشپزخانه دنج کلبه، با دکوراسیون قدیمی", ممکن است تصاویری را نشان دهد که با این توصیف مطابقت دارند اما قبلاً به عنوان "cottagecore" علامت‌گذاری نشده بودند، اما از طریق نزدیک‌ترین بردارهای منطبق، با آن زیبایی‌شناسی مطابقت دارند.

هنگامی که برچسب‌های جدید به مدل معرفی می‌شوند، همچنان به عنوان "اعتماد به نفس پایین" رتبه‌بندی می‌شوند، بنابراین می‌توانند توسط VisualCritic LLM برای تأیید بیشتر برچسب مورد بررسی قرار گیرند.

هالپکا گفت: «نتیجه یک مجموعه آموزشی است که به طور مداوم بهبود می‌یابد و با محتوا و واژگان در حال تحول همگام است و می‌توان از آن برای آموزش مدل‌های کوچک و کارآمدی که می‌توانند در مقیاس بزرگ اجرا شوند، استفاده کرد.»

«قدرت این رویکرد این است که هم مقیاس‌پذیر است و هم قابل نگهداری. وقتی نیاز داریم مفاهیم جدیدی اضافه کنیم، چه امروز cottagecore باشد یا هر روندی که فردا ظهور کند، این خط لوله خودکار می‌تواند نمونه‌های متنوع و دقیق برچسب‌گذاری شده را بدون تلاش دستی گسترده پیدا کند. از آنجایی که هر مرحله برای کیفیت بهینه شده است. ما می‌توانیم دقت بالایی را حتی در مقیاس بسیار بزرگ حفظ کنیم.»

مشاهده ارائه کامل در اینجا: