قبل از سال 2020، کلمه "cottagecore" تقریباً وجود نداشت. اما همهگیری کووید بسیاری از مردم را بر آن داشت تا خانههای خود را بسیار راحتتر کنند و عموماً زندگی سادهتر و روستاییتری را رمانتیزه کنند. این اصطلاح در اینترنت رونق گرفت و تصاویری از سبدهای پیکنیک پر از گلهای خشک، اجاقهای چدنی، کاسههای پر از میوه و موارد مشابه را تداعی کرد.
برای مدیران Canva، پلتفرم طراحی گرافیک، همگام شدن با چنین روندهای زبانی برای خدمترسانی به پایگاه کاربری خود ضروری است. روندها باعث ایجاد تجارت میشوند و کسبوکارها نیاز به تبلیغ دارند. و به محض اینکه اصطلاح جدیدی مانند cottagecore به وجود میآید، طراحان گرافیک، متخصصان بازاریابی و میلیونها کاربر ماهانه دیگر به Canva مراجعه میکنند تا تصویر عالی برای زینت دادن به وب، بازاریابی و مواد تبلیغاتی خود را پیدا کنند.
بنابراین Canva چگونه تشخیص میدهد که کدام تصاویر در یک دسته جدید مانند cottagecore قرار میگیرند؟ این شرکت یک کتابخانه با بیش از 40 میلیارد تصویر را مدیریت میکند - یا از خدمات عکس استوک یا به اشتراک گذاشته شده توسط کاربرانش - و روزانه بین 50 تا 100 میلیون تصویر جدید را دریافت میکند.
واضح است که علامتگذاری دستی این تصاویر مقیاسپذیر نخواهد بود.
کری هالپکا، مهندس اصلی یادگیری ماشین Canva، در سخنرانی خود در اجلاس مقیاس هیولای ScyllaDB در سال 2025 که هفته گذشته به صورت مجازی برگزار شد، توضیح داد: «ما به برچسبگذاری دقیق و بیدرنگ در مقیاس بزرگ نیاز داریم.»
و این سیستم طبقهبندی میتواند پیچیدهتر از آن چیزی باشد که در ابتدا تصور میشود.
فراتر از معنای لغوی
به عنوان مثال، عکسی از یک پدر را در نظر بگیرید که هنوز کت و شلوار تجاری خود را پوشیده است و به نظر میرسد با پسر جوانش در اتاق نشیمن بازی میکند و اسباببازیهای بچهگانه در کف زمین پراکنده شدهاند.
خدمات تبدیل تصویر به متن میتوانند به راحتی تمام اشیاء موجود در عکس را شناسایی کنند. اما این عکس همچنین میتواند تحت دستههای انتزاعیتری مانند «تعادل کار و زندگی» یا «پیوند پدر و پسر» یا حتی از قضا «والد حرفهای» شناسایی شود.
چالش این است که هیچ یک از این مفاهیم را نمیتوان در خود عکس شناسایی کرد.
هالپکا گفت: «این فقط در مورد شناسایی اشیاء نیست، بلکه در مورد درک زمینه و معنا است.»
و این اصطلاحات ثابت نیستند. مفاهیم جدید هر روز ظاهر میشوند. و این مشکلی است که هر صنعتی - نه فقط طراحی گرافیک - هنگام تلاش برای استفاده از هوش مصنوعی برای هر نوع کار طبقهبندی با آن روبرو است.
هالپکا توضیح داد: «مفاهیمی که برای کاربران مهم هستند ثابت نیستند. این یک هدف متحرک است، با روندهای جدیدی که هر روز ظاهر میشوند. بنابراین ما به مدلی نیاز داشتیم که بتواند هزاران برچسب را مدیریت کند و به راحتی به هزاران برچسب دیگر گسترش یابد تا این مفاهیم عمیقتر را ثبت کند.»
هالپکا گفت: «هدف ما این است که ماشینها را فراتر از شناسایی اشیاء ساده سوق دهیم و به درک ظریفتری از انسان نزدیکتر کنیم.»
و با توجه به اندازه بانک تصاویر Canva، یک سیستم طبقهبندی باید سریع باشد. حفظ مدلهای بیش از حد پیچیده پرهزینه خواهد بود. و باید سریع باشد تا بتواند روندهای جدید را همزمان با خود کاربران تشخیص دهد.
یک "سیستم طبقهبندی شدید"
برای رسیدن به این اهداف، این تیم به خارج از معماریهای رمزگذار-رمزگشای یادگیری ماشین معمولی نگاه کرد. هالپکا گفت، معماریهای طبقهبندی سنتی با تعداد برچسبهای طبقهبندی، "بدتر از خطی" مقیاس میشوند.
در عوض، این تیم بر روی معماری ML-Decoder که از علی بابا و آکادمی DAMO سرچشمه میگیرد، فرود آمد. تیم توسعه دریافت که ML-Decoder با تعداد مفاهیم معرفی شده در سیستم "بهتر از خطی" مقیاس میشود، هالپکا توضیح داد.
توسعهدهندگان ML-Decoder در مقالهای توضیح میدهند: «ML-Decoder وجود برچسبهای کلاس را از طریق پرسشها پیشبینی میکند و در مقایسه با جمعآوری میانگین جهانی، استفاده بهتری از دادههای مکانی را امکانپذیر میکند. با طراحی مجدد معماری رمزگشا و استفاده از طرح رمزگشایی گروهی جدید، ML-Decoder بسیار کارآمد است و میتواند به خوبی به هزاران کلاس مقیاس یابد.»
یک خط لوله برچسبگذاری داده تعاملی
آموزش یک اصطلاح کاملاً جدید - مانند cottagecore - به نمونههای آموزشی نیاز دارد، و ترجیحاً بدون برچسبگذاری دستی هزاران تصویر از قبل.
بنابراین این شرکت یک خط لوله برچسبگذاری داده تعاملی برای تعریف مفاهیم جدید ایجاد کرد. هنگامی که یک مفهوم جدید شناسایی میشود ("cottagecore")، خط لوله تصاویری را که با استفاده از ترکیبی از جستجوی مبتنی بر متن و مبتنی بر تصویر در یک مجموعه آموزشی کوچک، مطابقت نزدیکی دارند، پیدا میکند. سپس کل بانک تصاویر بررسی میشود. در بسیاری از موارد، تصاویر برچسبگذاری نشده قبلی با اصطلاح جدید برچسبگذاری میشوند. و در موارد دیگر، تصاویر از قبل برچسبگذاری شده نیز برای اصطلاح جدید مناسب خواهند بود.
برای کمک به زمینهسازی یک اصطلاح جستجوی واحد، Canva از یک مدل زبان بزرگ برای تولید توصیفات مفصلتر از یک عبارت واحد استفاده میکند.
به عنوان مثال, "Cottagecore" میتواند تولید کند:
- "یک آشپزخانه دنج مزرعه"
- "یک زن جوان با گلهای وحشی"
- "پیک نیک در جنگل"
هالپکا گفت، اگرچه کمتر واضح است، اما اینها همه انواع تصاویری هستند که همچنان انتظار میرود با برچسب "cottagecore" ببینید.
برای یافتن تصاویری که با این توصیفات مفصلتر مطابقت دارند، Canva از CLIP (Contrastive Language-Image Pretraining) استفاده میکند، یک شبکه عصبی مبتنی بر پایتون که برای یافتن جفتهای تصویر/متن در یک فضای مشترک آموزش دیده است.
هالپکا توضیح داد: «از آنجایی که CLIP مفاهیم را طبیعیتر از تطبیق کلمات کلیدی سنتی درک میکند، میتواند مثالها را حتی زمانی که به صراحت برچسبگذاری نشدهاند، پیدا کند.»
بنابراین عبارتی مانند "آشپزخانه دنج کلبه، با دکوراسیون قدیمی", ممکن است تصاویری را نشان دهد که با این توصیف مطابقت دارند اما قبلاً به عنوان "cottagecore" علامتگذاری نشده بودند، اما از طریق نزدیکترین بردارهای منطبق، با آن زیباییشناسی مطابقت دارند.
هنگامی که برچسبهای جدید به مدل معرفی میشوند، همچنان به عنوان "اعتماد به نفس پایین" رتبهبندی میشوند، بنابراین میتوانند توسط VisualCritic LLM برای تأیید بیشتر برچسب مورد بررسی قرار گیرند.
هالپکا گفت: «نتیجه یک مجموعه آموزشی است که به طور مداوم بهبود مییابد و با محتوا و واژگان در حال تحول همگام است و میتوان از آن برای آموزش مدلهای کوچک و کارآمدی که میتوانند در مقیاس بزرگ اجرا شوند، استفاده کرد.»
«قدرت این رویکرد این است که هم مقیاسپذیر است و هم قابل نگهداری. وقتی نیاز داریم مفاهیم جدیدی اضافه کنیم، چه امروز cottagecore باشد یا هر روندی که فردا ظهور کند، این خط لوله خودکار میتواند نمونههای متنوع و دقیق برچسبگذاری شده را بدون تلاش دستی گسترده پیدا کند. از آنجایی که هر مرحله برای کیفیت بهینه شده است. ما میتوانیم دقت بالایی را حتی در مقیاس بسیار بزرگ حفظ کنیم.»
مشاهده ارائه کامل در اینجا: