نمادی که هوش مصنوعی را نشان می‌دهد
نمادی که هوش مصنوعی را نشان می‌دهد

تصاویر تولید شده توسط ChatGPT به سبک استودیو جیبلی، قدرت خلاقانه آن را نشان می‌دهند - اما مشکلات جدید حق چاپ را مطرح می‌کنند

رسانه‌های اجتماعی اخیراً پر از تصاویری شده‌اند که به نظر می‌رسد متعلق به فیلمی از استودیو جیبلی (Studio Ghibli) هستند. عکس‌های سلفی، عکس‌های خانوادگی و حتی میم‌ها با پالت رنگی پاستلی ملایم که مشخصه شرکت انیمیشن ژاپنی تأسیس شده توسط هایائو میازاکی (Hayao Miyazaki) است، دوباره تصور شده‌اند.

این اتفاق پس از آخرین به‌روزرسانی OpenAI در ChatGPT رخ داد. این به‌روزرسانی قابلیت‌های تولید تصویر ChatGPT را به طور قابل توجهی بهبود بخشیده و به کاربران امکان می‌دهد تا تصاویر قانع‌کننده به سبک جیبلی را در عرض چند ثانیه ایجاد کنند. این بسیار محبوب شده است - آنقدر که سیستم به دلیل تقاضای کاربران دچار اختلال شد.

سیستم‌های هوش مصنوعی (AI) مولد مانند ChatGPT به بهترین وجه به عنوان "موتورهای سبک" درک می‌شوند. و آنچه اکنون شاهد آن هستیم این است که این سیستم‌ها دقت و کنترل بیشتری را نسبت به همیشه به کاربران ارائه می‌دهند.

اما این امر سؤالات کاملاً جدیدی را در مورد حق چاپ و مالکیت خلاقانه نیز مطرح می‌کند.

ChatGPT جدید چگونه تصاویر می‌سازد

برنامه‌های هوش مصنوعی مولد با تولید خروجی در پاسخ به درخواست‌های کاربر، از جمله درخواست برای ایجاد یک تصویر، کار می‌کنند.

نسل‌های قبلی تولیدکننده‌های تصویر هوش مصنوعی از مدل‌های انتشار (diffusion models) استفاده می‌کردند. این مدل‌ها به تدریج داده‌های تصادفی و پر سر و صدا را به یک تصویر منسجم تبدیل می‌کنند. اما آخرین به‌روزرسانی ChatGPT از الگوریتمی به نام "الگوریتم خودبازگشتی" (autoregressive algorithm) استفاده می‌کند.

این الگوریتم با تصاویر بیشتر شبیه زبان رفتار می‌کند و آنها را به "توکن" (token) تجزیه می‌کند. همانطور که ChatGPT محتمل‌ترین کلمات را در یک جمله پیش‌بینی می‌کند، اکنون می‌تواند عناصر بصری مختلف را در یک تصویر به طور جداگانه پیش‌بینی کند.

این توکن‌سازی به الگوریتم امکان می‌دهد تا ویژگی‌های خاص یک تصویر و رابطه آنها با کلمات در یک درخواست را بهتر جدا کند. در نتیجه، ChatGPT می‌تواند تصاویر را با دقت بیشتری از درخواست‌های دقیق کاربر نسبت به نسل‌های قبلی تولیدکننده‌های تصویر ایجاد کند. این می‌تواند ویژگی‌های خاص را جایگزین یا تغییر دهد در حالی که بقیه تصویر را حفظ می‌کند و مشکل دیرینه تولید متن صحیح در تصاویر را بهبود می‌بخشد.

یکی از مزایای ویژه تولید تصاویر در داخل یک مدل زبانی بزرگ، توانایی استفاده از تمام دانش رمزگذاری شده در سیستم است. این بدان معناست که کاربران نیازی ندارند هر جنبه از یک تصویر را با جزئیات دقیق شرح دهند. آنها می‌توانند به سادگی به مفاهیمی مانند استودیو جیبلی اشاره کنند و هوش مصنوعی این ارجاع را درک می‌کند.

روند اخیر استودیو جیبلی با خود OpenAI آغاز شد، قبل از اینکه در بین مهندسان نرم‌افزار سیلیکون ولی و سپس حتی دولت‌ها و سیاستمداران گسترش یابد - از جمله کاربردهای ظاهراً غیرمحتمل مانند کاخ سفید که تصویری جیبلی‌شده (Ghiblified image) از یک زن گریان در حال تبعید ایجاد کرد و دولت هند روایتی از نخست‌وزیر نارندرا مودی (Narendra Modi) از "هند جدید" را ترویج می‌کند.

درک هوش مصنوعی به عنوان "موتورهای سبک"

سیستم‌های هوش مصنوعی مولد اطلاعات را به هیچ وجه به معنای سنتی ذخیره نمی‌کنند. در عوض، آنها متن، حقایق یا قطعات تصویر را به عنوان الگوها - یا "سبک‌ها" - در شبکه‌های عصبی خود رمزگذاری می‌کنند.

مدل‌های هوش مصنوعی که بر روی مقادیر زیادی از داده‌ها آموزش داده شده‌اند، یاد می‌گیرند که الگوها را در سطوح مختلف تشخیص دهند. لایه‌های پایین‌تر شبکه ممکن است ویژگی‌های اساسی مانند روابط کلمه یا بافت‌های بصری را ثبت کنند. لایه‌های بالاتر مفاهیم پیچیده‌تر یا عناصر بصری را رمزگذاری می‌کنند.

این بدان معناست که همه چیز - اشیاء، خواص، ژانرهای نوشتن، صداهای حرفه‌ای - به سبک‌ها تبدیل می‌شوند. وقتی هوش مصنوعی در مورد کار میازاکی یاد می‌گیرد، فریم‌های واقعی استودیو جیبلی را ذخیره نمی‌کند (اگرچه تولیدکننده‌های تصویر ممکن است گاهی اوقات تقلیدهای نزدیکی از تصاویر ورودی تولید کنند). در عوض، "جیبلی بودن" (Ghibli-ness) را به عنوان یک الگوی ریاضی رمزگذاری می‌کند - سبکی که می‌توان آن را به تصاویر جدید اعمال کرد.

همین اتفاق برای موزها، گربه‌ها یا ایمیل‌های شرکتی می‌افتد. هوش مصنوعی "موز بودن" (banana-ness)، "گربه بودن" (cat-ness) یا "ایمیل شرکتی بودن" (corporate email-ness) را یاد می‌گیرد - الگوهایی که تعریف می‌کنند چه چیزی چیزی را به طور قابل تشخیصی یک موز، گربه یا یک ارتباط حرفه‌ای می‌سازد.

رمزگذاری و انتقال سبک‌ها مدت‌هاست که یک هدف صریح در هوش مصنوعی بصری بوده است. اکنون ما یک تولیدکننده تصویر داریم که این کار را با مقیاس و کنترل بی‌سابقه‌ای انجام می‌دهد.

این رویکرد امکانات خلاقانه قابل توجهی را در متن و تصاویر باز می‌کند. اگر همه چیز یک سبک است، پس این سبک‌ها می‌توانند آزادانه ترکیب و منتقل شوند. به همین دلیل است که ما به این سیستم‌ها "موتورهای سبک" می‌گوییم. سعی کنید یک صندلی راحتی را در سبک یک گربه یا به سبک الفی ایجاد کنید.

بحث و جدل در مورد حق چاپ: چه زمانی سبک‌ها به هویت تبدیل می‌شوند

در حالی که توانایی کار با سبک‌ها چیزی است که هوش مصنوعی مولد را بسیار قدرتمند می‌کند، اما در قلب بحث و جدل فزاینده نیز قرار دارد. برای بسیاری از هنرمندان، دیدن رویکردهای هنری متمایز آنها که به سادگی به "سبک" دیگری تقلیل می‌یابد که هر کسی می‌تواند با یک درخواست متنی ساده اعمال کند، چیزی عمیقاً ناراحت‌کننده است.

هایائو میازاکی (Hayao Miyazaki) هنوز به طور عمومی در مورد روند اخیر استفاده مردم از ChatGPT برای تولید تصاویر به سبک انیمیشن مشهور جهان خود اظهار نظر نکرده است. اما او قبلاً از هوش مصنوعی انتقاد کرده است.

همه اینها سؤالات کاملاً جدیدی را در مورد حق چاپ و مالکیت خلاقانه نیز مطرح می‌کند.

به طور سنتی، قانون حق چاپ از سبک‌ها محافظت نمی‌کند - فقط از عبارات خاص محافظت می‌کند. شما نمی‌توانید یک ژانر موسیقی مانند "ska" یا یک جنبش هنری مانند "امپرسیونیسم" را حق چاپ کنید.

این محدودیت به دلیل خوبی وجود دارد. اگر کسی بتواند یک سبک کامل را انحصاری کند، بیان خلاقانه را برای همه دیگران خفه می‌کند.

اما تفاوتی بین سبک‌های عمومی و سبک‌های بسیار متمایزی وجود دارد که تقریباً مترادف با هویت کسی می‌شوند. وقتی هوش مصنوعی می‌تواند اثری را "به سبک گرگ روتکوفسکی" (Greg Rutkowski) تولید کند - یک هنرمند لهستانی که نامش طبق گزارش‌ها در بیش از 93000 درخواست در تولیدکننده تصویر هوش مصنوعی Stable Diffusion استفاده شده است - این به طور بالقوه هم معیشت و هم میراث هنری او را تهدید می‌کند.

برخی از سازندگان قبلاً اقدام قانونی انجام داده‌اند.

در پرونده‌ای که در اواخر سال 2022 تشکیل شد، سه هنرمند کلاسی را تشکیل دادند تا از چندین شرکت هوش مصنوعی شکایت کنند و استدلال کنند که ژنراتورهای تصویر آنها بر روی آثار اصلی آنها بدون اجازه آموزش داده شده‌اند و اکنون به کاربران اجازه می‌دهند تا آثار مشتق شده‌ای را تولید کنند که از سبک‌های متمایز آنها تقلید می‌کنند.

از آنجایی که فناوری سریع‌تر از قانون تکامل می‌یابد، کار بر روی قانون جدید برای تلاش برای ایجاد تعادل بین نوآوری فناوری و حمایت از هویت‌های خلاقانه هنرمندان در حال انجام است.

هر نتیجه‌ای که داشته باشد، این بحث‌ها ماهیت دگرگون‌کننده موتورهای سبک هوش مصنوعی را برجسته می‌کند - و نیاز به در نظر گرفتن پتانسیل خلاقانه استفاده نشده آنها و حمایت‌های ظریف‌تر از سبک‌های هنری متمایز را نشان می‌دهد.The Conversation