رسانههای اجتماعی اخیراً پر از تصاویری شدهاند که به نظر میرسد متعلق به فیلمی از استودیو جیبلی (Studio Ghibli) هستند. عکسهای سلفی، عکسهای خانوادگی و حتی میمها با پالت رنگی پاستلی ملایم که مشخصه شرکت انیمیشن ژاپنی تأسیس شده توسط هایائو میازاکی (Hayao Miyazaki) است، دوباره تصور شدهاند.
این اتفاق پس از آخرین بهروزرسانی OpenAI در ChatGPT رخ داد. این بهروزرسانی قابلیتهای تولید تصویر ChatGPT را به طور قابل توجهی بهبود بخشیده و به کاربران امکان میدهد تا تصاویر قانعکننده به سبک جیبلی را در عرض چند ثانیه ایجاد کنند. این بسیار محبوب شده است - آنقدر که سیستم به دلیل تقاضای کاربران دچار اختلال شد.
سیستمهای هوش مصنوعی (AI) مولد مانند ChatGPT به بهترین وجه به عنوان "موتورهای سبک" درک میشوند. و آنچه اکنون شاهد آن هستیم این است که این سیستمها دقت و کنترل بیشتری را نسبت به همیشه به کاربران ارائه میدهند.
اما این امر سؤالات کاملاً جدیدی را در مورد حق چاپ و مالکیت خلاقانه نیز مطرح میکند.
ChatGPT جدید چگونه تصاویر میسازد
برنامههای هوش مصنوعی مولد با تولید خروجی در پاسخ به درخواستهای کاربر، از جمله درخواست برای ایجاد یک تصویر، کار میکنند.
نسلهای قبلی تولیدکنندههای تصویر هوش مصنوعی از مدلهای انتشار (diffusion models) استفاده میکردند. این مدلها به تدریج دادههای تصادفی و پر سر و صدا را به یک تصویر منسجم تبدیل میکنند. اما آخرین بهروزرسانی ChatGPT از الگوریتمی به نام "الگوریتم خودبازگشتی" (autoregressive algorithm) استفاده میکند.
این الگوریتم با تصاویر بیشتر شبیه زبان رفتار میکند و آنها را به "توکن" (token) تجزیه میکند. همانطور که ChatGPT محتملترین کلمات را در یک جمله پیشبینی میکند، اکنون میتواند عناصر بصری مختلف را در یک تصویر به طور جداگانه پیشبینی کند.
این توکنسازی به الگوریتم امکان میدهد تا ویژگیهای خاص یک تصویر و رابطه آنها با کلمات در یک درخواست را بهتر جدا کند. در نتیجه، ChatGPT میتواند تصاویر را با دقت بیشتری از درخواستهای دقیق کاربر نسبت به نسلهای قبلی تولیدکنندههای تصویر ایجاد کند. این میتواند ویژگیهای خاص را جایگزین یا تغییر دهد در حالی که بقیه تصویر را حفظ میکند و مشکل دیرینه تولید متن صحیح در تصاویر را بهبود میبخشد.
یکی از مزایای ویژه تولید تصاویر در داخل یک مدل زبانی بزرگ، توانایی استفاده از تمام دانش رمزگذاری شده در سیستم است. این بدان معناست که کاربران نیازی ندارند هر جنبه از یک تصویر را با جزئیات دقیق شرح دهند. آنها میتوانند به سادگی به مفاهیمی مانند استودیو جیبلی اشاره کنند و هوش مصنوعی این ارجاع را درک میکند.
روند اخیر استودیو جیبلی با خود OpenAI آغاز شد، قبل از اینکه در بین مهندسان نرمافزار سیلیکون ولی و سپس حتی دولتها و سیاستمداران گسترش یابد - از جمله کاربردهای ظاهراً غیرمحتمل مانند کاخ سفید که تصویری جیبلیشده (Ghiblified image) از یک زن گریان در حال تبعید ایجاد کرد و دولت هند روایتی از نخستوزیر نارندرا مودی (Narendra Modi) از "هند جدید" را ترویج میکند.
درک هوش مصنوعی به عنوان "موتورهای سبک"
سیستمهای هوش مصنوعی مولد اطلاعات را به هیچ وجه به معنای سنتی ذخیره نمیکنند. در عوض، آنها متن، حقایق یا قطعات تصویر را به عنوان الگوها - یا "سبکها" - در شبکههای عصبی خود رمزگذاری میکنند.
مدلهای هوش مصنوعی که بر روی مقادیر زیادی از دادهها آموزش داده شدهاند، یاد میگیرند که الگوها را در سطوح مختلف تشخیص دهند. لایههای پایینتر شبکه ممکن است ویژگیهای اساسی مانند روابط کلمه یا بافتهای بصری را ثبت کنند. لایههای بالاتر مفاهیم پیچیدهتر یا عناصر بصری را رمزگذاری میکنند.
این بدان معناست که همه چیز - اشیاء، خواص، ژانرهای نوشتن، صداهای حرفهای - به سبکها تبدیل میشوند. وقتی هوش مصنوعی در مورد کار میازاکی یاد میگیرد، فریمهای واقعی استودیو جیبلی را ذخیره نمیکند (اگرچه تولیدکنندههای تصویر ممکن است گاهی اوقات تقلیدهای نزدیکی از تصاویر ورودی تولید کنند). در عوض، "جیبلی بودن" (Ghibli-ness) را به عنوان یک الگوی ریاضی رمزگذاری میکند - سبکی که میتوان آن را به تصاویر جدید اعمال کرد.
همین اتفاق برای موزها، گربهها یا ایمیلهای شرکتی میافتد. هوش مصنوعی "موز بودن" (banana-ness)، "گربه بودن" (cat-ness) یا "ایمیل شرکتی بودن" (corporate email-ness) را یاد میگیرد - الگوهایی که تعریف میکنند چه چیزی چیزی را به طور قابل تشخیصی یک موز، گربه یا یک ارتباط حرفهای میسازد.
رمزگذاری و انتقال سبکها مدتهاست که یک هدف صریح در هوش مصنوعی بصری بوده است. اکنون ما یک تولیدکننده تصویر داریم که این کار را با مقیاس و کنترل بیسابقهای انجام میدهد.
این رویکرد امکانات خلاقانه قابل توجهی را در متن و تصاویر باز میکند. اگر همه چیز یک سبک است، پس این سبکها میتوانند آزادانه ترکیب و منتقل شوند. به همین دلیل است که ما به این سیستمها "موتورهای سبک" میگوییم. سعی کنید یک صندلی راحتی را در سبک یک گربه یا به سبک الفی ایجاد کنید.
بحث و جدل در مورد حق چاپ: چه زمانی سبکها به هویت تبدیل میشوند
در حالی که توانایی کار با سبکها چیزی است که هوش مصنوعی مولد را بسیار قدرتمند میکند، اما در قلب بحث و جدل فزاینده نیز قرار دارد. برای بسیاری از هنرمندان، دیدن رویکردهای هنری متمایز آنها که به سادگی به "سبک" دیگری تقلیل مییابد که هر کسی میتواند با یک درخواست متنی ساده اعمال کند، چیزی عمیقاً ناراحتکننده است.
هایائو میازاکی (Hayao Miyazaki) هنوز به طور عمومی در مورد روند اخیر استفاده مردم از ChatGPT برای تولید تصاویر به سبک انیمیشن مشهور جهان خود اظهار نظر نکرده است. اما او قبلاً از هوش مصنوعی انتقاد کرده است.
همه اینها سؤالات کاملاً جدیدی را در مورد حق چاپ و مالکیت خلاقانه نیز مطرح میکند.
به طور سنتی، قانون حق چاپ از سبکها محافظت نمیکند - فقط از عبارات خاص محافظت میکند. شما نمیتوانید یک ژانر موسیقی مانند "ska" یا یک جنبش هنری مانند "امپرسیونیسم" را حق چاپ کنید.
این محدودیت به دلیل خوبی وجود دارد. اگر کسی بتواند یک سبک کامل را انحصاری کند، بیان خلاقانه را برای همه دیگران خفه میکند.
اما تفاوتی بین سبکهای عمومی و سبکهای بسیار متمایزی وجود دارد که تقریباً مترادف با هویت کسی میشوند. وقتی هوش مصنوعی میتواند اثری را "به سبک گرگ روتکوفسکی" (Greg Rutkowski) تولید کند - یک هنرمند لهستانی که نامش طبق گزارشها در بیش از 93000 درخواست در تولیدکننده تصویر هوش مصنوعی Stable Diffusion استفاده شده است - این به طور بالقوه هم معیشت و هم میراث هنری او را تهدید میکند.
برخی از سازندگان قبلاً اقدام قانونی انجام دادهاند.
در پروندهای که در اواخر سال 2022 تشکیل شد، سه هنرمند کلاسی را تشکیل دادند تا از چندین شرکت هوش مصنوعی شکایت کنند و استدلال کنند که ژنراتورهای تصویر آنها بر روی آثار اصلی آنها بدون اجازه آموزش داده شدهاند و اکنون به کاربران اجازه میدهند تا آثار مشتق شدهای را تولید کنند که از سبکهای متمایز آنها تقلید میکنند.
از آنجایی که فناوری سریعتر از قانون تکامل مییابد، کار بر روی قانون جدید برای تلاش برای ایجاد تعادل بین نوآوری فناوری و حمایت از هویتهای خلاقانه هنرمندان در حال انجام است.
هر نتیجهای که داشته باشد، این بحثها ماهیت دگرگونکننده موتورهای سبک هوش مصنوعی را برجسته میکند - و نیاز به در نظر گرفتن پتانسیل خلاقانه استفاده نشده آنها و حمایتهای ظریفتر از سبکهای هنری متمایز را نشان میدهد.