نوامبر گذشته، یک زوج اسکیتباز نمایشی المپیکی در مسابقهای با آهنگی اجرا کردند که اشعارش به طرز عجیبی آشنا به نظر میرسید. خواننده با این جمله شروع کرد: «هر شب یک مرسدسبنز را له میکنیم.» این یکی از چندین خط قابل تشخیص از آهنگ موفق پاپ «You Get What You Give» اثر New Radicals از سال ۱۹۹۸ بود. اما آهنگ این زوج اسکیتباز در سایر قسمتها متفاوت بود. پیام New Radicals به نوجوانان مضطرب به راک آرنا به سبک Bon Jovi تبدیل شده بود. اگر «You Get What You Give» را میشناختید، این یک تغییر بسیار عجیب از آن بود.
این اسکیتبازان از موسیقی تولید شده توسط هوش مصنوعی استفاده کرده بودند. هر مدلی که درگیر بود، احتمالاً بر روی «You Get What You Give» آموزش دیده و برخی از محتوای آهنگ را کپی کرده بود، همانطور که سیستمهای هوش مصنوعی مستعد انجام آن هستند. چنین سیستمهایی همیشه عناصر آهنگهای موجود را به این شیوه بازتولید نمیکنند، اما گاهی اوقات و حتی آشکارتر آن را خواهید شنید. به عنوان مثال، Suno، یکی از محبوبترین تولیدکنندگان موسیقی هوش مصنوعی، آهنگهایی منتشر کرده است که به شدت شبیه به «Thriller» مایکل جکسون، «Shape of You» اد شیران، «Johnny B. Goode» چاک بری، «Rock Around the Clock» بیل هیلی و کومتها، «The Thrill Is Gone» بی.بی.کینگ و دیگران هستند. آهنگ مایکل جکسون را در کنار آهنگی با عنوان «Thriller» که توسط Suno تولید شده است، گوش کنید:
(«Thriller» تنها یکی از دهها نمونهای است که شرکتهای بزرگ ضبط در شکایت علیه Suno ارائه کردهاند. میتوانید دو نمونه دیگر را در ادامه بشنوید. ریچل راسن، سخنگوی Suno، به من گفت که این پلتفرم از «موانع حفاظتی برای جلوگیری از توزیع، جعل هویت و دستکاریهای غیرمجاز» استفاده میکند و مرا به پست لینکدین مدیر ارشد محصولات این شرکت ارجاع داد که میگوید بازتولید دادههای آموزشی «نباید اتفاق بیفتد.» راسن به سوالات مربوط به دعوای حقوقی پاسخ نداد و هیچ آهنگی خاصی را که برای آموزش مدلهایشان استفاده شده بود، تأیید نکرد.)
این موارد نشاندهنده نحوه کار محصولات موسیقی مبتنی بر هوش مصنوعی است. تولیدکنندگان موسیقی هوش مصنوعی میتوانند با دقت شگفتانگیزی اجراهای انسانی را شبیهسازی کنند، اما ابتدا باید بر روی مقادیر عظیمی از همان اجراهای انسانی آموزش ببینند. ضبطهای واقعی که وارد هر مدلی میشوند یک راز کاملاً محافظت شده هستند — شرکتهای هوش مصنوعی ادعا کردهاند که آنها متعلق به خودشان هستند — اما تعداد آهنگها تقریباً قطعاً بسیار زیاد است و ژانرها و دورههای زمانی مختلف را در بر میگیرد.
به عنوان بخشی از مجموعه تحقیقات من در مورد دادههای آموزشی هوش مصنوعی، اخیراً چهار مجموعه داده غولپیکر از آهنگها را کشف کردم که در جامعه توسعهدهندگان هوش مصنوعی به اشتراک گذاشته میشوند. یکی دارای ۱۲ میلیون آهنگ است. دیگری دارای ۹ میلیون. دو مجموعه داده کوچکتر هر کدام بیش از ۱۰۰,۰۰۰ آهنگ دارند. آنها شامل آهنگهای موفق از هنرمندان بزرگ پاپ مانند Bad Bunny، Nirvana، Taylor Swift، Billie Eilish، Pearl Jam، Elvis Costello، Sheryl Crow و The Beatles هستند. (آهنگ «You Get What You Give» از New Radicals در دو مورد از این مجموعههای داده قرار دارد.) هنرمندان جاز مانند Miles Davis، John Zorn و Vijay Iyer نیز حضور دارند، همچنین آهنگسازان کلاسیک و دهها هزار هنرمند کمتر شناخته شده در ژانرهای مختلف. مجموعه داده ۱۲ میلیون آهنگی، به تنهایی، ۹۱ سال زمان میبرد تا به آن گوش داده شود.
میتوانید هنرمندی را در مجموعههای داده اینجا جستجو کنید:
این مجموعههای داده تنها چهار نمونه از منابع بسیاری هستند که در دسترس توسعهدهندگان هوش مصنوعی قرار دارند. من آنها را با خواندن مقالات تحقیقاتی منتشر شده توسط توسعهدهندگان و جستجو در سایتهای اشتراک داده هوش مصنوعی پیدا کردم. این مجموعههای داده هزاران بار دانلود شدهاند. گوگل در مورد استفاده از یکی از آنها — بیش از ۱۰۰,۰۰۰ آهنگ دانلود شده از Free Music Archive، سایتی که امکان پخش رایگان برای گوش دادن شخصی را فراهم میکند اما برای استفاده تجاری نیاز به پرداخت دارد — برای آموزش مدلهای هوش مصنوعی نوشته است، و Stability نیز از برخی آهنگهای همین مجموعه داده استفاده کرده است. اما به دلیل پنهانکاری صنعت در مورد دادههای آموزشی، ما در حال حاضر نمیدانیم چه کسی از بقیه استفاده کرده است.
آنچه این مجموعههای داده در درجه اول نشان میدهند، مقیاس و تنوع موسیقیهایی است که به راحتی در دسترس توسعهدهندگان هوش مصنوعی قرار دارند. شرکتها اغلب ادعا میکنند که فقط از محتوای آزادانه در دسترس آنلاین استفاده میکنند، اما این مجموعههای داده، کمیت موسیقیهای قابل دانلود را نشان میدهند که توسعهدهندگان میتوانند به آنها دسترسی داشته باشند، حتی اگر قرار نباشد رایگان باشند.
سه مورد از مجموعههای دادهای که من پیدا کردم به صورت فهرستی از لینکها به آهنگها در YouTube یا Spotify توزیع شدهاند. توسعهدهندگان هوش مصنوعی فایل صوتی واقعی را با استفاده از ابزارهایی که کار را خودکار میکنند، دانلود میکنند. برخی از این ابزارها به توسعهدهندگان اجازه میدهند از ورود به سیستم، تبلیغات و مکانیسمهایی که میتوانند برای سازندگان درآمد یا مشترک به همراه داشته باشند، عبور کنند. چنین ابزارهایی شرایط خدمات این پلتفرمها را نقض میکنند. (چهارمین مجموعه داده، یعنی مجموعه Free Music Archive، با فایلهای MP3 توزیع میشود.)
این مجموعههای داده از نظر اندازه مشابه با آنهایی هستند که شرکتها برای آموزش مدلهای تجاری تولید موسیقی استفاده کردهاند. در سال ۲۰۲۲، گوگل مدلی را با ۴۴ میلیون آهنگ، که مجموعاً ۴۲ سال موسیقی میشود، آموزش داد. Suno در یک پرونده دادگاهی در سال ۲۰۲۴ نوشت که مدلهای خود را بر روی «اساساً تمام فایلهای موسیقی با کیفیت معقول» که میتوانست از اینترنت دانلود کند، آموزش داده است. در سال ۲۰۲۰، OpenAI ۱.۲ میلیون آهنگ را از وب جمعآوری کرد تا مدلی به نام Jukebox را آموزش دهد که صراحتاً برای تولید تغییرات در موسیقی موجود طراحی شده بود.
به طور کلی، شرکتهای هوش مصنوعی حق خود را برای آموزش مدلها بر روی موسیقی بدون مجوز با این استدلال دفاع میکنند که این آموزش «استفاده منصفانه» تحت قانون حق تکثیر است، به این معنی که مدلهای هوش مصنوعی به بازار کار هنرمندان آسیب نمیرسانند. این ادعایی پیچیده است و مشروعیت آن احتمالاً به جزئیات نحوه آموزش و استقرار یک سیستم هوش مصنوعی بستگی دارد. Suno از اظهار نظر در مورد استدلالهای قانونی خود خودداری کرد. متین پارلاک، سخنگوی OpenAI، به من گفت که این شرکت «همیشه در مورد نحوه آموزش Jukebox شفاف بوده است.» (این شرکت رویه خود را برای آموزش مدل منتشر کرد، اگرچه لیست آهنگها را ذکر نکرد.) گوگل نیز از اظهار نظر برای این مقاله خودداری کرد، اما مرا به یک پست وبلاگ ارجاع داد که در آن میگوید مدلهای تولید صدای خود را بر روی «مطالبی که YouTube و Google بر اساس شرایط خدمات، قراردادهای شریک و قوانین قابل اجرا حق استفاده از آنها را دارند» آموزش داده است. (YouTube متعلق به گوگل است.)
مدلهای تولیدکننده موسیقی به روشی مشابه با مدلهای هوش مصنوعی که متن تولید میکنند کار میکنند: آنها محتوای آموزشی را به قطعات کوچک (در این مورد، بخشهای صوتی کوچک به جای متن) تقسیم میکنند و در مورد زمینهای که هر قطعه در آن ظاهر میشود، «یاد میگیرند». سپس، وقتی یک دستور (یک زمینه) داده میشود، پیشبینی میکنند که کدام قطعه بعدی میآید. سهولت تولید موسیقی هوش مصنوعی به سرعت آن را فراگیر کرده است. سپتامبر گذشته، اسپاتیفای اعلام کرد که ۷۵ میلیون آهنگ «اسپم» تولید شده توسط هوش مصنوعی را از سرویس خود حذف کرده است. پلتفرم پخش آنلاین دیزر اخیراً گزارش داد که تقریباً نیمی از آهنگهایی که روزانه دریافت میکند توسط هوش مصنوعی تولید شدهاند. برخلاف اسپاتیفای، دیزر آهنگهای تولید شده توسط هوش مصنوعی را از توصیههای الگوریتمی خود حذف میکند و آلبومهایی را که شامل آهنگهای هوش مصنوعی هستند برچسبگذاری میکند، اگرچه برچسبی برای آهنگهای جداگانه نمایش نمیدهد. اسپاتیفای، یوتیوب یا آمازون موزیک هیچکدام موسیقی تولید شده توسط هوش مصنوعی را در پلتفرم خود برچسبگذاری نمیکنند.
در میان شرکتهایی که محصولات تولید موسیقی هوش مصنوعی را ارائه میدهند، گوگل به طور منحصر به فردی برای بهرهبرداری از مخاطبان بزرگ موجود موقعیت دارد. این غول فناوری شروع به جاسازی این فناوری در محصولات خود کرده است: دستیار هوش مصنوعی Gemini گوگل اکنون میتواند بر اساس متن، عکس یا ویدیوی آپلود شده توسط کاربر، قطعات موسیقی ۳۰ ثانیهای تولید کند. و این شرکت سازندگان ویدیو در YouTube را تشویق میکند تا از آهنگهای پسزمینه تولید شده توسط هوش مصنوعی استفاده کنند، به جای مجوز گرفتن از موسیقیدانان واقعی. برای یوتیوبرهایی که به دلیل استفاده نامناسب از موسیقی دارای حق تکثیر به مشکل خوردهاند، گوگل اخیراً دکمه «جایگزینی آهنگ» را اضافه کرده است که موسیقی ویدیوی آنها را با یک آهنگ تولید شده توسط هوش مصنوعی جایگزین میکند.
موسیقی تولید شده توسط هوش مصنوعی مستقیماً در وبسایتهای محصولات هوش مصنوعی نیز مصرف میشود. Suno و رقیب آن Udio میتوانند به عنوان پلتفرمهای شنیداری بسیار شبیه به Spotify یا YouTube استفاده شوند. این سایتها کاربران را دعوت میکنند تا موسیقی مورد نظر خود را توصیف کنند و میتوانند یک آهنگ را در عرض چند ثانیه تولید کنند. این آهنگها عمدتاً معمولی هستند، اما میتوانند به اندازه کافی واقعی به نظر برسند که بسیاری از شنوندگان در تشخیص اینکه آنها توسط هوش مصنوعی تولید شدهاند، مشکل داشته باشند. (Udio به درخواستهای اظهار نظر پاسخ نداد.)
در تلاش برای جلوگیری از تولید آهنگهایی توسط محصولاتشان که موسیقیهای موجود را کپی میکنند، شرکتهای هوش مصنوعی نرمافزارهای تشخیص را پیادهسازی میکنند. اما نه Suno و نه Udio مانع از تولید آهنگهایی توسط کاربران به سبک هنرمندان واقعی نمیشوند. اوایل امسال، سونی کشف کرد که ۱۳۵,۰۰۰ آهنگ تولید شده توسط هوش مصنوعی به هنرمندانش در پلتفرمهای مختلف پخش آنلاین نسبت داده شدهاند. اگرچه دقیقاً مشخص نیست که کدام ابزارهای هوش مصنوعی برای تولید این آهنگها استفاده شدهاند، اما این فناوری در حال حاضر به توانایی هنرمندان برای کسب درآمد از موسیقیشان آسیب میرساند.
موسیقیدانان و شرکتهای ضبط حداقل ۱۲ شکایت علیه شرکتهای هوش مصنوعی به دلیل آموزش مدلها بر روی موسیقی دارای حق تکثیر ثبت کردهاند. سه شرکت بزرگ ضبط موسیقی این صنعت هم از Suno و هم از Udio شکایت کردهاند و دیگران نیز از گوگل، OpenAI و فروشندگان کوچکتر هوش مصنوعی شکایت کردهاند. هیچ حکمی در این پروندهها صادر نشده است، اما برخی از شرکتهای ضبط با Suno و Udio به توافق رسیدهاند.
این دعاوی حقوقی نقض حق تکثیر را ادعا میکنند، اما حتی برخی هنرمندانی که انتخاب کردهاند موسیقی خود را آزادانهتر به اشتراک بگذارند، همچنان به نحوه استفاده شرکتهای هوش مصنوعی از آثارشان اعتراض دارند. نمونه بارز آن Free Music Archive است. این آرشیو در سال ۲۰۰۹ توسط ایستگاه رادیویی WFMU نیوجرسی راهاندازی شد تا همان هدف رادیو – ارائه موسیقی رایگان به شنوندگان – را دنبال کند، اما «برای عصر اینترنت طراحی شده»، همانطور که این آرشیو در وبسایت اصلی خود ادعا کرده بود. این آرشیو گنجینهای از ضبطهای کمیاب، زنده و غیرجریان اصلی است. و راهی برای موسیقیدانان است که به شنوندگان اجازه دهند موسیقی آنها را به صورت رایگان بشنوند، در حالی که معمولاً هر کسی که میخواهد از موسیقی پول دربیاورد – مثلاً با استفاده از آن در یک ویدیوی انتفاعی – باید هزینه بپردازد. برخی هنرمندان نیز مشخص میکنند که کار آنها را نمیتوان برای اهداف تجاری استفاده کرد.
در سال ۲۰۲۳، هنگامی که هسل ون اورشوت، رئیس Tribe of Noise، شرکتی که Free Music Archive را اداره میکند، متوجه شد که گوگل از FMA برای آموزش مدلهای هوش مصنوعی خود استفاده میکند، نامهای فرستاد و خواستار بحث در مورد رضایت و غرامت شد. ون اورشوت پاسخ را به من به عنوان «یک بیانیه بیادبانه» توصیف کرد. در نامهای که ون اورشوت با من به اشتراک گذاشت، گوگل به سیاست حفظ حریم خصوصی خود اشاره میکند (که میگوید «ما از اطلاعات عمومی در دسترس برای کمک به آموزش مدلهای هوش مصنوعی گوگل استفاده میکنیم») و در ادامه استدلال میکند که «ما معتقدیم همه از یک اکوسیستم محتوای پویا بهرهمند میشوند.» این شرکت هرگز مستقیماً به نگرانیهای Free Music Archive پاسخ نداد.
ون اورشوت، که مقیم آمستردام است، به من گفت که احساس میکند هیچ راه عملی برای مبارزه با آن ندارد. او گفت: «برای من پرواز به آمریکا و شروع یک دعوای حقوقی با گوگل» بیمعنی بود.
برخی موسیقیدانان به دلیل نگرانی در مورد استفاده از آثارشان توسط شرکتهای هوش مصنوعی علیه خودشان، اشتراکگذاری موسیقی خود را به صورت آنلاین متوقف کردهاند. بن جردن، یوتیوبری که بیش از ۲۵ سال است به عنوان یک موسیقیدان حرفهای زندگی خود را میگذراند، یکی از آنهاست. او در ویدیویی در آوریل ۲۰۲۵ توضیح داد که متوجه شده است شرکتهای فناوری «موسیقی او را بدون رضایتش کپی میکنند، سپس موسیقی بدتر با آن تولید میکنند که ناخواسته با نام او مرتبط است و سپس تلاش میکنند آن را در همان اقتصادی که او پول درمیآورد، بفروشند.» جردن ابزاری را برای «مسموم کردن» مدلهای هوش مصنوعی مولد توسعه داده است. اساساً، نرمافزار او نویز را به فایلهای صوتی اضافه میکند که انسانها نمیتوانند آن را بشنوند اما مدلهای هوش مصنوعی را گیج میکند. این همان تکنیکی است که برخی هنرمندان بصری برای مبارزه با کپیبرداری غیرقانونی از آثارشان استفاده میکنند. اثربخشی این ابزارها مورد بحث قرار گرفته است، اما محققان نشان دادهاند که در برخی موارد، چند نمونه مسموم شده میتواند به طور قابل توجهی یک مدل هوش مصنوعی را تخریب کند.
در Free Music Archive، گیتاریست و خواننده، درک کلگ، بیش از ۱۵ سال است که آهنگهای اصلی و ضبط شده در خانه خود را به اشتراک میگذارد. کلگ به من گفت که از اینکه مردم موسیقی او را در پسزمینه ویدیوهای شخصی خود قرار دهند، خوشحال است، به شرطی که به او اعتبار دهند. وقتی مردم انتظار دارند از استفاده از موسیقی او پول دربیاورند، باید برای مجوز به او پول بپردازند. بیش از ۲۵۰ آهنگ کلگ در مجموعه داده FMA که من پیدا کردم، قرار دارد. پرسیدم که آیا اگر مکانیزمی برای انصراف از آموزش هوش مصنوعی وجود داشت، او این کار را میکرد یا خیر. او گفت: «بله، قطعاً.»
آنچه بیش از همه کلگ را آزار میدهد این است که شرکتهای هوش مصنوعی موسیقی مردم را بدون رضایت و بدون اذعان به اینکه محصولات فناوریشان کاملاً وابسته به موسیقیدانان هستند، برمیدارند. او گفت: «این فقط غیرصادقانه به نظر میرسد. به نظر میرسد دزدی است. باید یک روز حساب و کتابی باشد.» به هر حال این امید اوست.