چگونه Love Without Sound با استفاده از NLP، spaCy و Prodigy به صنعت موسیقی کمک می‌کند تا میلیون‌ها دلار درآمد برای هنرمندان بازیابی کند

نمودار نمای کلی گردش کار و اجزا را نشان می دهد
نمای کلی سیستم و اجزای Love Without Sound
نمونه هایی از فراداده های موسیقی با فرمت بد خودکار
نمونه‌هایی از فراداده‌های موسیقی با فرمت بد خودکار
اجزای فراداده آهنگ استخراج شده با spaCy
تغییرات فراداده برای آهنگ "All The Way Up" اثر Fat Joe با اجزا و اصلاح‌کننده‌هایی مانند هنرمندان برجسته و ریمیکس‌های استخراج شده توسط خط لوله spaCy
نمودار نمای کلی گردش کار و اجزا را نشان می دهد
نمای کلی اجزای پردازش اسناد حقوقی Love Without Sound
تصویر صفحه نمایش Prodigy که مراجع استناد به پرونده را حاشیه نویسی می کند
حاشیه‌نویسی مراجع استناد به پرونده‌های حقوقی در Prodigy
تصویر صفحه نمایش ایمیل حقوقی با اطلاعات ردیابی درخواست استخراج شده
سیستم ردیابی درخواست ایمیل با استخراج و طبقه‌بندی متن ایمیل
نمودار جریان نشان دادن استخراج مرجع موسیقی سرتاسری
نمودار جریان نشان دادن استخراج مرجع موسیقی سرتاسری

ما با جردن دیویس، بنیانگذار Love Without Sound، در مورد چگونگی ساخت ابزارهای نوآورانه مبتنی بر هوش مصنوعی برای صنعت موسیقی و شرکت‌های حقوقی متخصص در مذاکرات حق امتیاز صحبت کردیم و به ناشران کمک کردیم تا صدها میلیون دلار درآمد از دست رفته را برای هنرمندان بازیابی کنند.

Love Without Sound مجموعه‌ای ماژولار از ابزارهای پردازش زبان طبیعی (NLP) است که شامل مدلی برای استانداردسازی فراداده‌های میلیاردها قطعه موسیقی، طبقه‌بندی‌کننده‌ها برای پردازش بی‌درنگ مکاتبات حقوقی در ایمیل‌ها و پیوست‌ها، و یک خط لوله تشخیص استناد به پرونده است که استدلال‌های متقابل را پیشنهاد می‌کند و نتایج مذاکره را پیش‌بینی می‌کند. جردن با کمک ابزارهای مدرن توسعه‌دهندگان، توانست ویژگی‌های جدید هوش مصنوعی را به طور کامل در داخل شرکت ایجاد کند. مدل‌ها بسیار دقیق هستند، سریع اجرا می‌شوند و در یک محیط کاملاً خصوصی از نظر داده‌ها مستقر شده‌اند.

ابزارهای مبتنی بر NLP برای صنعت موسیقی

شرکت‌های بزرگ اغلب از موسیقی برای تبلیغات و سایر محتوای تبلیغاتی، از جمله آثار هنرمندان نوظهور، استفاده می‌کنند. در واقع، بسیاری از گروه‌ها با حضور در تبلیغات تلویزیونی کار خود را آغاز کردند. با این حال، با وجود پلتفرم‌ها و کانال‌های رسانه‌های اجتماعی پراکنده برای کشورها و بازارهای مختلف، موسیقی اغلب در زمینه‌هایی منتشر می‌شود که در اصل مجوز آن صادر نشده است. این منجر به از دست رفتن میلیون‌ها دلار حق امتیاز می‌شود. هنرمندان اغلب برای نظارت بر این موضوع و مطالبه غرامت‌هایی که به آن‌ها تعلق می‌گیرد، ناتوان هستند، بنابراین Love Without Sound به برچسب‌های آن‌ها کمک می‌کند تا حق امتیازهای موسیقی مورد استفاده بدون مجوز مناسب را پیدا و بازیابی کنند.

این فرآیند همچنین می‌تواند شامل مکاتبات و مذاکرات گسترده حقوقی باشد که روزانه هزاران ایمیل ارسال می‌شود. ابزارهای جردن به شرکت‌های حقوقی کمک می‌کند تا این فرآیند را ساده‌تر کرده و معاملات مجوز و توافق‌نامه‌هایی را برای جبران خسارت هنرمندان تنظیم کنند. (به عنوان مثال، در سال 2020، شرکت دوچرخه‌سواری Peloton 300 میلیون دلار پرداخت کرد تا شکایتی را تسویه کند به دلیل استفاده از آهنگ‌های بیانسه، مارون 5 و بسیاری از هنرمندان دیگر در ویدیوهای تمرینی خود بدون اجازه. و در آلمان، حزب آنگلا مرکل، صدراعظم وقت، مجبور شد از استفاده از آهنگ "Angie" رولینگ استونز به عنوان سرود غیرمجاز مبارزات انتخاباتی خودداری کند.)

نمودار نمای کلی گردش کار و اجزا را نشان می دهد
نمای کلی سیستم و اجزای Love Without Sound

استانداردسازی فراداده‌های ساختاریافته موسیقی

در هسته این راه حل، فراداده‌های موسیقی ساختاریافته با کیفیت بالا قرار دارد. بدون آن، تطبیق دقیق هنرمندان و آثارشان غیرممکن است. اگر در روزهای اولیه اینترنت موسیقی دیجیتال جمع‌آوری می‌کردید، ممکن است فراداده‌های نامرتب و تگ‌های ID3 را به خاطر داشته باشید. در حالی که این چیزی است که نباید امروزه مشکلی باشد، در واقع شایع‌تر از همیشه است. Spotify تقریباً 40000 قطعه جدید در روز دریافت می‌کند و 15٪ از آن‌ها حاوی فراداده‌های نادرست هستند.

هیچ استانداردی برای نحوه یادداشت هنرمندان برجسته، نسخه‌های زنده یا ریمیکس‌ها در اطلاعات آهنگ وجود ندارد. و در حالی که قالب‌بندی خودکار در برنامه‌هایی مانند اکسل می‌تواند یک نعمت باشد، اما می‌تواند به اشتباه عناوینی مانند "4:44" جی زی یا "7/11" بیانسه را به اعداد اعشاری یا اشیاء datetime تبدیل کند.

نمونه هایی از فراداده های موسیقی با فرمت بد خودکار
نمونه‌هایی از فراداده‌های موسیقی با فرمت بد خودکار

این چیزی بیشتر از یک مزاحمت برای شنونده است. فراداده‌های نادرست می‌تواند منجر به این شود که آهنگ‌ها و حتی کل آلبوم‌ها به اشتباه به هنرمندان دیگر در پلتفرم‌های پخش مانند Spotify نسبت داده شوند، که به نوبه خود منجر به پرداخت حق امتیاز به هنرمندان و برچسب‌های اشتباه می‌شود، یا اصلاً پرداخت نمی‌شود. برآوردها نشان می‌دهد که 2.5 میلیارد دلار حق امتیاز بین سال‌های 2016 و 2018 تنها در ایالات متحده به دلیل مسائل مربوط به فراداده تخصیص نیافته باقی مانده است. این مشکل سیستمی به طور نامتناسبی بر هنرمندان مستقل تأثیر می‌گذارد.

در واقع، جردن پس از دریافت چک‌های حق امتیاز قابل توجه برای یک خواننده کانتری با همین نام، که آهنگ‌هایش به اشتباه به او نسبت داده شده بود، ایده محصولات خود را دریافت کرد. معلوم شد که تیم هنرمند قبلاً در حال جستجوی این حق امتیازها بوده و قادر به یافتن نحوه گم شدن آن‌ها نبوده‌اند.

من از قبل از مشکل فراداده در صنعت آگاه بودم، اما این وضعیت بسیار روشنگر بود. هنرمندان به معنای واقعی کلمه به دلیل اشتباهات شناسایی اولیه پول از دست می‌دهند. آن زمان بود که فهمیدم هیچ راه حل موثری وجود ندارد و می‌خواستم یکی ایجاد کنم.

— جردن دیویس

برای حل این مشکل، جردن یک خط لوله spaCy با تشخیص موجودیت نام‌دار و اجزای دسته‌بندی متن ایجاد کرد که اطلاعات آهنگ و هنرمند را در یک پایگاه داده 2 میلیارد ردیفی نرمال و استاندارد می‌کند. مدل‌ها اجزایی مانند عناوین آهنگ، هنرمندان برجسته و اصلاح‌کننده‌ها مانند نسخه‌های زنده یا ریمیکس‌ها را استخراج می‌کنند. سپس این اصلاح‌کننده‌ها را طبقه‌بندی کرده و شناسه‌های سلسله مراتبی برای گروه‌بندی نسخه‌های مرتبط آهنگ ایجاد می‌کنند.

اجزای فراداده آهنگ استخراج شده با spaCy
تغییرات فراداده برای آهنگ "All The Way Up" اثر Fat Joe با اجزا و اصلاح‌کننده‌هایی مانند هنرمندان برجسته و ریمیکس‌های استخراج شده توسط خط لوله spaCy

برای ایجاد داده‌ها، جردن با حاشیه‌نویسی یک نمونه کوچک با استفاده از دستور Prodigy's ner.manual شروع کرد و یک مدل اولیه را آموزش داد. با ورود داده‌های جدید، او از ner.correct با مدل در حلقه استفاده می‌کند تا پیش‌بینی‌ها را در رابط کاربری بررسی کند و در صورت لزوم اصلاحات را انجام دهد. سپس خط لوله را با دستور train Prodigy دوباره آموزش می‌دهد.

اگر درخواست‌های جدید مشتری یا اضافاتی به کاتالوگ موسیقی وجود داشته باشد، می‌توانم به سادگی Prodigy را اجرا کنم، یک مجموعه داده جدید با نمونه‌ها و موارد حاشیه‌ای بیشتر ایجاد کنم و مدل را به روز کنم. این نتایج را به روز نگه می‌دارد و یک فرآیند سازگار و مداوم به من می‌دهد.

— جردن دیویس

در حالی که مذاکرات به طور کلی از طریق تلفن انجام می‌شود، بخش‌های مهم اغلب در ایمیل‌ها یافت می‌شود که بین چندین بلوک سلب مسئولیت قرار گرفته‌اند. به عنوان اولین قدم برای استخراج مطالب در یک قالب ساختاریافته، جردن یک طبقه‌بندی‌کننده برای تشخیص شروع و پایان یک پیام ایجاد کرد. پس از استخراج متن پیام، طبقه‌بندی‌کننده مکاتبات، ارتباطات تجاری اساسی را از ایمیل‌های غیرضروری مانند خبرنامه‌ها و دعوت‌نامه‌های جلسه متمایز می‌کند. سپس داده‌های ساختاریافته را از ایمیل‌های مربوطه استخراج می‌کند.

نمودار نمای کلی گردش کار و اجزا را نشان می دهد
نمای کلی اجزای پردازش اسناد حقوقی Love Without Sound

یکی دیگر از زمینه‌هایی که از ویژگی‌های خودکار NLP بهره می‌برد، تشخیص استناد به پرونده است. تعداد محدودی از پرونده‌هایی وجود دارد که ممکن است در طول مذاکرات به آن‌ها استناد شود، و استدلال‌هایی که در اشاره به یک پرونده مطرح می‌شوند. با استفاده از یک پایگاه داده از پرونده‌ها و استدلال‌ها، سیستم قادر است استدلال‌های متقابل مناسب را توصیه کند و جهت یک پرونده را با توجه به استدلال‌های مورد استفاده و حجم زیادی از مذاکرات قبلی پیش‌بینی کند. این به شرکت‌های حقوقی اجازه می‌دهد تا عملیات قانونی خود را در مقیاس بزرگ تسریع کنند و زمان تحقیق را تقریباً 50٪ کاهش داده است.

تصویر صفحه نمایش Prodigy که مراجع استناد به پرونده را حاشیه نویسی می کند
حاشیه‌نویسی مراجع استناد به پرونده‌های حقوقی در Prodigy

جردن با تعامل با داده‌ها و تکرار اجزا و تعاریف با استفاده از Prodigy، توانست مشکل پیچیده تجاری ("شرکت‌های حقوقی را سازنده‌تر کنید") را به مراحل جداگانه‌ای که می‌توان با یادگیری ماشین حل کرد، تجزیه کند.

آنچه در مورد Prodigy دوست دارم این است که تکرار و امتحان کردن ایده‌ها را واقعاً آسان می‌کند. شما اغلب نمی‌دانید که آیا چیزی کار می‌کند تا زمانی که آن را امتحان کنید. به عنوان مثال، تشخیص محتوای ایمیل در ابتدا یک ایده احمقانه به نظر می‌رسید، اما سپس آن را امتحان کردم و عالی کار کرد. در موارد دیگر، من با یک طرح برچسب شروع می‌کنم و به محض تعامل با داده‌ها، متوجه می‌شوم که آنچه را که به دنبالش هستم به اندازه کافی واضح تعریف نکرده‌ام. Prodigy به من اجازه می‌دهد تا طرح‌ها و تعاریف خود را تکرار کنم و مدل‌های بسیار بهتری را از این طریق بسازم.

— جردن دیویس

راه حل سرتاسری از یک خط لوله spaCy تشکیل شده است که از اجزای مبتنی بر ترانسفورماتور و CNN برای تشخیص موجودیت نام‌دار، دسته‌بندی بازه و دسته‌بندی متن استفاده می‌کند:

  1. استخراج استناد حقوقی: استنادهای پرونده را شناسایی کرده و آن‌ها را به استدلال‌های خاصی که از آن‌ها پشتیبانی می‌کنند، نگاشت کنید.
  2. استخراج مرجع موسیقی: مراجع آهنگ‌ها را به شناسه‌های منحصر به فرد در پایگاه داده پیوند دهید.
  3. ردیابی درخواست: موارد اقدام و درخواست‌های صریح یا ضمنی را استخراج کنید، فوریت آن‌ها را طبقه‌بندی کنید و یک داشبورد بی‌درنگ از درخواست‌های معلق ایجاد کنید.
تصویر صفحه نمایش ایمیل حقوقی با اطلاعات ردیابی درخواست استخراج شده
سیستم ردیابی درخواست ایمیل با استخراج و طبقه‌بندی متن ایمیل

علاوه بر محتوای ایمیل، پیوست‌ها نیز طبقه‌بندی می‌شوند و نقاط داده مهم استخراج می‌شوند. برای توافق‌نامه‌های تسویه حساب، سیستم مهلت‌های پرداخت، مبالغ و حقوق اعطا شده را شناسایی می‌کند. برای توافق‌نامه‌های تعلیق، تاریخ‌های کلیدی و مفاد تمدید را برجسته می‌کند. نامه‌ها، ثبت نام‌های حق چاپ، مجوزها و سایر اسناد رایج نیز پردازش شده و به قسمت مربوطه سیستم ارسال می‌شوند. برای قراردادها و توافق‌نامه‌های PDF، جردن از یک جزء تشخیص امضا استفاده می‌کند که بلوک‌های امضا را پیدا کرده و آن‌ها را به عنوان امضا شده یا امضا نشده طبقه‌بندی می‌کند.

استخراج مرجع موسیقی سرتاسری

هنگامی که از آهنگ‌ها در مکاتبات یاد می‌شود، سیستم این مراجع را به شناسه‌های منحصر به فرد در پایگاه داده فراداده موسیقی خود پیوند می‌دهد. این امکان تأیید سریع ادعاهای مجوز را فراهم می‌کند و زمینه اساسی را برای راهنمایی مشتریان Love Without Sound در تصمیم‌گیری آگاهانه فراهم می‌کند.

وقتی spaCy را کشف کردم، بلافاصله به تمام سوالات من پاسخ داد! خط لوله استخراج spaCy ما مدیریت مجوز و تجزیه و تحلیل ثبت نام حق چاپ را متحول کرده است و حمایت از برچسب‌های ضبط و هنرمندان را بسیار سریع‌تر و موفق‌تر کرده است.

— جردن دیویس

نمودار جریان نشان دادن استخراج مرجع موسیقی سرتاسری
نمودار جریان نشان دادن استخراج مرجع موسیقی سرتاسری

برنامه‌های آینده و کار در حال انجام

با حجم زیاد فراداده، یافتن سریع اطلاعات مناسب می‌تواند به یک چالش تبدیل شود. جردن در حال حاضر یک خط لوله تولید تقویت‌شده بازیابی (RAG) سفارشی برای پرس و جو از تاریخچه پرونده و اطلاعات هنرمند با SQL و زبان طبیعی می‌سازد. وظیفه اصلی مدل زبان بزرگ (LLM) ترجمه سوال زبان طبیعی به پرس و جوهای SQL مناسب است، یک کار به وضوح تعریف شده که امکان استفاده از یک مدل کوچکتر را فراهم می‌کند که به طور ایده‌آل به صورت خصوصی در محل اجرا می‌شود.

جردن همچنین روی یک مدل جاسازی صوتی موسیقیایی کار می‌کند که داده‌های صوتی را بر اساس ویژگی‌های صوتی به جای فراداده ساختار می‌دهد. سپس می‌تواند آهنگ‌های مرتبط، از جمله ریمیکس‌ها، نمونه‌ها و آهنگ‌هایی با شباهت‌های تولید را به موقعیت‌های برداری نزدیک نگاشت کند. با استفاده از این رویکرد، سیستم قادر خواهد بود ناسازگاری‌های فراداده‌ای بیشتری را شناسایی کند، ادعاهای مدیریت حقوق را تأیید کند و توصیه‌های مبتنی بر محتوا را فعال کند.

نتایج و ارزیابی

اسناد حقوقی و اطلاعات مالی هنرمندان و مشاغل بسیار محرمانه هستند، بنابراین تمام مدل‌ها و برنامه‌ها باید به صورت محلی در یک محیط خصوصی از نظر داده‌ها اجرا شوند. خطوط لوله همچنین باید سریع عمل کنند تا بتوانند ایمیل‌ها و پیوست‌ها را در زمان واقعی پردازش کنند و کاتالوگ‌های موسیقی را با میلیون‌ها آهنگ و فراداده‌های آن‌ها مدیریت کنند. جردن تصمیم گرفت مدل‌های جداگانه‌ای را برای هر ویژگی آموزش دهد که می‌توانند به صورت آزادانه توسط برنامه ترکیب شوند. این راه حل را بسیار ماژولار نگه می‌دارد. این همچنین به این معنی است که هر جزء می‌تواند به طور جداگانه توسعه، بهبود و ارزیابی شود. برای جزئیات و نتایج ارزیابی بیشتر، مواد عمیق را ببینید.

1. امتیاز F برای ner و spancat و امتیاز AUC با میانگین کلان برای textcat چند برچسبی.
2. کلمات در ثانیه.
3. این مدل از برچسب‌های پیش‌بینی شده از اجزای قبلی استفاده می‌کند که آن را بسیار سریع‌تر می‌کند.
4. این مدل از نمونه‌های متنی بسیار کوچکتری استفاده می‌کند که نتایج ارزیابی سرعت بالاتر را توضیح می‌دهد.
5. این مدل در درجه اول برای ارائه زمینه اضافی استفاده می‌شود. سرعت گزارش شده کمتر ممکن است نتیجه روش ارزیابی باشد و در آینده به روز شود.

جزء نوع برچسب ها دقت1 سرعت2
استخراج فراداده (آهنگ ها) ner 3 0.94 6,217
استخراج فراداده (هنرمندان) ner 2 0.93 1,696
استخراج فراداده (اصلاح کننده ها)3 textcat 5 0.99 447,493
طبقه بندی مکاتبات4 textcat 1 0.98 587,907
استخراج بدنه ایمیل ner 2 0.90 13,923
طبقه بندی پیوست textcat 9 0.98 2,831
طبقه بندی بخش توافقنامه حقوقی textcat 38 0.92 11,765
استخراج بازه توافقنامه حقوقی5 spancat 3 0.94 306
نتایج و ارزیابی

خط لوله استخراج فراداده آهنگ در مقیاس بزرگ عمل می‌کند و در حال حاضر میلیاردها قطعه موسیقی را مدیریت می‌کند، در حالی که مدل‌های پردازش حقوقی به صورت بی‌درنگ کار می‌کنند و به شرکت‌های حقوقی اجازه می‌دهند جریان اطلاعات را در مقیاس بزرگ با دقت و صحت قابل اعتماد ردیابی کنند.

وقتی برای اولین بار شروع به کار کردم، به من گفتند این پروژه شدنی نیست. اما در عرض یک سال و نیم توانسته‌ام راه حلی را بسازم که با یک تیم کوچک به طور واقعی صنعت موسیقی را تحت تاثیر قرار می‌دهد.

— جردن دیویس

چه چیز دیگری؟

شما می‌توانید کل خط لوله یا فقط اجزای خاصی را که ممکن است برای پرونده استفاده خود را دارند، از Love Without Sound سفارش دهید. با آن‌ها در تماس باشید تا در مورد گزینه‎ها به طور ویژه و فرصت‌هایی که در دسترس هستند مطلع شوید. جردن به اشتراک گذاشتن نکات، روش‌ها، کدهای آموزشی و مدل‌های به اشتراک‌گذاری نشده را دوست دارد، بنابراین با کدهای مربوط به این مطالعه موردی یا کدها و نسخه‌های نمایشی دیگر که آن‌ها در دسترس عموم منتشر کرده‌اند، از ابزارهای استفاده شده در این روش بهره‌مند شوید. با این ابزارها، می‌توانید با کار کردن با داده‌ها سریع‌تر پیشرفت کنید.