ما با جردن دیویس، بنیانگذار Love Without Sound، در مورد چگونگی ساخت ابزارهای نوآورانه مبتنی بر هوش مصنوعی برای صنعت موسیقی و شرکتهای حقوقی متخصص در مذاکرات حق امتیاز صحبت کردیم و به ناشران کمک کردیم تا صدها میلیون دلار درآمد از دست رفته را برای هنرمندان بازیابی کنند.
Love Without Sound مجموعهای ماژولار از ابزارهای پردازش زبان طبیعی (NLP) است که شامل مدلی برای استانداردسازی فرادادههای میلیاردها قطعه موسیقی، طبقهبندیکنندهها برای پردازش بیدرنگ مکاتبات حقوقی در ایمیلها و پیوستها، و یک خط لوله تشخیص استناد به پرونده است که استدلالهای متقابل را پیشنهاد میکند و نتایج مذاکره را پیشبینی میکند. جردن با کمک ابزارهای مدرن توسعهدهندگان، توانست ویژگیهای جدید هوش مصنوعی را به طور کامل در داخل شرکت ایجاد کند. مدلها بسیار دقیق هستند، سریع اجرا میشوند و در یک محیط کاملاً خصوصی از نظر دادهها مستقر شدهاند.
ابزارهای مبتنی بر NLP برای صنعت موسیقی
شرکتهای بزرگ اغلب از موسیقی برای تبلیغات و سایر محتوای تبلیغاتی، از جمله آثار هنرمندان نوظهور، استفاده میکنند. در واقع، بسیاری از گروهها با حضور در تبلیغات تلویزیونی کار خود را آغاز کردند. با این حال، با وجود پلتفرمها و کانالهای رسانههای اجتماعی پراکنده برای کشورها و بازارهای مختلف، موسیقی اغلب در زمینههایی منتشر میشود که در اصل مجوز آن صادر نشده است. این منجر به از دست رفتن میلیونها دلار حق امتیاز میشود. هنرمندان اغلب برای نظارت بر این موضوع و مطالبه غرامتهایی که به آنها تعلق میگیرد، ناتوان هستند، بنابراین Love Without Sound به برچسبهای آنها کمک میکند تا حق امتیازهای موسیقی مورد استفاده بدون مجوز مناسب را پیدا و بازیابی کنند.
این فرآیند همچنین میتواند شامل مکاتبات و مذاکرات گسترده حقوقی باشد که روزانه هزاران ایمیل ارسال میشود. ابزارهای جردن به شرکتهای حقوقی کمک میکند تا این فرآیند را سادهتر کرده و معاملات مجوز و توافقنامههایی را برای جبران خسارت هنرمندان تنظیم کنند. (به عنوان مثال، در سال 2020، شرکت دوچرخهسواری Peloton 300 میلیون دلار پرداخت کرد تا شکایتی را تسویه کند به دلیل استفاده از آهنگهای بیانسه، مارون 5 و بسیاری از هنرمندان دیگر در ویدیوهای تمرینی خود بدون اجازه. و در آلمان، حزب آنگلا مرکل، صدراعظم وقت، مجبور شد از استفاده از آهنگ "Angie" رولینگ استونز به عنوان سرود غیرمجاز مبارزات انتخاباتی خودداری کند.)
استانداردسازی فرادادههای ساختاریافته موسیقی
در هسته این راه حل، فرادادههای موسیقی ساختاریافته با کیفیت بالا قرار دارد. بدون آن، تطبیق دقیق هنرمندان و آثارشان غیرممکن است. اگر در روزهای اولیه اینترنت موسیقی دیجیتال جمعآوری میکردید، ممکن است فرادادههای نامرتب و تگهای ID3 را به خاطر داشته باشید. در حالی که این چیزی است که نباید امروزه مشکلی باشد، در واقع شایعتر از همیشه است. Spotify تقریباً 40000 قطعه جدید در روز دریافت میکند و 15٪ از آنها حاوی فرادادههای نادرست هستند.
هیچ استانداردی برای نحوه یادداشت هنرمندان برجسته، نسخههای زنده یا ریمیکسها در اطلاعات آهنگ وجود ندارد. و در حالی که قالببندی خودکار در برنامههایی مانند اکسل میتواند یک نعمت باشد، اما میتواند به اشتباه عناوینی مانند "4:44" جی زی یا "7/11" بیانسه را به اعداد اعشاری یا اشیاء datetime تبدیل کند.
این چیزی بیشتر از یک مزاحمت برای شنونده است. فرادادههای نادرست میتواند منجر به این شود که آهنگها و حتی کل آلبومها به اشتباه به هنرمندان دیگر در پلتفرمهای پخش مانند Spotify نسبت داده شوند، که به نوبه خود منجر به پرداخت حق امتیاز به هنرمندان و برچسبهای اشتباه میشود، یا اصلاً پرداخت نمیشود. برآوردها نشان میدهد که 2.5 میلیارد دلار حق امتیاز بین سالهای 2016 و 2018 تنها در ایالات متحده به دلیل مسائل مربوط به فراداده تخصیص نیافته باقی مانده است. این مشکل سیستمی به طور نامتناسبی بر هنرمندان مستقل تأثیر میگذارد.
در واقع، جردن پس از دریافت چکهای حق امتیاز قابل توجه برای یک خواننده کانتری با همین نام، که آهنگهایش به اشتباه به او نسبت داده شده بود، ایده محصولات خود را دریافت کرد. معلوم شد که تیم هنرمند قبلاً در حال جستجوی این حق امتیازها بوده و قادر به یافتن نحوه گم شدن آنها نبودهاند.
من از قبل از مشکل فراداده در صنعت آگاه بودم، اما این وضعیت بسیار روشنگر بود. هنرمندان به معنای واقعی کلمه به دلیل اشتباهات شناسایی اولیه پول از دست میدهند. آن زمان بود که فهمیدم هیچ راه حل موثری وجود ندارد و میخواستم یکی ایجاد کنم.
— جردن دیویس
برای حل این مشکل، جردن یک خط لوله spaCy با تشخیص موجودیت نامدار و اجزای دستهبندی متن ایجاد کرد که اطلاعات آهنگ و هنرمند را در یک پایگاه داده 2 میلیارد ردیفی نرمال و استاندارد میکند. مدلها اجزایی مانند عناوین آهنگ، هنرمندان برجسته و اصلاحکنندهها مانند نسخههای زنده یا ریمیکسها را استخراج میکنند. سپس این اصلاحکنندهها را طبقهبندی کرده و شناسههای سلسله مراتبی برای گروهبندی نسخههای مرتبط آهنگ ایجاد میکنند.
برای ایجاد دادهها، جردن با حاشیهنویسی یک نمونه کوچک با استفاده از دستور Prodigy's ner.manual شروع کرد و یک مدل اولیه را آموزش داد. با ورود دادههای جدید، او از ner.correct با مدل در حلقه استفاده میکند تا پیشبینیها را در رابط کاربری بررسی کند و در صورت لزوم اصلاحات را انجام دهد. سپس خط لوله را با دستور train Prodigy دوباره آموزش میدهد.
اگر درخواستهای جدید مشتری یا اضافاتی به کاتالوگ موسیقی وجود داشته باشد، میتوانم به سادگی Prodigy را اجرا کنم، یک مجموعه داده جدید با نمونهها و موارد حاشیهای بیشتر ایجاد کنم و مدل را به روز کنم. این نتایج را به روز نگه میدارد و یک فرآیند سازگار و مداوم به من میدهد.
— جردن دیویس
ایجاد ساختار در اسناد و مذاکرات حقوقی
در حالی که مذاکرات به طور کلی از طریق تلفن انجام میشود، بخشهای مهم اغلب در ایمیلها یافت میشود که بین چندین بلوک سلب مسئولیت قرار گرفتهاند. به عنوان اولین قدم برای استخراج مطالب در یک قالب ساختاریافته، جردن یک طبقهبندیکننده برای تشخیص شروع و پایان یک پیام ایجاد کرد. پس از استخراج متن پیام، طبقهبندیکننده مکاتبات، ارتباطات تجاری اساسی را از ایمیلهای غیرضروری مانند خبرنامهها و دعوتنامههای جلسه متمایز میکند. سپس دادههای ساختاریافته را از ایمیلهای مربوطه استخراج میکند.
یکی دیگر از زمینههایی که از ویژگیهای خودکار NLP بهره میبرد، تشخیص استناد به پرونده است. تعداد محدودی از پروندههایی وجود دارد که ممکن است در طول مذاکرات به آنها استناد شود، و استدلالهایی که در اشاره به یک پرونده مطرح میشوند. با استفاده از یک پایگاه داده از پروندهها و استدلالها، سیستم قادر است استدلالهای متقابل مناسب را توصیه کند و جهت یک پرونده را با توجه به استدلالهای مورد استفاده و حجم زیادی از مذاکرات قبلی پیشبینی کند. این به شرکتهای حقوقی اجازه میدهد تا عملیات قانونی خود را در مقیاس بزرگ تسریع کنند و زمان تحقیق را تقریباً 50٪ کاهش داده است.
جردن با تعامل با دادهها و تکرار اجزا و تعاریف با استفاده از Prodigy، توانست مشکل پیچیده تجاری ("شرکتهای حقوقی را سازندهتر کنید") را به مراحل جداگانهای که میتوان با یادگیری ماشین حل کرد، تجزیه کند.
آنچه در مورد Prodigy دوست دارم این است که تکرار و امتحان کردن ایدهها را واقعاً آسان میکند. شما اغلب نمیدانید که آیا چیزی کار میکند تا زمانی که آن را امتحان کنید. به عنوان مثال، تشخیص محتوای ایمیل در ابتدا یک ایده احمقانه به نظر میرسید، اما سپس آن را امتحان کردم و عالی کار کرد. در موارد دیگر، من با یک طرح برچسب شروع میکنم و به محض تعامل با دادهها، متوجه میشوم که آنچه را که به دنبالش هستم به اندازه کافی واضح تعریف نکردهام. Prodigy به من اجازه میدهد تا طرحها و تعاریف خود را تکرار کنم و مدلهای بسیار بهتری را از این طریق بسازم.
— جردن دیویس
راه حل سرتاسری از یک خط لوله spaCy تشکیل شده است که از اجزای مبتنی بر ترانسفورماتور و CNN برای تشخیص موجودیت نامدار، دستهبندی بازه و دستهبندی متن استفاده میکند:
- استخراج استناد حقوقی: استنادهای پرونده را شناسایی کرده و آنها را به استدلالهای خاصی که از آنها پشتیبانی میکنند، نگاشت کنید.
- استخراج مرجع موسیقی: مراجع آهنگها را به شناسههای منحصر به فرد در پایگاه داده پیوند دهید.
- ردیابی درخواست: موارد اقدام و درخواستهای صریح یا ضمنی را استخراج کنید، فوریت آنها را طبقهبندی کنید و یک داشبورد بیدرنگ از درخواستهای معلق ایجاد کنید.
علاوه بر محتوای ایمیل، پیوستها نیز طبقهبندی میشوند و نقاط داده مهم استخراج میشوند. برای توافقنامههای تسویه حساب، سیستم مهلتهای پرداخت، مبالغ و حقوق اعطا شده را شناسایی میکند. برای توافقنامههای تعلیق، تاریخهای کلیدی و مفاد تمدید را برجسته میکند. نامهها، ثبت نامهای حق چاپ، مجوزها و سایر اسناد رایج نیز پردازش شده و به قسمت مربوطه سیستم ارسال میشوند. برای قراردادها و توافقنامههای PDF، جردن از یک جزء تشخیص امضا استفاده میکند که بلوکهای امضا را پیدا کرده و آنها را به عنوان امضا شده یا امضا نشده طبقهبندی میکند.
استخراج مرجع موسیقی سرتاسری
هنگامی که از آهنگها در مکاتبات یاد میشود، سیستم این مراجع را به شناسههای منحصر به فرد در پایگاه داده فراداده موسیقی خود پیوند میدهد. این امکان تأیید سریع ادعاهای مجوز را فراهم میکند و زمینه اساسی را برای راهنمایی مشتریان Love Without Sound در تصمیمگیری آگاهانه فراهم میکند.
وقتی spaCy را کشف کردم، بلافاصله به تمام سوالات من پاسخ داد! خط لوله استخراج spaCy ما مدیریت مجوز و تجزیه و تحلیل ثبت نام حق چاپ را متحول کرده است و حمایت از برچسبهای ضبط و هنرمندان را بسیار سریعتر و موفقتر کرده است.
— جردن دیویس
برنامههای آینده و کار در حال انجام
با حجم زیاد فراداده، یافتن سریع اطلاعات مناسب میتواند به یک چالش تبدیل شود. جردن در حال حاضر یک خط لوله تولید تقویتشده بازیابی (RAG) سفارشی برای پرس و جو از تاریخچه پرونده و اطلاعات هنرمند با SQL و زبان طبیعی میسازد. وظیفه اصلی مدل زبان بزرگ (LLM) ترجمه سوال زبان طبیعی به پرس و جوهای SQL مناسب است، یک کار به وضوح تعریف شده که امکان استفاده از یک مدل کوچکتر را فراهم میکند که به طور ایدهآل به صورت خصوصی در محل اجرا میشود.
جردن همچنین روی یک مدل جاسازی صوتی موسیقیایی کار میکند که دادههای صوتی را بر اساس ویژگیهای صوتی به جای فراداده ساختار میدهد. سپس میتواند آهنگهای مرتبط، از جمله ریمیکسها، نمونهها و آهنگهایی با شباهتهای تولید را به موقعیتهای برداری نزدیک نگاشت کند. با استفاده از این رویکرد، سیستم قادر خواهد بود ناسازگاریهای فرادادهای بیشتری را شناسایی کند، ادعاهای مدیریت حقوق را تأیید کند و توصیههای مبتنی بر محتوا را فعال کند.
نتایج و ارزیابی
اسناد حقوقی و اطلاعات مالی هنرمندان و مشاغل بسیار محرمانه هستند، بنابراین تمام مدلها و برنامهها باید به صورت محلی در یک محیط خصوصی از نظر دادهها اجرا شوند. خطوط لوله همچنین باید سریع عمل کنند تا بتوانند ایمیلها و پیوستها را در زمان واقعی پردازش کنند و کاتالوگهای موسیقی را با میلیونها آهنگ و فرادادههای آنها مدیریت کنند. جردن تصمیم گرفت مدلهای جداگانهای را برای هر ویژگی آموزش دهد که میتوانند به صورت آزادانه توسط برنامه ترکیب شوند. این راه حل را بسیار ماژولار نگه میدارد. این همچنین به این معنی است که هر جزء میتواند به طور جداگانه توسعه، بهبود و ارزیابی شود. برای جزئیات و نتایج ارزیابی بیشتر، مواد عمیق را ببینید.
1. امتیاز F برای ner و spancat و امتیاز AUC با میانگین کلان برای textcat چند برچسبی.
2. کلمات در ثانیه.
3. این مدل از برچسبهای پیشبینی شده از اجزای قبلی استفاده میکند که آن را بسیار سریعتر میکند.
4. این مدل از نمونههای متنی بسیار کوچکتری استفاده میکند که نتایج ارزیابی سرعت بالاتر را توضیح میدهد.
5. این مدل در درجه اول برای ارائه زمینه اضافی استفاده میشود. سرعت گزارش شده کمتر ممکن است نتیجه روش ارزیابی باشد و در آینده به روز شود.
| جزء | نوع | برچسب ها | دقت1 | سرعت2 |
|---|---|---|---|---|
| استخراج فراداده (آهنگ ها) | ner |
3 | 0.94 | 6,217 |
| استخراج فراداده (هنرمندان) | ner |
2 | 0.93 | 1,696 |
| استخراج فراداده (اصلاح کننده ها)3 | textcat |
5 | 0.99 | 447,493 |
| طبقه بندی مکاتبات4 | textcat |
1 | 0.98 | 587,907 |
| استخراج بدنه ایمیل | ner |
2 | 0.90 | 13,923 |
| طبقه بندی پیوست | textcat |
9 | 0.98 | 2,831 |
| طبقه بندی بخش توافقنامه حقوقی | textcat |
38 | 0.92 | 11,765 |
| استخراج بازه توافقنامه حقوقی5 | spancat |
3 | 0.94 | 306 |
خط لوله استخراج فراداده آهنگ در مقیاس بزرگ عمل میکند و در حال حاضر میلیاردها قطعه موسیقی را مدیریت میکند، در حالی که مدلهای پردازش حقوقی به صورت بیدرنگ کار میکنند و به شرکتهای حقوقی اجازه میدهند جریان اطلاعات را در مقیاس بزرگ با دقت و صحت قابل اعتماد ردیابی کنند.
وقتی برای اولین بار شروع به کار کردم، به من گفتند این پروژه شدنی نیست. اما در عرض یک سال و نیم توانستهام راه حلی را بسازم که با یک تیم کوچک به طور واقعی صنعت موسیقی را تحت تاثیر قرار میدهد.
— جردن دیویس
چه چیز دیگری؟
شما میتوانید کل خط لوله یا فقط اجزای خاصی را که ممکن است برای پرونده استفاده خود را دارند، از Love Without Sound سفارش دهید. با آنها در تماس باشید تا در مورد گزینهها به طور ویژه و فرصتهایی که در دسترس هستند مطلع شوید. جردن به اشتراک گذاشتن نکات، روشها، کدهای آموزشی و مدلهای به اشتراکگذاری نشده را دوست دارد، بنابراین با کدهای مربوط به این مطالعه موردی یا کدها و نسخههای نمایشی دیگر که آنها در دسترس عموم منتشر کردهاند، از ابزارهای استفاده شده در این روش بهرهمند شوید. با این ابزارها، میتوانید با کار کردن با دادهها سریعتر پیشرفت کنید.