مایکروسافت در حال راهاندازی یک پروژه تحقیقاتی برای تخمین میزان تأثیر نمونههای آموزشی خاص بر روی متن، تصاویر و سایر انواع رسانههایی است که مدلهای هوش مصنوعی مولد ایجاد میکنند.
این موضوع بر اساس یک آگهی شغلی مربوط به ماه دسامبر است که اخیراً در لینکدین بازنشر شده است.
بر اساس این آگهی، که به دنبال یک کارآموز تحقیقاتی است، این پروژه تلاش خواهد کرد نشان دهد که مدلها را میتوان به گونهای آموزش داد که تأثیر دادههای خاص - به عنوان مثال عکسها و کتابها - بر روی خروجیهای آنها را بتوان "به طور کارآمد و مفید تخمین زد".
در این آگهی آمده است: "معماریهای شبکههای عصبی فعلی از نظر ارائه منابع برای تولیدات خود مبهم هستند و دلایل خوبی برای تغییر این وضعیت وجود دارد. یکی از این دلایل، ایجاد انگیزه، شناسایی و احتمالاً پرداخت به افرادی است که دادههای ارزشمندی را برای انواع پیشبینی نشده مدلهایی که در آینده به آنها نیاز خواهیم داشت، ارائه میدهند، با این فرض که آینده ما را به طور اساسی شگفتزده خواهد کرد."
مولدهای متن، کد، تصویر، ویدئو و آهنگ مبتنی بر هوش مصنوعی در مرکز تعدادی از دعاوی حقوقی مالکیت فکری علیه شرکتهای هوش مصنوعی قرار دارند. این شرکتها اغلب مدلهای خود را بر روی مقادیر زیادی از دادهها از وبسایتهای عمومی آموزش میدهند که برخی از آنها دارای حق تکثیر هستند. بسیاری از این شرکتها استدلال میکنند که دکترین استفاده منصفانه از شیوههای خراش دادن دادهها و آموزش آنها محافظت میکند. اما افراد خلاق - از هنرمندان گرفته تا برنامهنویسان و نویسندگان - تا حد زیادی مخالف این موضوع هستند.
خود مایکروسافت نیز با حداقل دو چالش قانونی از سوی دارندگان حق تکثیر روبرو است.
نیویورک تایمز در ماه دسامبر از این غول فناوری شکایت کرد و گاهی اوقات همکار آن، OpenAI، را متهم کرد که با استقرار مدلهایی که بر روی میلیونها مقاله آن آموزش داده شدهاند، حق تکثیر تایمز را نقض کردهاند. چندین توسعهدهنده نرمافزار نیز از مایکروسافت شکایت کردهاند و ادعا میکنند که دستیار کدنویسی هوش مصنوعی GitHub Copilot این شرکت به طور غیرقانونی با استفاده از آثار محافظتشده آنها آموزش داده شده است.
تلاش تحقیقاتی جدید مایکروسافت، که این فهرست آن را "منشأ زمان آموزش" توصیف میکند، گزارش شده است که با مشارکت جارون لانیر، فناور ماهر و دانشمند میانرشتهای در Microsoft Research انجام میشود. لانیر در یک یادداشت نظر در نیویورکر در آوریل 2023، درباره مفهوم "کرامت داده" نوشت که برای او به معنای ارتباط دادن "چیزهای دیجیتال" با "انسانهایی است که میخواهند به خاطر ساختن آن شناخته شوند".
لانیر نوشت: "یک رویکرد کرامت داده، منحصربهفردترین و تأثیرگذارترین مشارکتکنندگان را هنگام ارائه یک خروجی ارزشمند توسط یک مدل بزرگ ردیابی میکند. به عنوان مثال، اگر از یک مدل بخواهید "یک فیلم انیمیشنی از بچههای من در دنیای نقاشی روغنی گربههای سخنگو در یک ماجراجویی" بسازد، ممکن است محاسبه شود که نقاشان روغنی، پرترهنگاران گربه، صداپیشگان و نویسندگان کلیدی - یا املاک آنها - به طور منحصربهفردی برای ایجاد شاهکار جدید ضروری بودهاند. از آنها قدردانی و به آنها انگیزه داده میشود. حتی ممکن است به آنها پول پرداخت شود."
شایان ذکر است که در حال حاضر چندین شرکت در تلاش برای انجام این کار هستند. Bria، توسعهدهنده مدل هوش مصنوعی، که اخیراً 40 میلیون دلار سرمایه خطرپذیر جمعآوری کرده است، ادعا میکند که به طور برنامهریزیشده به صاحبان دادهها بر اساس "تأثیر کلی" آنها غرامت میدهد. Adobe و Shutterstock نیز به طور مرتب به مشارکتکنندگان مجموعه دادهها پرداخت میکنند، اگرچه مقادیر دقیق پرداختی معمولاً مبهم است.
تعداد کمی از آزمایشگاههای بزرگ برنامههای پرداختی برای مشارکتکنندگان فردی خارج از توافقنامههای مجوز با ناشران، پلتفرمها و دلالان داده ایجاد کردهاند. آنها در عوض ابزاری را برای دارندگان حق تکثیر فراهم کردهاند تا از آموزش "انصراف" دهند. اما برخی از این فرآیندهای انصراف دشوار هستند و فقط برای مدلهای آینده اعمال میشوند - نه مدلهای آموزشدیده قبلی.
البته، پروژه مایکروسافت ممکن است چیزی بیش از یک اثبات مفهوم نباشد. سابقهای برای این وجود دارد. در ماه مه، OpenAI گفت که در حال توسعه فناوری مشابهی است که به سازندگان اجازه میدهد مشخص کنند که چگونه میخواهند آثارشان در دادههای آموزشی گنجانده شود - یا از آن حذف شود. اما تقریباً یک سال بعد، این ابزار هنوز به مرحله اجرا نرسیده است و اغلب به عنوان یک اولویت در داخل شرکت تلقی نشده است.
مایکروسافت همچنین ممکن است در تلاش باشد تا در اینجا "اصول اخلاقی را رعایت کند" - یا از تصمیمات نظارتی و/یا دادگاهی که برای تجارت هوش مصنوعی آن مخرب است، جلوگیری کند.
اما این واقعیت که این شرکت در حال بررسی راههایی برای ردیابی دادههای آموزشی است، با توجه به مواضع اخیراً ابراز شده سایر آزمایشگاههای هوش مصنوعی در مورد استفاده منصفانه، قابل توجه است. تعدادی از آزمایشگاههای برتر، از جمله گوگل و OpenAI، اسناد سیاستی منتشر کردهاند که در آن توصیه میکنند دولت ترامپ حمایت از حق تکثیر را در رابطه با توسعه هوش مصنوعی تضعیف کند. OpenAI به صراحت از دولت ایالات متحده خواسته است که استفاده منصفانه را برای آموزش مدلها تدوین کند، که به ادعای آن، توسعهدهندگان را از محدودیتهای سنگین رها میکند.
مایکروسافت بلافاصله به درخواست برای اظهار نظر پاسخ نداد.