مایکروسافت در حال بررسی راهی برای اعتباردهی به مشارکت‌کنندگان در داده‌های آموزشی هوش مصنوعی است

مایکروسافت در حال راه‌اندازی یک پروژه تحقیقاتی برای تخمین میزان تأثیر نمونه‌های آموزشی خاص بر روی متن، تصاویر و سایر انواع رسانه‌هایی است که مدل‌های هوش مصنوعی مولد ایجاد می‌کنند.

این موضوع بر اساس یک آگهی شغلی مربوط به ماه دسامبر است که اخیراً در لینکدین بازنشر شده است.

بر اساس این آگهی، که به دنبال یک کارآموز تحقیقاتی است، این پروژه تلاش خواهد کرد نشان دهد که مدل‌ها را می‌توان به گونه‌ای آموزش داد که تأثیر داده‌های خاص - به عنوان مثال عکس‌ها و کتاب‌ها - بر روی خروجی‌های آن‌ها را بتوان "به طور کارآمد و مفید تخمین زد".

در این آگهی آمده است: "معماری‌های شبکه‌های عصبی فعلی از نظر ارائه منابع برای تولیدات خود مبهم هستند و دلایل خوبی برای تغییر این وضعیت وجود دارد. یکی از این دلایل، ایجاد انگیزه، شناسایی و احتمالاً پرداخت به افرادی است که داده‌های ارزشمندی را برای انواع پیش‌بینی نشده مدل‌هایی که در آینده به آن‌ها نیاز خواهیم داشت، ارائه می‌دهند، با این فرض که آینده ما را به طور اساسی شگفت‌زده خواهد کرد."

مولدهای متن، کد، تصویر، ویدئو و آهنگ مبتنی بر هوش مصنوعی در مرکز تعدادی از دعاوی حقوقی مالکیت فکری علیه شرکت‌های هوش مصنوعی قرار دارند. این شرکت‌ها اغلب مدل‌های خود را بر روی مقادیر زیادی از داده‌ها از وب‌سایت‌های عمومی آموزش می‌دهند که برخی از آن‌ها دارای حق تکثیر هستند. بسیاری از این شرکت‌ها استدلال می‌کنند که دکترین استفاده منصفانه از شیوه‌های خراش دادن داده‌ها و آموزش آن‌ها محافظت می‌کند. اما افراد خلاق - از هنرمندان گرفته تا برنامه‌نویسان و نویسندگان - تا حد زیادی مخالف این موضوع هستند.

خود مایکروسافت نیز با حداقل دو چالش قانونی از سوی دارندگان حق تکثیر روبرو است.

نیویورک تایمز در ماه دسامبر از این غول فناوری شکایت کرد و گاهی اوقات همکار آن، OpenAI، را متهم کرد که با استقرار مدل‌هایی که بر روی میلیون‌ها مقاله آن آموزش داده شده‌اند، حق تکثیر تایمز را نقض کرده‌اند. چندین توسعه‌دهنده نرم‌افزار نیز از مایکروسافت شکایت کرده‌اند و ادعا می‌کنند که دستیار کدنویسی هوش مصنوعی GitHub Copilot این شرکت به طور غیرقانونی با استفاده از آثار محافظت‌شده آن‌ها آموزش داده شده است.

تلاش تحقیقاتی جدید مایکروسافت، که این فهرست آن را "منشأ زمان آموزش" توصیف می‌کند، گزارش شده است که با مشارکت جارون لانیر، فناور ماهر و دانشمند میان‌رشته‌ای در Microsoft Research انجام می‌شود. لانیر در یک یادداشت نظر در نیویورکر در آوریل 2023، درباره مفهوم "کرامت داده" نوشت که برای او به معنای ارتباط دادن "چیزهای دیجیتال" با "انسان‌هایی است که می‌خواهند به خاطر ساختن آن شناخته شوند".

لانیر نوشت: "یک رویکرد کرامت داده، منحصربه‌فردترین و تأثیرگذارترین مشارکت‌کنندگان را هنگام ارائه یک خروجی ارزشمند توسط یک مدل بزرگ ردیابی می‌کند. به عنوان مثال، اگر از یک مدل بخواهید "یک فیلم انیمیشنی از بچه‌های من در دنیای نقاشی روغنی گربه‌های سخنگو در یک ماجراجویی" بسازد، ممکن است محاسبه شود که نقاشان روغنی، پرتره‌نگاران گربه، صداپیشگان و نویسندگان کلیدی - یا املاک آن‌ها - به طور منحصربه‌فردی برای ایجاد شاهکار جدید ضروری بوده‌اند. از آن‌ها قدردانی و به آن‌ها انگیزه داده می‌شود. حتی ممکن است به آن‌ها پول پرداخت شود."

شایان ذکر است که در حال حاضر چندین شرکت در تلاش برای انجام این کار هستند. Bria، توسعه‌دهنده مدل هوش مصنوعی، که اخیراً 40 میلیون دلار سرمایه خطرپذیر جمع‌آوری کرده است، ادعا می‌کند که به طور برنامه‌ریزی‌شده به صاحبان داده‌ها بر اساس "تأثیر کلی" آن‌ها غرامت می‌دهد. Adobe و Shutterstock نیز به طور مرتب به مشارکت‌کنندگان مجموعه داده‌ها پرداخت می‌کنند، اگرچه مقادیر دقیق پرداختی معمولاً مبهم است.

تعداد کمی از آزمایشگاه‌های بزرگ برنامه‌های پرداختی برای مشارکت‌کنندگان فردی خارج از توافقنامه‌های مجوز با ناشران، پلتفرم‌ها و دلالان داده ایجاد کرده‌اند. آن‌ها در عوض ابزاری را برای دارندگان حق تکثیر فراهم کرده‌اند تا از آموزش "انصراف" دهند. اما برخی از این فرآیندهای انصراف دشوار هستند و فقط برای مدل‌های آینده اعمال می‌شوند - نه مدل‌های آموزش‌دیده قبلی.

البته، پروژه مایکروسافت ممکن است چیزی بیش از یک اثبات مفهوم نباشد. سابقه‌ای برای این وجود دارد. در ماه مه، OpenAI گفت که در حال توسعه فناوری مشابهی است که به سازندگان اجازه می‌دهد مشخص کنند که چگونه می‌خواهند آثارشان در داده‌های آموزشی گنجانده شود - یا از آن حذف شود. اما تقریباً یک سال بعد، این ابزار هنوز به مرحله اجرا نرسیده است و اغلب به عنوان یک اولویت در داخل شرکت تلقی نشده است.

مایکروسافت همچنین ممکن است در تلاش باشد تا در اینجا "اصول اخلاقی را رعایت کند" - یا از تصمیمات نظارتی و/یا دادگاهی که برای تجارت هوش مصنوعی آن مخرب است، جلوگیری کند.

اما این واقعیت که این شرکت در حال بررسی راه‌هایی برای ردیابی داده‌های آموزشی است، با توجه به مواضع اخیراً ابراز شده سایر آزمایشگاه‌های هوش مصنوعی در مورد استفاده منصفانه، قابل توجه است. تعدادی از آزمایشگاه‌های برتر، از جمله گوگل و OpenAI، اسناد سیاستی منتشر کرده‌اند که در آن توصیه می‌کنند دولت ترامپ حمایت از حق تکثیر را در رابطه با توسعه هوش مصنوعی تضعیف کند. OpenAI به صراحت از دولت ایالات متحده خواسته است که استفاده منصفانه را برای آموزش مدل‌ها تدوین کند، که به ادعای آن، توسعه‌دهندگان را از محدودیت‌های سنگین رها می‌کند.

مایکروسافت بلافاصله به درخواست برای اظهار نظر پاسخ نداد.

https://techcrunch.com/2025/03/21/microsoft-is-exploring-a-way-to-credit-contributors-to-ai-training-data/