تصاویر گتی / یاروسلاو کوشتا
تصاویر گتی / یاروسلاو کوشتا

آیا داده‌های مصنوعی حرکت هوش مصنوعی مولد را متوقف می‌کنند یا پیشرفتی خواهند بود که به آن نیاز داریم؟

با ظهور هوش مصنوعی مولد، تصاویر و متون مصنوعی به دانش عمومی تبدیل شده‌اند -- اما آیا با داده‌های مصنوعی آشنا هستید؟ همانطور که از نامش پیداست، این اصطلاح به داده‌هایی اشاره دارد که به طور مصنوعی تولید می‌شوند و برای جایگزینی داده‌های واقعی استفاده می‌شوند. از آن برای ایجاد راه حل‌هایی برای مراقبت‌های بهداشتی، امور مالی، صنعت خودروسازی و مهمتر از همه هوش مصنوعی استفاده می‌شود.

داده‌های مصنوعی چنان بخش جدایی‌ناپذیری از انقلاب دیجیتال هستند که South by Southwest (SXSW) یک جلسه هوش مصنوعی با عنوان "تأثیر داده‌های شبیه‌سازی‌شده بر هوش مصنوعی و آینده" برگزار کرد که هدف آن تجزیه و تحلیل توانایی این فناوری در تقویت و پشتیبانی از هوش مصنوعی مولد و همچنین ارزیابی خطرات احتمالی بود.

پنل شامل کارشناسان متخصص مایک هالینگر، مدیر مدیریت محصول، نرم‌افزار Gen AI سازمانی در NVIDIA؛ اوجی اودزو، مدیر ارشد محصول در Typeform؛ و طاهر اکین، رئیس کرسی تحلیل کسب‌وکار در دانشگاه ایالتی تگزاس بود که همگی دیدگاه مثبتی نسبت به این فناوری داشتند.

اودزو گفت: "برای ما، [داده‌های مصنوعی] توانایی ما را برای ساختن چیز درست ارزان‌تر و بهتر می‌کند -- که یک هدف مقدس است."

برای اطلاعات بیشتر در مورد پتانسیل داده‌های مصنوعی برای پیشبرد فضای هوش مصنوعی، خطرات آن و توصیه‌های متخصصان در مورد نحوه پیشروی، ادامه مطلب را بخوانید.

مزایا

داده‌های مصنوعی به کاربران این امکان را می‌دهد تا بینش‌های دنیای واقعی را در موقعیت‌هایی شبیه‌سازی کنند که جمع‌آوری داده‌های واقعی بسیار پرهزینه، زمان‌بر یا ممکن است نگرانی‌های مربوط به حریم خصوصی را ایجاد کند -- مانند اطلاعات مالی حساس.

افزایش اخیر محبوبیت آن عمدتاً به دلیل نقش رو به رشد آن در آموزش و پالایش مدل‌های یادگیری ماشین و هوش مصنوعی است که در بحبوحه توسعه سریع این مدل‌ها در سال گذشته، به طور فزاینده‌ای حیاتی شده است.

هالینگر گفت: "با ChatGPT، با Gemini، با Claude، با DeepSeek، با هر یک از این مدل‌ها، به احتمال زیاد یک مرحله تولید مصنوعی در داده‌های آموزشی آن مدل وجود دارد. این داده‌های مصنوعی بخش‌هایی از آن مواد آموزشی را می‌گیرد و آن را تقویت می‌کند تا تغییرات مختلفی ایجاد کند تا بتوانم مدل را آموزش دهم تا هر خروجی را ارائه دهد."

داده‌های مصنوعی به ویژه برای مدل‌های هوش مصنوعی ارزشمند هستند، زیرا آنها به مجموعه‌های داده بزرگ، متنوع و با کیفیت بالا برای آموزش موثر نیاز دارند که به دست آوردن آنها دشوار یا غیرعملی است. این امر به ویژه در مورد هدف قرار دادن مجموعه‌های داده خاص، اختصاصی یا اصلی که به راحتی از طریق خراشیدن داده‌های عمومی در دسترس نیستند، صادق است.

در گزارشی که هفته گذشته منتشر شد، شرکت تحقیقاتی Gartner داده‌های مصنوعی را به عنوان یکی از روندهای برتر داده و تجزیه و تحلیل برای سال ۲۰۲۵ شناسایی کرد. به طور خاص، این گزارش استفاده از داده‌های مصنوعی را برای تکمیل مناطقی که بینش در آنها گم شده یا ناقص است یا جایگزینی داده‌های حساس برای اولویت‌بندی حریم خصوصی تشویق می‌کند.

خطرات

برای ایجاد داده‌های مصنوعی، الگوریتم‌های پیچیده یک مجموعه داده اصلی را می‌گیرند و الگوها، ساختارها و سایر ویژگی‌های موجود در آن داده را تکرار می‌کنند. با این حال، مانند هر خروجی هوش مصنوعی دیگری، احتمال وجود برخی انحرافات وجود دارد که می‌تواند تأثیر قابل توجهی داشته باشد.

هالینگر برای نشان دادن این ایده، از مثال اینکه چند ساعت در روز کنفرانس وجود داشت، استفاده کرد، که یک سوال دشوار بود، زیرا از نظر فنی، در روز یکشنبه، به دلیل صرفه‌جویی در نور روز، ۲۳ ساعت وجود داشت.

اگر نمونه‌ای از داده‌ها از روزهای تصادفی در طول سال گرفته شود، ممکن است یکی از روزهای انتخاب شده از شهری باشد که تغییرات زمانی در آن وجود دارد و یک ساعت کمتر وجود دارد. یک خط لوله داده مصنوعی که از این نمونه ساخته شده باشد، دقت مدل را پاک می‌کند.

در نتیجه، هنگام ساخت مجموعه‌های داده مصنوعی، ضروری است که داده‌ها در دنیای واقعی ریشه داشته باشند تا از این نوع ناسازگاری‌ها جلوگیری شود و اطمینان حاصل شود که مجموعه داده تا حد امکان نماینده سناریویی است که قرار است نشان دهد. با این حال، حتی هنگام اتخاذ این اقدام و در نظر گرفتن آنتروپی، اطمینان از دقت اغلب دشوار است، به گفته اودزو.

اودزو گفت: "انسان‌ها به روش‌های غیرقابل پیش‌بینی، غیرقابل پیش‌بینی هستند. چگونه تغییرات ۸ میلیارد نفر را پیش‌بینی می‌کنید؟"

فراتر از چالش‌های فنی، یکی از بزرگترین موانعی که باید بر آن غلبه کرد، جلب اعتماد کاربر هنگام استفاده از داده‌های مصنوعی به عنوان منبع اصلی برای اطلاع‌رسانی و ایجاد راه‌حل‌های جدید است. برای ایجاد این اعتماد، شفافیت در مورد نحوه تولید، اعتبارسنجی و استفاده از داده‌های مصنوعی، با تعیین حدود واضح، مانند از طریق کارت‌های مدل، مهم است.

اکین گفت: "جنبه اعتماد -- از دیدگاه کاربر، ما از این ابزارهای هوش مصنوعی استفاده می‌کنیم، اما چه حسی دارید که سوار یک خودروی خودران شوید که در جاده آزمایش نشده است، بلکه فقط با استفاده از داده‌های شبیه‌سازی‌شده آزمایش شده است؟"

نگاه به آینده

علیرغم چالش‌ها، پانل نسبت به استفاده از این فناوری در آینده هوش مصنوعی و فراتر از آن خوش‌بین بود. این بدان معنا نیست که چالش‌ها وجود ندارند یا اینکه کاری نباید انجام شود، اما پتانسیل کلی آن برای دامن زدن به رشد در همه بخش‌ها هنوز زیاد است.

اودزو گفت: "داده‌های شبیه‌سازی‌شده، زمانی که به درستی استفاده شوند، علم را ارتقا می‌دهند، نرم‌افزار را ارتقا می‌دهند، صنعت را ارتقا می‌دهند، اما ما باید حاکمیت و شفافیت را درست انجام دهیم، در غیر این صورت نمی‌توانیم به درستی از آن بهره ببریم."