با ظهور هوش مصنوعی مولد، تصاویر و متون مصنوعی به دانش عمومی تبدیل شدهاند -- اما آیا با دادههای مصنوعی آشنا هستید؟ همانطور که از نامش پیداست، این اصطلاح به دادههایی اشاره دارد که به طور مصنوعی تولید میشوند و برای جایگزینی دادههای واقعی استفاده میشوند. از آن برای ایجاد راه حلهایی برای مراقبتهای بهداشتی، امور مالی، صنعت خودروسازی و مهمتر از همه هوش مصنوعی استفاده میشود.
دادههای مصنوعی چنان بخش جداییناپذیری از انقلاب دیجیتال هستند که South by Southwest (SXSW) یک جلسه هوش مصنوعی با عنوان "تأثیر دادههای شبیهسازیشده بر هوش مصنوعی و آینده" برگزار کرد که هدف آن تجزیه و تحلیل توانایی این فناوری در تقویت و پشتیبانی از هوش مصنوعی مولد و همچنین ارزیابی خطرات احتمالی بود.
پنل شامل کارشناسان متخصص مایک هالینگر، مدیر مدیریت محصول، نرمافزار Gen AI سازمانی در NVIDIA؛ اوجی اودزو، مدیر ارشد محصول در Typeform؛ و طاهر اکین، رئیس کرسی تحلیل کسبوکار در دانشگاه ایالتی تگزاس بود که همگی دیدگاه مثبتی نسبت به این فناوری داشتند.
اودزو گفت: "برای ما، [دادههای مصنوعی] توانایی ما را برای ساختن چیز درست ارزانتر و بهتر میکند -- که یک هدف مقدس است."
برای اطلاعات بیشتر در مورد پتانسیل دادههای مصنوعی برای پیشبرد فضای هوش مصنوعی، خطرات آن و توصیههای متخصصان در مورد نحوه پیشروی، ادامه مطلب را بخوانید.
مزایا
دادههای مصنوعی به کاربران این امکان را میدهد تا بینشهای دنیای واقعی را در موقعیتهایی شبیهسازی کنند که جمعآوری دادههای واقعی بسیار پرهزینه، زمانبر یا ممکن است نگرانیهای مربوط به حریم خصوصی را ایجاد کند -- مانند اطلاعات مالی حساس.
افزایش اخیر محبوبیت آن عمدتاً به دلیل نقش رو به رشد آن در آموزش و پالایش مدلهای یادگیری ماشین و هوش مصنوعی است که در بحبوحه توسعه سریع این مدلها در سال گذشته، به طور فزایندهای حیاتی شده است.
هالینگر گفت: "با ChatGPT، با Gemini، با Claude، با DeepSeek، با هر یک از این مدلها، به احتمال زیاد یک مرحله تولید مصنوعی در دادههای آموزشی آن مدل وجود دارد. این دادههای مصنوعی بخشهایی از آن مواد آموزشی را میگیرد و آن را تقویت میکند تا تغییرات مختلفی ایجاد کند تا بتوانم مدل را آموزش دهم تا هر خروجی را ارائه دهد."
دادههای مصنوعی به ویژه برای مدلهای هوش مصنوعی ارزشمند هستند، زیرا آنها به مجموعههای داده بزرگ، متنوع و با کیفیت بالا برای آموزش موثر نیاز دارند که به دست آوردن آنها دشوار یا غیرعملی است. این امر به ویژه در مورد هدف قرار دادن مجموعههای داده خاص، اختصاصی یا اصلی که به راحتی از طریق خراشیدن دادههای عمومی در دسترس نیستند، صادق است.
در گزارشی که هفته گذشته منتشر شد، شرکت تحقیقاتی Gartner دادههای مصنوعی را به عنوان یکی از روندهای برتر داده و تجزیه و تحلیل برای سال ۲۰۲۵ شناسایی کرد. به طور خاص، این گزارش استفاده از دادههای مصنوعی را برای تکمیل مناطقی که بینش در آنها گم شده یا ناقص است یا جایگزینی دادههای حساس برای اولویتبندی حریم خصوصی تشویق میکند.
خطرات
برای ایجاد دادههای مصنوعی، الگوریتمهای پیچیده یک مجموعه داده اصلی را میگیرند و الگوها، ساختارها و سایر ویژگیهای موجود در آن داده را تکرار میکنند. با این حال، مانند هر خروجی هوش مصنوعی دیگری، احتمال وجود برخی انحرافات وجود دارد که میتواند تأثیر قابل توجهی داشته باشد.
هالینگر برای نشان دادن این ایده، از مثال اینکه چند ساعت در روز کنفرانس وجود داشت، استفاده کرد، که یک سوال دشوار بود، زیرا از نظر فنی، در روز یکشنبه، به دلیل صرفهجویی در نور روز، ۲۳ ساعت وجود داشت.
اگر نمونهای از دادهها از روزهای تصادفی در طول سال گرفته شود، ممکن است یکی از روزهای انتخاب شده از شهری باشد که تغییرات زمانی در آن وجود دارد و یک ساعت کمتر وجود دارد. یک خط لوله داده مصنوعی که از این نمونه ساخته شده باشد، دقت مدل را پاک میکند.
در نتیجه، هنگام ساخت مجموعههای داده مصنوعی، ضروری است که دادهها در دنیای واقعی ریشه داشته باشند تا از این نوع ناسازگاریها جلوگیری شود و اطمینان حاصل شود که مجموعه داده تا حد امکان نماینده سناریویی است که قرار است نشان دهد. با این حال، حتی هنگام اتخاذ این اقدام و در نظر گرفتن آنتروپی، اطمینان از دقت اغلب دشوار است، به گفته اودزو.
اودزو گفت: "انسانها به روشهای غیرقابل پیشبینی، غیرقابل پیشبینی هستند. چگونه تغییرات ۸ میلیارد نفر را پیشبینی میکنید؟"
فراتر از چالشهای فنی، یکی از بزرگترین موانعی که باید بر آن غلبه کرد، جلب اعتماد کاربر هنگام استفاده از دادههای مصنوعی به عنوان منبع اصلی برای اطلاعرسانی و ایجاد راهحلهای جدید است. برای ایجاد این اعتماد، شفافیت در مورد نحوه تولید، اعتبارسنجی و استفاده از دادههای مصنوعی، با تعیین حدود واضح، مانند از طریق کارتهای مدل، مهم است.
اکین گفت: "جنبه اعتماد -- از دیدگاه کاربر، ما از این ابزارهای هوش مصنوعی استفاده میکنیم، اما چه حسی دارید که سوار یک خودروی خودران شوید که در جاده آزمایش نشده است، بلکه فقط با استفاده از دادههای شبیهسازیشده آزمایش شده است؟"
نگاه به آینده
علیرغم چالشها، پانل نسبت به استفاده از این فناوری در آینده هوش مصنوعی و فراتر از آن خوشبین بود. این بدان معنا نیست که چالشها وجود ندارند یا اینکه کاری نباید انجام شود، اما پتانسیل کلی آن برای دامن زدن به رشد در همه بخشها هنوز زیاد است.
اودزو گفت: "دادههای شبیهسازیشده، زمانی که به درستی استفاده شوند، علم را ارتقا میدهند، نرمافزار را ارتقا میدهند، صنعت را ارتقا میدهند، اما ما باید حاکمیت و شفافیت را درست انجام دهیم، در غیر این صورت نمیتوانیم به درستی از آن بهره ببریم."