توانمندسازی هوش مصنوعی سری زمانی: چگونه سیلس‌فورس از داده‌های مصنوعی برای بهبود مدل‌های پایه استفاده می‌کند

تحلیل سری‌های زمانی با موانع قابل توجهی در دسترسی، کیفیت و تنوع داده‌ها مواجه است؛ عواملی که در توسعه مدل‌های پایه مؤثر حیاتی هستند. مجموعه داده‌های دنیای واقعی اغلب به دلیل محدودیت‌های قانونی، سوگیری‌های ذاتی، کیفیت پایین و حاشیه‌نویسی‌های متنی زوج محدود، کوتاه می‌آیند و ایجاد مدل‌های پایه سری زمانی (TSFMs) و مدل‌های سری زمانی مبتنی بر مدل‌های زبانی بزرگ (TSLLMs) قوی و قابل تعمیم را دشوار می‌سازند. این کمبود بر وظایفی مانند پیش‌بینی، طبقه‌بندی، تشخیص ناهنجاری، استدلال و تولید شرح تأثیر می‌گذارد و پتانسیل کامل پیشرفت‌های کنونی در هوش مصنوعی را محدود می‌کند.

تحقیقات هوش مصنوعی سیلس‌فورس (Salesforce AI Research) با پیشنهاد رویکردی جامع برای استفاده از داده‌های مصنوعی جهت تقویت TSFMها و TSLLMها، به این چالش‌ها پرداخته است. مطالعه اخیر آن‌ها، «توانمندسازی تحلیل سری زمانی با داده‌های مصنوعی»، استراتژی نوینی را برای استفاده از داده‌های مصنوعی به منظور بهبود آموزش، ارزیابی و تنظیم دقیق مدل ارائه می‌دهد، با تمرکز بر کاهش سوگیری‌ها، افزایش تنوع مجموعه داده‌ها و غنی‌سازی اطلاعات زمینه‌ای. با توسعه چارچوب‌های نوآورانه تولید داده و ترکیب مجموعه داده‌های مصنوعی، هوش مصنوعی سیلس‌فورس قصد دارد کاربرد عملی TSFMها و TSLLMها را، به ویژه در حوزه‌های حساسی مانند مراقبت‌های بهداشتی و مالی که اشتراک‌گذاری داده‌ها به شدت تنظیم شده است، پیش ببرد.

سنگ بنای فنی روش‌شناسی تحقیقات هوش مصنوعی سیلس‌فورس شامل رویکردهای مختلف تولید داده‌های مصنوعی است که هر کدام به جنبه‌های خاصی از دینامیک سری‌های زمانی مانند روندها، الگوهای فصلی و ویژگی‌های نویز می‌پردازند. به عنوان مثال، روش ForecastPFN روندهای خطی-نمایی و فصلی‌های دوره‌ای را با نویز توزیع شده ویبول (Weibull) ترکیب می‌کند و به طور مؤثر سناریوهای واقعی و در عین حال متنوع را شبیه‌سازی می‌کند. به طور مشابه، TimesFM روندهای خطی تکه‌ای و مدل‌های میانگین متحرک خودرگرسیو (ARMA) را با الگوهای دوره‌ای ادغام می‌کند. تکنیک نوآورانه دیگری، KernelSynth توسط Chronos، از فرآیندهای گاوسی (GPs) ترکیب شده با کرنل‌های خطی، دوره‌ای و تابع پایه شعاعی (RBF) برای تولید مجموعه داده‌های مصنوعی غنی استفاده می‌کند. این روش‌ها امکان ایجاد داده‌های مصنوعی کنترل‌شده و در عین حال متنوع را فراهم می‌کنند که به ثبت طیف وسیعی از رفتارهای واقعی سری‌های زمانی کمک می‌کند.

یافته‌های تیم سیلس‌فورس مزایای قابل توجهی را که از داده‌های مصنوعی در مراحل مختلف توسعه مدل حاصل می‌شود، برجسته می‌کند. در پیش‌آموزش، مجموعه داده‌های مصنوعی بهبودهای عملکردی واضحی را ارائه دادند که به ویژه در مدل‌هایی مانند ForecastPFN، Mamba4Cast و TimesFM نشان داده شد. به عنوان مثال، ForecastPFN که به طور کامل بر روی داده‌های مصنوعی پیش‌آموزش دیده بود، بهبودهای قابل توجهی در سناریوهای پیش‌بینی بدون نمونه (zero-shot) نشان داد، در حالی که Chronos دریافت که با ترکیب حدود ۱۰٪ داده مصنوعی با مجموعه داده‌های دنیای واقعی، بهینه‌ترین افزایش عملکرد حاصل می‌شود و فراتر از آن، داده‌های مصنوعی اضافی به دلیل نمایش‌های کمتر متنوع، پتانسیل کاهش عملکرد را دارد. علاوه بر این، داده‌های مصنوعی نقش حیاتی در ارزیابی نیز ایفا کردند و به محققان امکان دادند تا توانایی‌های مدل را به دقت ارزیابی کنند، نمایش‌های داخلی را درک کنند و شکاف‌های الگوهای آموخته شده را شناسایی کنند. Moment از امواج سینوسی تولید شده مصنوعی برای ارزیابی تعبیه‌سازی‌های داخلی و حساسیت مدل به تغییرات در ویژگی‌های سری زمانی استفاده کرد و اثربخشی آن را در ثبت روندها و فرکانس‌های ظریف نشان داد.

این مقاله همچنین به محدودیت‌های فعلی در استفاده از داده‌های مصنوعی می‌پردازد و زمینه‌هایی را برای بهبود در آینده شناسایی می‌کند. یک شکاف حیاتی، فقدان روش‌های یکپارچه‌سازی سیستماتیک برای مجموعه داده‌های مصنوعی است که نیاز به چارچوب‌های ساختاریافته برای شناسایی و پر کردن استراتژیک الگوهای داده‌های دنیای واقعیِ گم‌شده را نشان می‌دهد. محدودیت دیگری که ذکر شده، غلبه روش‌های آماری است که منجر به فراخوانی برای کاوش تکنیک‌های تولید داده مبتنی بر داده، مانند مدل‌های انتشاری (diffusion models)، برای افزایش واقع‌گرایی می‌شود. محققان سیلس‌فورس همچنین بر پتانسیل استفاده نشده از داده‌های مصنوعی در مراحل تنظیم دقیق برای رسیدگی مؤثرتر و تطبیقی‌تر به شکاف‌های دامنه خاص یا نقاط ضعف مدل تأکید می‌کنند.

در نتیجه، تحقیقات هوش مصنوعی سیلس‌فورس نشان می‌دهد که داده‌های مصنوعی مجموعه ابزار قدرتمندی برای غلبه بر چالش‌های مربوط به داده در تحلیل سری‌های زمانی ارائه می‌دهد. با ادغام سیستماتیک مجموعه داده‌های مصنوعی با کیفیت بالا در مراحل مختلف توسعه مدل، TSFMها و TSLLMها می‌توانند به تعمیم‌پذیری افزایش یافته، سوگیری‌های کاهش یافته و عملکرد بهبود یافته در وظایف تحلیلی متنوع دست یابند. علی‌رغم محدودیت‌های موجود، مانند تضمین واقع‌گرایی و هم‌ترازی، پیشرفت فعال و کاوش در روش‌های تولید داده‌های مصنوعی، پتانسیل قابل توجهی را نشان می‌دهد. تحقیقات آینده، همانطور که توسط سیلس‌فورس پیشنهاد شده است، باید بر بهبود واقع‌گرایی داده‌ها، رسیدگی سیستماتیک به شکاف‌های داده‌ها و بهره‌برداری از فرآیندهای تولید داده مصنوعی تکراری و با دخالت انسان تمرکز کند. این پیشرفت‌ها می‌توانند به طور چشمگیری قابلیت کاربرد و اطمینان مدل‌های سری زمانی را گسترش دهند و پایه‌ای محکم برای نوآوری‌های آینده در هوش مصنوعی ایجاد کنند.

مقاله پژوهشی را در اینجا بررسی کنید. تمام اعتبار این تحقیق متعلق به پژوهشگران این پروژه است.