تحلیل سریهای زمانی با موانع قابل توجهی در دسترسی، کیفیت و تنوع دادهها مواجه است؛ عواملی که در توسعه مدلهای پایه مؤثر حیاتی هستند. مجموعه دادههای دنیای واقعی اغلب به دلیل محدودیتهای قانونی، سوگیریهای ذاتی، کیفیت پایین و حاشیهنویسیهای متنی زوج محدود، کوتاه میآیند و ایجاد مدلهای پایه سری زمانی (TSFMs) و مدلهای سری زمانی مبتنی بر مدلهای زبانی بزرگ (TSLLMs) قوی و قابل تعمیم را دشوار میسازند. این کمبود بر وظایفی مانند پیشبینی، طبقهبندی، تشخیص ناهنجاری، استدلال و تولید شرح تأثیر میگذارد و پتانسیل کامل پیشرفتهای کنونی در هوش مصنوعی را محدود میکند.
تحقیقات هوش مصنوعی سیلسفورس (Salesforce AI Research) با پیشنهاد رویکردی جامع برای استفاده از دادههای مصنوعی جهت تقویت TSFMها و TSLLMها، به این چالشها پرداخته است. مطالعه اخیر آنها، «توانمندسازی تحلیل سری زمانی با دادههای مصنوعی»، استراتژی نوینی را برای استفاده از دادههای مصنوعی به منظور بهبود آموزش، ارزیابی و تنظیم دقیق مدل ارائه میدهد، با تمرکز بر کاهش سوگیریها، افزایش تنوع مجموعه دادهها و غنیسازی اطلاعات زمینهای. با توسعه چارچوبهای نوآورانه تولید داده و ترکیب مجموعه دادههای مصنوعی، هوش مصنوعی سیلسفورس قصد دارد کاربرد عملی TSFMها و TSLLMها را، به ویژه در حوزههای حساسی مانند مراقبتهای بهداشتی و مالی که اشتراکگذاری دادهها به شدت تنظیم شده است، پیش ببرد.
سنگ بنای فنی روششناسی تحقیقات هوش مصنوعی سیلسفورس شامل رویکردهای مختلف تولید دادههای مصنوعی است که هر کدام به جنبههای خاصی از دینامیک سریهای زمانی مانند روندها، الگوهای فصلی و ویژگیهای نویز میپردازند. به عنوان مثال، روش ForecastPFN روندهای خطی-نمایی و فصلیهای دورهای را با نویز توزیع شده ویبول (Weibull) ترکیب میکند و به طور مؤثر سناریوهای واقعی و در عین حال متنوع را شبیهسازی میکند. به طور مشابه، TimesFM روندهای خطی تکهای و مدلهای میانگین متحرک خودرگرسیو (ARMA) را با الگوهای دورهای ادغام میکند. تکنیک نوآورانه دیگری، KernelSynth توسط Chronos، از فرآیندهای گاوسی (GPs) ترکیب شده با کرنلهای خطی، دورهای و تابع پایه شعاعی (RBF) برای تولید مجموعه دادههای مصنوعی غنی استفاده میکند. این روشها امکان ایجاد دادههای مصنوعی کنترلشده و در عین حال متنوع را فراهم میکنند که به ثبت طیف وسیعی از رفتارهای واقعی سریهای زمانی کمک میکند.
یافتههای تیم سیلسفورس مزایای قابل توجهی را که از دادههای مصنوعی در مراحل مختلف توسعه مدل حاصل میشود، برجسته میکند. در پیشآموزش، مجموعه دادههای مصنوعی بهبودهای عملکردی واضحی را ارائه دادند که به ویژه در مدلهایی مانند ForecastPFN، Mamba4Cast و TimesFM نشان داده شد. به عنوان مثال، ForecastPFN که به طور کامل بر روی دادههای مصنوعی پیشآموزش دیده بود، بهبودهای قابل توجهی در سناریوهای پیشبینی بدون نمونه (zero-shot) نشان داد، در حالی که Chronos دریافت که با ترکیب حدود ۱۰٪ داده مصنوعی با مجموعه دادههای دنیای واقعی، بهینهترین افزایش عملکرد حاصل میشود و فراتر از آن، دادههای مصنوعی اضافی به دلیل نمایشهای کمتر متنوع، پتانسیل کاهش عملکرد را دارد. علاوه بر این، دادههای مصنوعی نقش حیاتی در ارزیابی نیز ایفا کردند و به محققان امکان دادند تا تواناییهای مدل را به دقت ارزیابی کنند، نمایشهای داخلی را درک کنند و شکافهای الگوهای آموخته شده را شناسایی کنند. Moment از امواج سینوسی تولید شده مصنوعی برای ارزیابی تعبیهسازیهای داخلی و حساسیت مدل به تغییرات در ویژگیهای سری زمانی استفاده کرد و اثربخشی آن را در ثبت روندها و فرکانسهای ظریف نشان داد.
این مقاله همچنین به محدودیتهای فعلی در استفاده از دادههای مصنوعی میپردازد و زمینههایی را برای بهبود در آینده شناسایی میکند. یک شکاف حیاتی، فقدان روشهای یکپارچهسازی سیستماتیک برای مجموعه دادههای مصنوعی است که نیاز به چارچوبهای ساختاریافته برای شناسایی و پر کردن استراتژیک الگوهای دادههای دنیای واقعیِ گمشده را نشان میدهد. محدودیت دیگری که ذکر شده، غلبه روشهای آماری است که منجر به فراخوانی برای کاوش تکنیکهای تولید داده مبتنی بر داده، مانند مدلهای انتشاری (diffusion models)، برای افزایش واقعگرایی میشود. محققان سیلسفورس همچنین بر پتانسیل استفاده نشده از دادههای مصنوعی در مراحل تنظیم دقیق برای رسیدگی مؤثرتر و تطبیقیتر به شکافهای دامنه خاص یا نقاط ضعف مدل تأکید میکنند.
در نتیجه، تحقیقات هوش مصنوعی سیلسفورس نشان میدهد که دادههای مصنوعی مجموعه ابزار قدرتمندی برای غلبه بر چالشهای مربوط به داده در تحلیل سریهای زمانی ارائه میدهد. با ادغام سیستماتیک مجموعه دادههای مصنوعی با کیفیت بالا در مراحل مختلف توسعه مدل، TSFMها و TSLLMها میتوانند به تعمیمپذیری افزایش یافته، سوگیریهای کاهش یافته و عملکرد بهبود یافته در وظایف تحلیلی متنوع دست یابند. علیرغم محدودیتهای موجود، مانند تضمین واقعگرایی و همترازی، پیشرفت فعال و کاوش در روشهای تولید دادههای مصنوعی، پتانسیل قابل توجهی را نشان میدهد. تحقیقات آینده، همانطور که توسط سیلسفورس پیشنهاد شده است، باید بر بهبود واقعگرایی دادهها، رسیدگی سیستماتیک به شکافهای دادهها و بهرهبرداری از فرآیندهای تولید داده مصنوعی تکراری و با دخالت انسان تمرکز کند. این پیشرفتها میتوانند به طور چشمگیری قابلیت کاربرد و اطمینان مدلهای سری زمانی را گسترش دهند و پایهای محکم برای نوآوریهای آینده در هوش مصنوعی ایجاد کنند.
مقاله پژوهشی را در اینجا بررسی کنید. تمام اعتبار این تحقیق متعلق به پژوهشگران این پروژه است.