شرکت Fivetran، فروشنده ادغام دادهها، در راستای پشتیبانی از Microsoft Fabric، سرویس مدیریتشده Data Lake خود را برای پشتیبانی از Google’s Cloud Storage (GCS) گسترش داد. این اقدام پس از راهاندازیهای قبلی در AWS و Azure صورت گرفت. سرویس مدیریتشده Data Lake Fivetran که سال گذشته توسط این شرکت راهاندازی شد، بهطور خودکار دادهها را به فرمتهای جدول باز، بهویژه Apache Iceberg و Delta Lake، تبدیل میکند و قابلیت همکاری با موتورهای پرسوجو و کاتالوگهای فراداده محبوب را تسهیل میکند.
Fivetran در اعلام این سرویس جدید در Google Cloud Next در لاس وگاس، اعلام کرد که حدود 4000 مشتری مشترک با گوگل دارد و در حال حاضر مشتریان Google’s Cloud Storage را جذب میکند.
آنجان کونداوارام، مدیر ارشد محصول Fivetran، در مصاحبه با The New Stack گفت که Fivetran ادغام بومی با فرادادهخانه BigQuery گوگل دارد. این امر تضمین میکند که دادههای موجود در GCS بهطور خودکار در فرادادهخانه BigQuery فهرستبندی میشوند و حاکمیت و قابلیت همکاری را در سراسر اکوسیستم داده گوگل بهبود میبخشند. وی گفت: «مشتریانی که به Google BigQuery عادت دارند، واقعاً نمیتوانند تفاوت بین تعامل BigQuery و یک پرسوجوی Iceberg که روی Google’s Cloud Storage با سرویس مدیریتشده Data Lake Fivetran اجرا میشود را تشخیص دهند.»
Data Lake چیست؟
برخلاف انبار داده (data warehouse) که دادهها را در یک سیستم سازگار با ACID (یعنی سیستمی که دارای اتمی بودن، سازگاری، جداسازی و دوام است) ذخیره میکند، یک data lake سنتی، سیستم یا مخزنی از دادهها است که در یک فرمت خام، معمولاً به عنوان object blobs یا فایلها ذخیره میشود. هدف این است که یک فروشگاه واحد از دادهها، از جمله نسخههای خام دادههای سیستم منبع، دادههای حسگر و دادههای اجتماعی داشته باشیم.
اصطلاح "data lake" در سال 2010 توسط تیم جیمز دیکسون، مدیر ارشد فناوری وقت در Pentaho، ابداع شد. دیکسون نوشت که او اصطلاحی متمایز از "data mart" میخواهد، که یک مخزن کوچکتر از ویژگیهای جالب است که از دادههای خام به دست میآید.
برای افزودن به سردرگمی اصطلاحات، اصطلاح "data lakehouse" اغلب به جای یکدیگر با "data lake" استفاده میشود. به طور دقیق، data lakehouse یک رویکرد ترکیبی است. مانند یک data lake، میتواند انواع مختلفی از فرمتهای داده خام را دریافت کند، اما از تراکنشهای ACID نیز مانند یک انبار داده پشتیبانی میکند. با این حال، یک data lake مدرن از فرمتهای جدول باز استفاده میکند که دادهها را به روشی سازگار با ACID ذخیره میکند تا عملکردی شبیه به انبار داده را به data lakeها بیاورد.
مدیریت data lakeها میتواند دشوار باشد، به ویژه زمانی که به طور فعال نگهداری نشوند، و در نتیجه گاهی اوقات به طور تحقیرآمیزی "باتلاقهای داده" نامیده میشوند. در گزارشی در سال 2014 از PwC، شان مارتین، مدیر ارشد فناوری Cambridge Semantics، گفت: «ما مشتریانی را میبینیم که گورستانهای داده بزرگ ایجاد میکنند، همه چیز را در سیستم فایل توزیعشده Hadoop میریزند و امیدوارند در آینده با آن کاری انجام دهند. اما سپس آنها به سادگی پیگیری میکنند که چه چیزی در آنجا وجود دارد. چالش اصلی ایجاد یک data lake نیست، بلکه استفاده از فرصتهایی است که ارائه میدهد.»
چگونه GenAI در حال تقویت Data Lakeها است
این شاید توضیح دهد که چرا به نظر میرسید data lakeها به طور خلاصه از لطف افتادهاند. با این حال، کونداوارام پیشنهاد کرد که هوش مصنوعی مولد (GenAI) کاتالیزوری برای موج جدیدی از ابتکارات مبتنی بر data lake بوده است. او گفت: دلیل این امر این است که "برای عوامل یا RAG [نسل تقویتشده با بازیابی]، شما واقعاً تمام دادههای خود، ساختاریافته و بدون ساختار را در یک مکان میخواهید."
Fivetran با OpenAI، شرکتی که - برای بهتر یا بدتر - به نماد موج جزر و مدی تبلیغات پیرامون GenAI تبدیل شده است، همکاری دارد. کونداوارام گفت: «OpenAI همان مشکل خط لوله داده را دارد که همه دارند، اگرچه احتمالاً در مقیاس بزرگتر. ما شرکای نزدیکی با آنها بودهایم، از مورد استفاده آنها حمایت کردهایم و در کنار [آنها] نوآوری کردهایم.»
کونداوارام همراه با توانایی خود در رسیدگی به دادههای ساختاریافته و بدون ساختار از منابع متعدد، دو دلیل دیگر ارائه کرد که data lake بهترین رویکرد برای پروژههای GenAI است: ضد آینده و هزینه. او گفت: «این بر اساس استانداردهای باز ساخته شده است، و اگر میخواهید از هر تعداد ابزار پرسوجو مانند Google، Snowflake یا Databricks استفاده کنید، میتوانید این کار را انجام دهید. همچنین بسیار مقرون به صرفه است زیرا نیازی به کپی کردن دادهها ندارید و مشتریان پسانداز قابل توجهی در هزینههای جذب تجربه میکنند.»
به طور کلی، Fivetran گفت که شرکتهایی از جمله دیزنی، سونوس، Workday و PWC به data lakeهای مدیریتشده روی میآورند زیرا به دنبال متمرکز کردن حجم بالایی از دادههای ساختاریافته و بدون ساختار برای حجمهای کاری هوش مصنوعی هستند.
با توجه به علاقه مجدد به data lakeها، من کنجکاو بودم که چرا Fivetran قبلاً محصول data lake را راهاندازی نکرده است. کونداوارام گفت که ساخت یک محصول جدید ناگزیر زمان و سرمایهگذاری مهندسی قابل توجهی را میطلبد، البته، اما فرمتهای جدول باز - به ویژه Apache Iceberg - نیز به زمان نیاز داشتند تا به اندازه کافی توسعه یابند. او گفت: «این در چند سال گذشته کمی بالغ شده است.»
چشم انداز، قیمت گذاری و چشم انداز
ادغام داده یک فضای بسیار رقابتی است. در میان دهها فروشنده، بازیکنان اصلی عبارتند از: مایکروسافت با Azure Data Factory، SQL Server Integration Services و Power Query برای ادغام داده و Microsoft Fabric به عنوان پلتفرم اصلی داده خود. Informatica دارای Intelligent Data Management Cloud خود است. و Oracle دارای Oracle Cloud Infrastructure، Oracle GoldenGate و Oracle Data Integrator است.
برای به دست آوردن مشتری، Fivetran به یک مزیت نیاز دارد. نقطه قوت اصلی اکوسیستم بیش از 700 کانکتور آن است. کونداوارام گفت که این شرکت به سرمایهگذاری سنگین در اینجا ادامه میدهد و حدود 60 تا 70 کانکتور جدید در هر فصل اضافه میکند. برنامه Powered by Fivetran به مشتریان خود این امکان را میدهد که کانکتورهای Fivetran را در برنامههای خود تعبیه کنند و یک Connector SDK به شرکا این امکان را میدهد که کانکتورهای سفارشی را در صورت نیاز ایجاد کنند. با استفاده از این، شرکتها میتوانند حجم زیادی از دادهها را در Google Cloud Storage متمرکز کنند و پایهای برای آموزش مدلهای زبانی بزرگ سفارشی (LLM) ایجاد کنند.
Fivetran شامل تعدادی قابلیت حاکمیت داده، مانند کنترل دسترسی مبتنی بر نقش (RBAC)، رمزگذاری داده و مسدود کردن و هش کردن ستون است. علاوه بر این، از مدل استقرار ترکیبی آن میتوان برای نگه داشتن صفحه داده و تمام خطوط لوله در شبکه امن خود مشتری استفاده کرد.
کونداوارام گفت: «ما مشتریان زیادی با دادههای حساس داریم که محصول ما را با استفاده از استقرار ترکیبی اجرا میکنند. این تضمین میکند که فقط فراداده عملکردی به صفحه کنترل ما بازگردانده میشود، در حالی که هیچ دادهای محیط آنها را ترک نمیکند.»
در مقایسه با رقبای بزرگتر خود، Fivetran رویکرد متفاوتی برای تبدیل داده در پیش میگیرد. این فروشنده مجموعه سادهتری از حدود 55 مدل داده Quickstart سازگار با هسته dbt را برای محبوبترین کانکتورهای خود، از جمله Marketo، Mixpanel، Salesforce و SAP ارائه میدهد. کونداوارام گفت که حدود 40٪ از مشتریان آن هنگام تنظیم ادغام منبع از این موارد استفاده میکنند و "جداول تبدیلشده و آماده تجزیه و تحلیل را در مقصد" قرار میدهند. از طرف دیگر، مشتریان میتوانند مدلهای dbt خود را بسازند که Fivetran میتواند آنها را زمانبندی و مدیریت کند.
Fivetran با سرمایه گذاری مخاطره آمیز تامین مالی شده است و در آخرین دور تامین مالی خود (در سال 2021)، دور سری D خود را به مبلغ 565 میلیون دلار اعلام کرد و ارزش شرکت را 5.6 میلیارد دلار ارزیابی کرد. در سپتامبر 2024، Fivetran اعلام کرد که از 300 میلیون دلار درآمد سالانه مکرر فراتر رفته است، در حالی که در سال 2023، 200 میلیون دلار بوده است، اگرچه این ارقام طبق قوانین شرکتهای سهامی عام ممیزی نشدهاند.
از نظر تاریخی، کسب و کارهای کوچک و متوسط (SMB) تمرکز Fivetran بوده اند، اما با کمک به تملک HVR در سال 2021 در کنار دور تامین مالی سری D، این فروشنده دامنه خود را فراتر از بخش بازار میانی گسترش داده است. به عنوان مثال، فایزر از Fivetran "برای پشتیبانی از پلتفرمهای تجزیه و تحلیل مقیاس پذیر و فعال کردن تجزیه و تحلیل در زمان واقعی، که به ویژه در زمینههایی مانند آزمایشهای بالینی و عملیات زنجیره تامین بسیار مهم است"، بر اساس یک مطالعه موردی Fivetran، استفاده میکند.
از منظر قیمت گذاری، Fivetran مبتنی بر مصرف در یک مدل ردیفی است، بر اساس ردیف های فعال ماهانه پردازش شده. این رویکرد به مشتریان SMB این امکان را میدهد تا پروژههای خود را بدون تامین هزینههای سرمایهای اولیه قابل توجه آغاز کنند و شرکتهای بزرگتر نیز میتوانند هزینهها را بهتر مدیریت کنند، حتی با افزایش حجم.
درباره سرویس مدیریتشده Data Lake Fivetran برای Google’s Cloud Storage بیشتر بیاموزید.