تصویر اصلی توسط Getty Images برای Unsplash+.
تصویر اصلی توسط Getty Images برای Unsplash+.

Fivetran قابلیت همکاری Data Lake را به Google Cloud می‌آورد

Fivetran فرمت‌های جدول باز و ادغام بومی را به کاتالوگ BigQuery Metastore می‌آورد تا داده‌های سازگار و آماده هوش مصنوعی را به اکوسیستم Google Cloud ارائه دهد.

شرکت Fivetran، فروشنده ادغام داده‌ها، در راستای پشتیبانی از Microsoft Fabric، سرویس مدیریت‌شده Data Lake خود را برای پشتیبانی از Google’s Cloud Storage (GCS) گسترش داد. این اقدام پس از راه‌اندازی‌های قبلی در AWS و Azure صورت گرفت. سرویس مدیریت‌شده Data Lake Fivetran که سال گذشته توسط این شرکت راه‌اندازی شد، به‌طور خودکار داده‌ها را به فرمت‌های جدول باز، به‌ویژه Apache Iceberg و Delta Lake، تبدیل می‌کند و قابلیت همکاری با موتورهای پرس‌وجو و کاتالوگ‌های فراداده محبوب را تسهیل می‌کند.

Fivetran در اعلام این سرویس جدید در Google Cloud Next در لاس وگاس، اعلام کرد که حدود 4000 مشتری مشترک با گوگل دارد و در حال حاضر مشتریان Google’s Cloud Storage را جذب می‌کند.

آنجان کونداوارام، مدیر ارشد محصول Fivetran، در مصاحبه با The New Stack گفت که Fivetran ادغام بومی با فراداده‌خانه BigQuery گوگل دارد. این امر تضمین می‌کند که داده‌های موجود در GCS به‌طور خودکار در فراداده‌خانه BigQuery فهرست‌بندی می‌شوند و حاکمیت و قابلیت همکاری را در سراسر اکوسیستم داده گوگل بهبود می‌بخشند. وی گفت: «مشتریانی که به Google BigQuery عادت دارند، واقعاً نمی‌توانند تفاوت بین تعامل BigQuery و یک پرس‌وجوی Iceberg که روی Google’s Cloud Storage با سرویس مدیریت‌شده Data Lake Fivetran اجرا می‌شود را تشخیص دهند.»

Data Lake چیست؟

برخلاف انبار داده (data warehouse) که داده‌ها را در یک سیستم سازگار با ACID (یعنی سیستمی که دارای اتمی بودن، سازگاری، جداسازی و دوام است) ذخیره می‌کند، یک data lake سنتی، سیستم یا مخزنی از داده‌ها است که در یک فرمت خام، معمولاً به عنوان object blobs یا فایل‌ها ذخیره می‌شود. هدف این است که یک فروشگاه واحد از داده‌ها، از جمله نسخه‌های خام داده‌های سیستم منبع، داده‌های حسگر و داده‌های اجتماعی داشته باشیم.

اصطلاح "data lake" در سال 2010 توسط تیم جیمز دیکسون، مدیر ارشد فناوری وقت در Pentaho، ابداع شد. دیکسون نوشت که او اصطلاحی متمایز از "data mart" می‌خواهد، که یک مخزن کوچکتر از ویژگی‌های جالب است که از داده‌های خام به دست می‌آید.

برای افزودن به سردرگمی اصطلاحات، اصطلاح "data lakehouse" اغلب به جای یکدیگر با "data lake" استفاده می‌شود. به طور دقیق، data lakehouse یک رویکرد ترکیبی است. مانند یک data lake، می‌تواند انواع مختلفی از فرمت‌های داده خام را دریافت کند، اما از تراکنش‌های ACID نیز مانند یک انبار داده پشتیبانی می‌کند. با این حال، یک data lake مدرن از فرمت‌های جدول باز استفاده می‌کند که داده‌ها را به روشی سازگار با ACID ذخیره می‌کند تا عملکردی شبیه به انبار داده را به data lakeها بیاورد.

مدیریت data lakeها می‌تواند دشوار باشد، به ویژه زمانی که به طور فعال نگهداری نشوند، و در نتیجه گاهی اوقات به طور تحقیرآمیزی "باتلاق‌های داده" نامیده می‌شوند. در گزارشی در سال 2014 از PwC، شان مارتین، مدیر ارشد فناوری Cambridge Semantics، گفت: «ما مشتریانی را می‌بینیم که گورستان‌های داده بزرگ ایجاد می‌کنند، همه چیز را در سیستم فایل توزیع‌شده Hadoop می‌ریزند و امیدوارند در آینده با آن کاری انجام دهند. اما سپس آنها به سادگی پیگیری می‌کنند که چه چیزی در آنجا وجود دارد. چالش اصلی ایجاد یک data lake نیست، بلکه استفاده از فرصت‌هایی است که ارائه می‌دهد.»

چگونه GenAI در حال تقویت Data Lakeها است

این شاید توضیح دهد که چرا به نظر می‌رسید data lakeها به طور خلاصه از لطف افتاده‌اند. با این حال، کونداوارام پیشنهاد کرد که هوش مصنوعی مولد (GenAI) کاتالیزوری برای موج جدیدی از ابتکارات مبتنی بر data lake بوده است. او گفت: دلیل این امر این است که "برای عوامل یا RAG [نسل تقویت‌شده با بازیابی]، شما واقعاً تمام داده‌های خود، ساختاریافته و بدون ساختار را در یک مکان می‌خواهید."

Fivetran با OpenAI، شرکتی که - برای بهتر یا بدتر - به نماد موج جزر و مدی تبلیغات پیرامون GenAI تبدیل شده است، همکاری دارد. کونداوارام گفت: «OpenAI همان مشکل خط لوله داده را دارد که همه دارند، اگرچه احتمالاً در مقیاس بزرگتر. ما شرکای نزدیکی با آنها بوده‌ایم، از مورد استفاده آنها حمایت کرده‌ایم و در کنار [آنها] نوآوری کرده‌ایم.»

کونداوارام همراه با توانایی خود در رسیدگی به داده‌های ساختاریافته و بدون ساختار از منابع متعدد، دو دلیل دیگر ارائه کرد که data lake بهترین رویکرد برای پروژه‌های GenAI است: ضد آینده و هزینه. او گفت: «این بر اساس استانداردهای باز ساخته شده است، و اگر می‌خواهید از هر تعداد ابزار پرس‌وجو مانند Google، Snowflake یا Databricks استفاده کنید، می‌توانید این کار را انجام دهید. همچنین بسیار مقرون به صرفه است زیرا نیازی به کپی کردن داده‌ها ندارید و مشتریان پس‌انداز قابل توجهی در هزینه‌های جذب تجربه می‌کنند.»

به طور کلی، Fivetran گفت که شرکت‌هایی از جمله دیزنی، سونوس، Workday و PWC به data lakeهای مدیریت‌شده روی می‌آورند زیرا به دنبال متمرکز کردن حجم بالایی از داده‌های ساختاریافته و بدون ساختار برای حجم‌های کاری هوش مصنوعی هستند.

با توجه به علاقه مجدد به data lakeها، من کنجکاو بودم که چرا Fivetran قبلاً محصول data lake را راه‌اندازی نکرده است. کونداوارام گفت که ساخت یک محصول جدید ناگزیر زمان و سرمایه‌گذاری مهندسی قابل توجهی را می‌طلبد، البته، اما فرمت‌های جدول باز - به ویژه Apache Iceberg - نیز به زمان نیاز داشتند تا به اندازه کافی توسعه یابند. او گفت: «این در چند سال گذشته کمی بالغ شده است.»

چشم انداز، قیمت گذاری و چشم انداز

ادغام داده یک فضای بسیار رقابتی است. در میان ده‌ها فروشنده، بازیکنان اصلی عبارتند از: مایکروسافت با Azure Data Factory، SQL Server Integration Services و Power Query برای ادغام داده و Microsoft Fabric به عنوان پلتفرم اصلی داده خود. Informatica دارای Intelligent Data Management Cloud خود است. و Oracle دارای Oracle Cloud Infrastructure، Oracle GoldenGate و Oracle Data Integrator است.

برای به دست آوردن مشتری، Fivetran به یک مزیت نیاز دارد. نقطه قوت اصلی اکوسیستم بیش از 700 کانکتور آن است. کونداوارام گفت که این شرکت به سرمایه‌گذاری سنگین در اینجا ادامه می‌دهد و حدود 60 تا 70 کانکتور جدید در هر فصل اضافه می‌کند. برنامه Powered by Fivetran به مشتریان خود این امکان را می‌دهد که کانکتورهای Fivetran را در برنامه‌های خود تعبیه کنند و یک Connector SDK به شرکا این امکان را می‌دهد که کانکتورهای سفارشی را در صورت نیاز ایجاد کنند. با استفاده از این، شرکت‌ها می‌توانند حجم زیادی از داده‌ها را در Google Cloud Storage متمرکز کنند و پایه‌ای برای آموزش مدل‌های زبانی بزرگ سفارشی (LLM) ایجاد کنند.

Fivetran شامل تعدادی قابلیت حاکمیت داده، مانند کنترل دسترسی مبتنی بر نقش (RBAC)، رمزگذاری داده و مسدود کردن و هش کردن ستون است. علاوه بر این، از مدل استقرار ترکیبی آن می‌توان برای نگه داشتن صفحه داده و تمام خطوط لوله در شبکه امن خود مشتری استفاده کرد.

کونداوارام گفت: «ما مشتریان زیادی با داده‌های حساس داریم که محصول ما را با استفاده از استقرار ترکیبی اجرا می‌کنند. این تضمین می‌کند که فقط فراداده عملکردی به صفحه کنترل ما بازگردانده می‌شود، در حالی که هیچ داده‌ای محیط آنها را ترک نمی‌کند.»

در مقایسه با رقبای بزرگتر خود، Fivetran رویکرد متفاوتی برای تبدیل داده در پیش می‌گیرد. این فروشنده مجموعه ساده‌تری از حدود 55 مدل داده Quickstart سازگار با هسته dbt را برای محبوب‌ترین کانکتورهای خود، از جمله Marketo، Mixpanel، Salesforce و SAP ارائه می‌دهد. کونداوارام گفت که حدود 40٪ از مشتریان آن هنگام تنظیم ادغام منبع از این موارد استفاده می‌کنند و "جداول تبدیل‌شده و آماده تجزیه و تحلیل را در مقصد" قرار می‌دهند. از طرف دیگر، مشتریان می‌توانند مدل‌های dbt خود را بسازند که Fivetran می‌تواند آنها را زمان‌بندی و مدیریت کند.

Fivetran با سرمایه گذاری مخاطره آمیز تامین مالی شده است و در آخرین دور تامین مالی خود (در سال 2021)، دور سری D خود را به مبلغ 565 میلیون دلار اعلام کرد و ارزش شرکت را 5.6 میلیارد دلار ارزیابی کرد. در سپتامبر 2024، Fivetran اعلام کرد که از 300 میلیون دلار درآمد سالانه مکرر فراتر رفته است، در حالی که در سال 2023، 200 میلیون دلار بوده است، اگرچه این ارقام طبق قوانین شرکت‌های سهامی عام ممیزی نشده‌اند.

از نظر تاریخی، کسب و کارهای کوچک و متوسط ​​(SMB) تمرکز Fivetran بوده اند، اما با کمک به تملک HVR در سال 2021 در کنار دور تامین مالی سری D، این فروشنده دامنه خود را فراتر از بخش بازار میانی گسترش داده است. به عنوان مثال، فایزر از Fivetran "برای پشتیبانی از پلتفرم‌های تجزیه و تحلیل مقیاس پذیر و فعال کردن تجزیه و تحلیل در زمان واقعی، که به ویژه در زمینه‌هایی مانند آزمایش‌های بالینی و عملیات زنجیره تامین بسیار مهم است"، بر اساس یک مطالعه موردی Fivetran، استفاده می‌کند.

از منظر قیمت گذاری، Fivetran مبتنی بر مصرف در یک مدل ردیفی است، بر اساس ردیف های فعال ماهانه پردازش شده. این رویکرد به مشتریان SMB این امکان را می‌دهد تا پروژه‌های خود را بدون تامین هزینه‌های سرمایه‌ای اولیه قابل توجه آغاز کنند و شرکت‌های بزرگتر نیز می‌توانند هزینه‌ها را بهتر مدیریت کنند، حتی با افزایش حجم.

درباره سرویس مدیریت‌شده Data Lake Fivetran برای Google’s Cloud Storage بیشتر بیاموزید.