ابزار بومی OpenTelemetry قفل فروشنده را حذف می‌کند، هزینه‌ها را کاهش می‌دهد و به مهندسان زمینه می‌دهد تا واقعاً داده‌های خود را درک کنند.
ابزار بومی OpenTelemetry قفل فروشنده را حذف می‌کند، هزینه‌ها را کاهش می‌دهد و به مهندسان زمینه می‌دهد تا واقعاً داده‌های خود را درک کنند.

با OTel، داش0 می‌خواهد قابلیت مشاهده را واقعاً مفید کند

پیشرفت‌های جدید در قابلیت مشاهده (Observability) به این معنی است که جمع‌آوری تله‌متری برای شرکت‌ها آسان‌تر از همیشه است، اما فقط به این دلیل که داده‌های بیشتری دارید، به این معنی نیست که بینش بیشتری دارید. بن بلک‌مور (Ben Blackmore)، مدیر ارشد فناوری داش0 (dash0)، استارتاپ جدیدی که در تلاش است تا قابلیت مشاهده را آسان برای درک، استفاده، نصب، یکپارچه‌سازی و مدیریت کند، این موضوع را بیان می‌کند.

اگرچه داش0 در سال 2023 راه‌اندازی شد (و در نوامبر 2024 از تامین مالی اولیه 9.5 میلیون دلاری خبر داد)، تیم موسس سال‌هاست که روی چالش‌های قابلیت مشاهده کار می‌کند. بلک‌مور به همراه بسیاری از اعضای موسس داش0، قبل از فروش به آی‌بی‌ام (IBM) در سال 2020، در اینستانا (Instana)، یک پلتفرم نظارت بر عملکرد برنامه (APM)، کار می‌کردند.

به گفته بلک‌مور، همه پس از فروش، از قابلیت مشاهده فاصله گرفتند، اما وقتی چند سال بعد گرد هم آمدند تا ببینند این فضا چقدر توسعه یافته است، متوجه شکافی شدند. بلک‌مور به یاد می‌آورد: «بله، جمع‌آوری داده‌ها به طور قابل توجهی بهبود یافته بود، [اما] دیدیم [که] بسیاری از مشکلاتی که در زمان ما وجود داشت، هنوز هم امروزه مشکل‌ساز هستند.»

زمان آن رسیده بود که دوباره وارد بازی قابلیت مشاهده شوند.

OpenTelemetry ممکن است پایه و اساس را بنا نهاده باشد، اما داش0 یک قدم فراتر می‌گذارد

تیم داش0 قبل از راه‌اندازی، زمان زیادی را صرف بررسی OpenTelemetry (OTel) کرد، یک مجموعه متن‌باز و مستقل از فروشنده از APIهای تله‌متری، کیت‌های توسعه نرم‌افزار (SDK) و ابزارهایی برای تجزیه و تحلیل رفتار عملکرد نرم‌افزار. بلک‌مور در گفتگوی ما، از کارهایی که OTel برای بهبود جمع‌آوری داده‌ها برای صنعت قابلیت مشاهده انجام می‌دهد، ستایش کرد: «قبلاً، برای ساخت جمع‌آوری داده‌ها به ظرفیت مهندسی زیادی نیاز بود. فروشندگان کمی بودند که می‌توانستند این کار را انجام دهند. اما OTel در نهایت در حال استانداردسازی آن است. اکنون می‌توانید کارمندان را در زبان و ابزار OTel آموزش دهید، بنابراین بیشتر دانشی که کسب می‌کنید، حفظ می‌کنید.»

OTel در واقع یک برد بزرگ برای سازمان‌هایی است که می‌خواهند مالکیت جمع‌آوری داده‌ها را داشته باشند و از قفل شدن در سیستم یک فروشنده (vendor lock-in) جلوگیری کنند، مشکلی رایج هنگام کار با عوامل اختصاصی.

به طور معمول، اگر سازمان شما بخواهد به یک راه حل جمع‌آوری داده متفاوت تغییر کند، باید از ابتدا شروع کنید. بلک‌مور توضیح می‌دهد: «شما باید عامل را عوض کنید و جمع‌آوری داده‌ها را دوباره انجام دهید. این یک نقطه دردسر بزرگ است، اینکه به طور کامل در سیستم یک فروشنده قفل شده باشید.»

داشبوردها (Dashboards) بیشتر به مشکل قفل شدن در سیستم یک فروشنده کمک می‌کنند. بلک‌مور می‌گوید: «هنگام استفاده از راه حل‌های قابلیت مشاهده، پیکربندی زیادی وجود دارد. با داشبوردهایی که ایجاد می‌کنید، دانش زیادی در آنجا وجود دارد. مشکل این است که شما همه اینها را برای فروشنده خاص خود پیکربندی می‌کنید، اما واقعاً نمی‌توانید دوباره آن را بیرون بیاورید.»

حتی هشدارهای راه حل نیز مشمول قفل شدن در سیستم یک فروشنده هستند. بلک‌مور اضافه می‌کند: «وقتی به همه قوانین هشدار فکر می‌کنید، نمی‌خواهید از ابتدا شروع کنید. فقط تصور کنید که صدها قانون دارید که در طول سال‌ها استفاده تنظیم کرده‌اید.»

در پایان روز، مهم نیست که ابزار چقدر پیشرفته باشد، عوامل جمع‌آوری داده اختصاصی با دشوار کردن مالکیت واقعی دانش سازمانی، تیم‌های قابلیت مشاهده را خفه می‌کنند. این زیبایی متن‌باز (open source) است و به همین دلیل است که داش0 با OTel پیشرو است.

فراداده غنی‌تر، بدون برچسب قیمت

در واقع، بلک‌مور می‌گوید که داش0 آنقدر طرفدار متن‌باز است که تصمیم گرفتند راه حل خود را بر روی OTel بسازند.

داش0 یک ابزار قابلیت مشاهده بومی OpenTelemetry است که قفل فروشنده را حذف می‌کند و جمع‌آوری تله‌متری مرتبط را با هزینه‌های کمتری آسان‌تر می‌کند. در حالی که امروزه ابزارهای دیگری را در بازار خواهید یافت که ادعا می‌کنند بومی OpenTelemetry هستند، داش0 بیش از این کار انجام می‌دهد که شما را از قفل فروشنده رها کند. این ابزار بینش‌های معناداری را از داده‌های شما استخراج می‌کند تا سرعت و بهبود حل مسئله را افزایش دهد: بلک‌مور می‌گوید: «ما داده‌های خام را به اطلاعات تبدیل می‌کنیم. این فقط ارائه داده‌ها به شما نیست، بلکه به شما این امکان را می‌دهد که واقعاً از آن استفاده کنید.»

«قابل استفاده» کردن داده‌ها، با غنی‌سازی فراداده (metadata) شروع می‌شود، یعنی زمینه‌ای که لاگ‌ها (logs)، ردیابی‌ها (traces) و معیارها (metrics) را عملی می‌کند. اما به دست آوردن آن فراداده اغلب به طور بازدارنده‌ای پرهزینه است.

همانطور که بلک‌مور توضیح می‌دهد: «فرض کنید یک برنامه یا سرویس خاص دارید و می‌خواهید آن را حاشیه‌نویسی کنید. با اکثر راه حل‌ها، شما به ازای هر گیگ پرداخت می‌کنید، نه به ازای هر رکورد لاگ.» این مدل قیمت‌گذاری اساساً سازمان‌ها را از غنی‌سازی داده‌ها منصرف می‌کند، یا حداقل، آن را از نظر مالی سنگین می‌کند.

داش0 با یک مدل قیمت‌گذاری متفاوت و مقرون‌به‌صرفه‌تر، در حال تغییر این روند است.

بلک‌مور می‌گوید: «ما به فراداده غنی اعتقاد داریم، به همین دلیل است که تصمیم گرفته‌ایم قیمت را بر اساس چیزهایی تعیین کنیم که هر توسعه‌دهنده‌ای می‌تواند به راحتی بشمارد: رکورد لاگ.»

این چگونه کمک می‌کند؟ این امر اسناد هزینه (cost attribution) و بهینه‌سازی هزینه (cost optimization) را به طرز چشمگیری ساده می‌کند. هزینه‌های شما همچنان با استفاده مقیاس می‌شوند، اما اکنون این عددی است که می‌توانید آن را ردیابی و کنترل کنید. به عنوان مثال، بلک‌مور ادامه می‌دهد: «اگر می‌خواهید بدانید کدام سرویس بیشترین هزینه را ایجاد می‌کند، فقط کافی است بشمارید که چند لاگ توسط سرویس ثبت شده است.»

تجزیه و تحلیل لاگ، با کمک هوش مصنوعی

با این حال، غنی‌سازی داده‌ها تنها بخشی از معادله است. هنگامی که داده‌ها جمع‌آوری و غنی می‌شوند، بسیاری از تیم‌ها برای درک داده‌های خود تلاش می‌کنند تا بتوانند واقعاً از آن استفاده کنند.

به گفته بلک‌مور، این یک مشکل کلاسیک است و تا به حال، راه خوبی برای حل آن وجود نداشته است.

هنگامی که تیم‌ها رکوردهای لاگ را جمع‌آوری می‌کنند، آنها بدون ساختار و دشوار برای تفسیر هستند. او می‌گوید: «ممکن است متن داشته باشید، اما ممکن است ندانید که آیا این یک خطا برای بررسی است یا خیر.» یک لاگ ممکن است نشان‌دهنده یک شکست باشد، اما هیچ راه واقعی برای دانستن اینکه آیا این واقعاً یک مسئله حیاتی است یا فقط رفتار روتین وجود ندارد. در نهایت، این بدان معناست که مهندسان باید وقت خود را صرف غربال کردن دستی لاگ‌ها کنند تا جزئیات مرتبط را کنار هم قرار دهند.

همانطور که غنی‌سازی داده‌ها را آسان‌تر و مقرون‌به‌صرفه‌تر می‌کنند، داش0 تشخیص خطا و تجزیه و تحلیل لاگ را بصری‌تر می‌کند. و آنها از هوش مصنوعی برای انجام این کار استفاده می‌کنند.

به طور خاص، رویکرد پیشرفته هوش مصنوعی داش0 به طور خودکار لاگ‌ها را تجزیه می‌کند و به تیم‌ها این امکان را می‌دهد که بلافاصله ببینند چه چیزی باعث مشکل می‌شود، بدون نیاز به جستجوی دستی. بلک‌مور توضیح می‌دهد: «وقتی خطاها را فیلتر می‌کنید، لاگ‌های مرتبط بلافاصله ظاهر می‌شوند. همچنین توزیع این شناسه محصول را به عنوان بخشی از ویژگی جدید تریاژ (triage) ما نشان می‌دهد.» به عبارت دیگر، با داش0 تریاژ، می‌توانید توزیع خطا را در ویژگی‌های مختلف، مانند شناسه‌های محصول خاص یا بخش‌های کاربری مختلف، تجزیه و تحلیل کنید. این امر شناسایی مرتبط‌ترین داده‌ها را آسان‌تر می‌کند، بدون اینکه مجبور باشید کار دستی را برای رسیدن به آن انجام دهید.

داش0 زمینه را برای عملی کردن تله‌متری، سریع‌تر فراهم می‌کند

بلک‌مور با دیدی وسیع‌تر تاکید می‌کند که تمرکز اصلی داش0 ارائه زمینه برای کمک به سازمان‌ها برای پیمایش، درک و استفاده بهتر از تله‌متری است: «هر زمان که یک داده را به شما نشان می‌دهیم، سعی می‌کنیم آن را در زمینه قرار دهیم.»

به عنوان مثال، داش0 به تیم‌ها کمک می‌کند تا به سرعت مرتبط‌ترین ویژگی‌ها را در تله‌متری خود شناسایی کنند. با اکثر راه حل‌های دیگر، با همه داده‌ها به طور مساوی رفتار می‌شود، اما بلک‌مور می‌گوید که این در واقع بازتابی از واقعیت نیست: «برخی از اطلاعات مهم‌تر از اطلاعات دیگر هستند.»

داش0 به شما کمک می‌کند تا تمایز قائل شوید، داده‌های خود را تفسیر کنید، ویژگی‌هایی را که اهمیت دارند اولویت‌بندی کنید و فقط بینش‌های مهمی را که برای حل مسئله نیاز دارید، نشان دهید. به این ترتیب، می‌توانید جستجو در یک لیست بی‌پایان از فراداده را رها کنید و سریع‌تر به عیب‌یابی بپردازید.

ابزار قابلیت مشاهده همچنین زمینه‌ای را فراهم می‌کند تا به تیم‌ها کمک کند تا معیارهای خود را بهتر درک کنند.

بلک‌مور توضیح می‌دهد: «هنگام کار با معیارها، می‌خواهید چیزی بیشتر از این بدانید که "من این متریک را دارم و اینقدر هزینه برای من دارد." شما همچنین باید بدانید که از کجا می‌آید و از طریق چه مکانیسم‌هایی جمع‌آوری شده است.»

اینجاست که فیلترهای هرزنامه (Spam Filters) داش0 می‌توانند کمک کنند. به جای اینکه دائماً لاگ‌های نامربوط را پس از واقعیت فیلتر کنید، می‌توانید از فیلترهای هرزنامه برای متوقف کردن داده‌های پر سر و صدا در منبع استفاده کنید. به طور خاص، ویژگی اشاره و کلیک (point-and-click) به شما امکان می‌دهد داده‌های تله‌متری ناخواسته را شناسایی و مسدود کنید تا فقط داده‌های مرتبط و عملی ذخیره شوند.

بلک‌مور خاطرنشان کرد: «جمع‌آوری چیزهایی که به آنها اهمیت نمی‌دهید بسیار آسان است. با فیلتر هرزنامه، شما فقط آن را دور نمی‌اندازید، بلکه از جمع‌آوری آن در وهله اول جلوگیری می‌کنید.»

ارائه زمینه و وضوح در سردرگمی تله‌متری

از جمع‌آوری و غنی‌سازی داده‌ها گرفته تا تجزیه و تحلیل لاگ، داش0 زمینه‌ای را فراهم می‌کند که تیم‌ها برای تبدیل داده‌ها به اطلاعات عملی که می‌توانند از آنها برای حل مسئله استفاده کنند، سریع‌تر و با هزینه‌های کمتر، نیاز دارند.

وقتی صحبت از قابلیت مشاهده می‌شود، داده‌های بیشتر گاهی اوقات فقط به معنای سردرگمی بیشتر است. به نظر می‌رسد داش0، وضوح بسیار مورد نیاز را ارائه می‌دهد.