پیشرفتهای جدید در قابلیت مشاهده (Observability) به این معنی است که جمعآوری تلهمتری برای شرکتها آسانتر از همیشه است، اما فقط به این دلیل که دادههای بیشتری دارید، به این معنی نیست که بینش بیشتری دارید. بن بلکمور (Ben Blackmore)، مدیر ارشد فناوری داش0 (dash0)، استارتاپ جدیدی که در تلاش است تا قابلیت مشاهده را آسان برای درک، استفاده، نصب، یکپارچهسازی و مدیریت کند، این موضوع را بیان میکند.
اگرچه داش0 در سال 2023 راهاندازی شد (و در نوامبر 2024 از تامین مالی اولیه 9.5 میلیون دلاری خبر داد)، تیم موسس سالهاست که روی چالشهای قابلیت مشاهده کار میکند. بلکمور به همراه بسیاری از اعضای موسس داش0، قبل از فروش به آیبیام (IBM) در سال 2020، در اینستانا (Instana)، یک پلتفرم نظارت بر عملکرد برنامه (APM)، کار میکردند.
به گفته بلکمور، همه پس از فروش، از قابلیت مشاهده فاصله گرفتند، اما وقتی چند سال بعد گرد هم آمدند تا ببینند این فضا چقدر توسعه یافته است، متوجه شکافی شدند. بلکمور به یاد میآورد: «بله، جمعآوری دادهها به طور قابل توجهی بهبود یافته بود، [اما] دیدیم [که] بسیاری از مشکلاتی که در زمان ما وجود داشت، هنوز هم امروزه مشکلساز هستند.»
زمان آن رسیده بود که دوباره وارد بازی قابلیت مشاهده شوند.
OpenTelemetry ممکن است پایه و اساس را بنا نهاده باشد، اما داش0 یک قدم فراتر میگذارد
تیم داش0 قبل از راهاندازی، زمان زیادی را صرف بررسی OpenTelemetry (OTel) کرد، یک مجموعه متنباز و مستقل از فروشنده از APIهای تلهمتری، کیتهای توسعه نرمافزار (SDK) و ابزارهایی برای تجزیه و تحلیل رفتار عملکرد نرمافزار. بلکمور در گفتگوی ما، از کارهایی که OTel برای بهبود جمعآوری دادهها برای صنعت قابلیت مشاهده انجام میدهد، ستایش کرد: «قبلاً، برای ساخت جمعآوری دادهها به ظرفیت مهندسی زیادی نیاز بود. فروشندگان کمی بودند که میتوانستند این کار را انجام دهند. اما OTel در نهایت در حال استانداردسازی آن است. اکنون میتوانید کارمندان را در زبان و ابزار OTel آموزش دهید، بنابراین بیشتر دانشی که کسب میکنید، حفظ میکنید.»
OTel در واقع یک برد بزرگ برای سازمانهایی است که میخواهند مالکیت جمعآوری دادهها را داشته باشند و از قفل شدن در سیستم یک فروشنده (vendor lock-in) جلوگیری کنند، مشکلی رایج هنگام کار با عوامل اختصاصی.
به طور معمول، اگر سازمان شما بخواهد به یک راه حل جمعآوری داده متفاوت تغییر کند، باید از ابتدا شروع کنید. بلکمور توضیح میدهد: «شما باید عامل را عوض کنید و جمعآوری دادهها را دوباره انجام دهید. این یک نقطه دردسر بزرگ است، اینکه به طور کامل در سیستم یک فروشنده قفل شده باشید.»
داشبوردها (Dashboards) بیشتر به مشکل قفل شدن در سیستم یک فروشنده کمک میکنند. بلکمور میگوید: «هنگام استفاده از راه حلهای قابلیت مشاهده، پیکربندی زیادی وجود دارد. با داشبوردهایی که ایجاد میکنید، دانش زیادی در آنجا وجود دارد. مشکل این است که شما همه اینها را برای فروشنده خاص خود پیکربندی میکنید، اما واقعاً نمیتوانید دوباره آن را بیرون بیاورید.»
حتی هشدارهای راه حل نیز مشمول قفل شدن در سیستم یک فروشنده هستند. بلکمور اضافه میکند: «وقتی به همه قوانین هشدار فکر میکنید، نمیخواهید از ابتدا شروع کنید. فقط تصور کنید که صدها قانون دارید که در طول سالها استفاده تنظیم کردهاید.»
در پایان روز، مهم نیست که ابزار چقدر پیشرفته باشد، عوامل جمعآوری داده اختصاصی با دشوار کردن مالکیت واقعی دانش سازمانی، تیمهای قابلیت مشاهده را خفه میکنند. این زیبایی متنباز (open source) است و به همین دلیل است که داش0 با OTel پیشرو است.
فراداده غنیتر، بدون برچسب قیمت
در واقع، بلکمور میگوید که داش0 آنقدر طرفدار متنباز است که تصمیم گرفتند راه حل خود را بر روی OTel بسازند.
داش0 یک ابزار قابلیت مشاهده بومی OpenTelemetry است که قفل فروشنده را حذف میکند و جمعآوری تلهمتری مرتبط را با هزینههای کمتری آسانتر میکند. در حالی که امروزه ابزارهای دیگری را در بازار خواهید یافت که ادعا میکنند بومی OpenTelemetry هستند، داش0 بیش از این کار انجام میدهد که شما را از قفل فروشنده رها کند. این ابزار بینشهای معناداری را از دادههای شما استخراج میکند تا سرعت و بهبود حل مسئله را افزایش دهد: بلکمور میگوید: «ما دادههای خام را به اطلاعات تبدیل میکنیم. این فقط ارائه دادهها به شما نیست، بلکه به شما این امکان را میدهد که واقعاً از آن استفاده کنید.»
«قابل استفاده» کردن دادهها، با غنیسازی فراداده (metadata) شروع میشود، یعنی زمینهای که لاگها (logs)، ردیابیها (traces) و معیارها (metrics) را عملی میکند. اما به دست آوردن آن فراداده اغلب به طور بازدارندهای پرهزینه است.
همانطور که بلکمور توضیح میدهد: «فرض کنید یک برنامه یا سرویس خاص دارید و میخواهید آن را حاشیهنویسی کنید. با اکثر راه حلها، شما به ازای هر گیگ پرداخت میکنید، نه به ازای هر رکورد لاگ.» این مدل قیمتگذاری اساساً سازمانها را از غنیسازی دادهها منصرف میکند، یا حداقل، آن را از نظر مالی سنگین میکند.
داش0 با یک مدل قیمتگذاری متفاوت و مقرونبهصرفهتر، در حال تغییر این روند است.
بلکمور میگوید: «ما به فراداده غنی اعتقاد داریم، به همین دلیل است که تصمیم گرفتهایم قیمت را بر اساس چیزهایی تعیین کنیم که هر توسعهدهندهای میتواند به راحتی بشمارد: رکورد لاگ.»
این چگونه کمک میکند؟ این امر اسناد هزینه (cost attribution) و بهینهسازی هزینه (cost optimization) را به طرز چشمگیری ساده میکند. هزینههای شما همچنان با استفاده مقیاس میشوند، اما اکنون این عددی است که میتوانید آن را ردیابی و کنترل کنید. به عنوان مثال، بلکمور ادامه میدهد: «اگر میخواهید بدانید کدام سرویس بیشترین هزینه را ایجاد میکند، فقط کافی است بشمارید که چند لاگ توسط سرویس ثبت شده است.»
تجزیه و تحلیل لاگ، با کمک هوش مصنوعی
با این حال، غنیسازی دادهها تنها بخشی از معادله است. هنگامی که دادهها جمعآوری و غنی میشوند، بسیاری از تیمها برای درک دادههای خود تلاش میکنند تا بتوانند واقعاً از آن استفاده کنند.
به گفته بلکمور، این یک مشکل کلاسیک است و تا به حال، راه خوبی برای حل آن وجود نداشته است.
هنگامی که تیمها رکوردهای لاگ را جمعآوری میکنند، آنها بدون ساختار و دشوار برای تفسیر هستند. او میگوید: «ممکن است متن داشته باشید، اما ممکن است ندانید که آیا این یک خطا برای بررسی است یا خیر.» یک لاگ ممکن است نشاندهنده یک شکست باشد، اما هیچ راه واقعی برای دانستن اینکه آیا این واقعاً یک مسئله حیاتی است یا فقط رفتار روتین وجود ندارد. در نهایت، این بدان معناست که مهندسان باید وقت خود را صرف غربال کردن دستی لاگها کنند تا جزئیات مرتبط را کنار هم قرار دهند.
همانطور که غنیسازی دادهها را آسانتر و مقرونبهصرفهتر میکنند، داش0 تشخیص خطا و تجزیه و تحلیل لاگ را بصریتر میکند. و آنها از هوش مصنوعی برای انجام این کار استفاده میکنند.
به طور خاص، رویکرد پیشرفته هوش مصنوعی داش0 به طور خودکار لاگها را تجزیه میکند و به تیمها این امکان را میدهد که بلافاصله ببینند چه چیزی باعث مشکل میشود، بدون نیاز به جستجوی دستی. بلکمور توضیح میدهد: «وقتی خطاها را فیلتر میکنید، لاگهای مرتبط بلافاصله ظاهر میشوند. همچنین توزیع این شناسه محصول را به عنوان بخشی از ویژگی جدید تریاژ (triage) ما نشان میدهد.» به عبارت دیگر، با داش0 تریاژ، میتوانید توزیع خطا را در ویژگیهای مختلف، مانند شناسههای محصول خاص یا بخشهای کاربری مختلف، تجزیه و تحلیل کنید. این امر شناسایی مرتبطترین دادهها را آسانتر میکند، بدون اینکه مجبور باشید کار دستی را برای رسیدن به آن انجام دهید.
داش0 زمینه را برای عملی کردن تلهمتری، سریعتر فراهم میکند
بلکمور با دیدی وسیعتر تاکید میکند که تمرکز اصلی داش0 ارائه زمینه برای کمک به سازمانها برای پیمایش، درک و استفاده بهتر از تلهمتری است: «هر زمان که یک داده را به شما نشان میدهیم، سعی میکنیم آن را در زمینه قرار دهیم.»
به عنوان مثال، داش0 به تیمها کمک میکند تا به سرعت مرتبطترین ویژگیها را در تلهمتری خود شناسایی کنند. با اکثر راه حلهای دیگر، با همه دادهها به طور مساوی رفتار میشود، اما بلکمور میگوید که این در واقع بازتابی از واقعیت نیست: «برخی از اطلاعات مهمتر از اطلاعات دیگر هستند.»
داش0 به شما کمک میکند تا تمایز قائل شوید، دادههای خود را تفسیر کنید، ویژگیهایی را که اهمیت دارند اولویتبندی کنید و فقط بینشهای مهمی را که برای حل مسئله نیاز دارید، نشان دهید. به این ترتیب، میتوانید جستجو در یک لیست بیپایان از فراداده را رها کنید و سریعتر به عیبیابی بپردازید.
ابزار قابلیت مشاهده همچنین زمینهای را فراهم میکند تا به تیمها کمک کند تا معیارهای خود را بهتر درک کنند.
بلکمور توضیح میدهد: «هنگام کار با معیارها، میخواهید چیزی بیشتر از این بدانید که "من این متریک را دارم و اینقدر هزینه برای من دارد." شما همچنین باید بدانید که از کجا میآید و از طریق چه مکانیسمهایی جمعآوری شده است.»
اینجاست که فیلترهای هرزنامه (Spam Filters) داش0 میتوانند کمک کنند. به جای اینکه دائماً لاگهای نامربوط را پس از واقعیت فیلتر کنید، میتوانید از فیلترهای هرزنامه برای متوقف کردن دادههای پر سر و صدا در منبع استفاده کنید. به طور خاص، ویژگی اشاره و کلیک (point-and-click) به شما امکان میدهد دادههای تلهمتری ناخواسته را شناسایی و مسدود کنید تا فقط دادههای مرتبط و عملی ذخیره شوند.
بلکمور خاطرنشان کرد: «جمعآوری چیزهایی که به آنها اهمیت نمیدهید بسیار آسان است. با فیلتر هرزنامه، شما فقط آن را دور نمیاندازید، بلکه از جمعآوری آن در وهله اول جلوگیری میکنید.»
ارائه زمینه و وضوح در سردرگمی تلهمتری
از جمعآوری و غنیسازی دادهها گرفته تا تجزیه و تحلیل لاگ، داش0 زمینهای را فراهم میکند که تیمها برای تبدیل دادهها به اطلاعات عملی که میتوانند از آنها برای حل مسئله استفاده کنند، سریعتر و با هزینههای کمتر، نیاز دارند.
وقتی صحبت از قابلیت مشاهده میشود، دادههای بیشتر گاهی اوقات فقط به معنای سردرگمی بیشتر است. به نظر میرسد داش0، وضوح بسیار مورد نیاز را ارائه میدهد.