صبح سهشنبه ۱۸ نوامبر، یک خطای پیکربندی در کلادفلر باعث شد سرویسهای بزرگی مانند ChatGPT، ایکس و اسپاتیفای برای چندین ساعت از دسترس خارج شوند؛ رخدادی که بار دیگر آسیبپذیری زیرساخت دیجیتال را در برابر پیچیدگی روبهافزایش سیستمهای ابری نشان داد. تنها یک روز بعد، پالو آلتو نتورکز اعلام کرد قصد دارد کرونوسفر، پلتفرم رصد عملکرد سیستمها، را با مبلغ ۳.۳۵ میلیارد دلار خریداری کند.
این همزمانی، تحول عمیقی را در فناوری سازمانی برجسته میکند. اختلال کلادفلر ناشی از یک فایل خودکار تولیدشده بود که اندازه آن از حد پیشبینیشده فراتر رفت و باعث از کار افتادن بخشهایی از زیرساخت مسیریابی ترافیک شد. این حادثه پس از یک اختلال AWS در اکتبر و یک اختلال دیگر در Azure رخ داد؛ رخدادهایی که یک نقطهضعف مشترک را آشکار کردند: هرچه سرویسها، اتوماسیون و اجزای توزیعشده بیشتر میشود، نظارت بر کلیت سیستم سختتر میشود.
Observability به لایهای حیاتی در زیرساخت تبدیل میشود
کرونوسفر در حوزه Observability فعالیت میکند؛ حوزهای که برخلاف ابزارهای سنتی مانیتورینگ که تنها وضعیت در دسترس بودن سرویس را بررسی میکنند، دادههای عمیق از اپلیکیشنها و زیرساخت جمعآوری میکند تا مشخص شود مشکل دقیقاً از کجا و چرا رخ داده است. این شرکت که در رتبهبندی Observability سال ۲۰۲۵ گارتنر در جایگاه پیشرو قرار گرفته، تا سپتامبر بیش از ۱۶۰ میلیون دلار درآمد سالانه تکرارشونده داشته است.
با انتقال بیشتر اپلیکیشنها به محیطهای ابری و تبدیل سرویسها به اجزای کوچکتر و وابسته به یکدیگر، پیدا کردن ریشه اختلالات نیازمند تحلیل دادههای هزاران فرآیند مختلف است. شرکت تحقیقاتی Cisco ThousandEyes اعلام کرده که اگرچه تعداد کل اختلالات ثابت مانده، اما وابستگیهای بیشتر باعث شده هر رویداد تعداد کاربران و سرویسهای بیشتری را تحتتأثیر قرار دهد.
همگرایی امنیت و Observability
تصاحب کرونوسفر توسط پالو آلتو بیانگر این پیشبینی است که شرکتها بیش از پیش به پلتفرمهای یکپارچه برای امنیت و Observability نیاز خواهند داشت. این شرکت اخیراً همچنین CyberArk را با ۲۵ میلیارد دلار خریداری کرده که نشاندهنده اهمیت بازار مدیریت یکپارچه امنیت و زیرساخت است.
پیش از این، تیمهای امنیت و تیمهای Observability معمولاً با ابزارها و دادههای جداگانه کار میکردند، اما مدیران فناوری اکنون آنها را وابسته به هم میدانند. استفاده از ابزارهای مجزا باعث واکنشهای ناقص و افزایش زمان اختلال میشود.
انفجار داده، اتوماسیون و هوش مصنوعی نیازها را گسترش میدهد
این همگرایی تنها به تشخیص مشکلات محدود نمیشود؛ بلکه شامل درک رفتار سیستمها در مقیاس وسیع نیز هست. محیطهای ابری مدرن حجم عظیمی از داده، لاگها، شاخصهای عملکرد و رکوردهای تراکنش تولید میکنند که باید در لحظه جمعآوری و تحلیل شوند. پلتفرمهای جدید با استفاده از الگوریتمها الگوها را تشخیص میدهند، خطاهای احتمالی را پیشبینی میکنند و حجم هشدارهای غیرضروری را کاهش میدهند.
با افزایش استفاده سازمانها از سیستمهای هوش مصنوعی، نیازهای Observability شکل تازهای به خود گرفتهاند. مدلهای هوش مصنوعی و عاملهای خودکار، چالشهایی متفاوت از اپلیکیشنهای سنتی ایجاد میکنند.
برخلاف نرمافزارهای معمولی که رفتارشان قابل پیشبینی است، مدلهای هوش مصنوعی ممکن است بهمرور زمان و با تغییر داده ورودی دچار انحراف شوند؛ بنابراین به نظارت مداوم برای اطمینان از صحت نتایج و کنترل هزینه نیاز دارند.
ماهیت غیرقطعی عاملهای هوش مصنوعی باعث میشود دادههای Observability هم ابزار رفع اشکال باشند و هم بهعنوان مکانیزمی برای بهبود عملکرد آنها عمل کنند.











ارسال دیدگاه