Obserwowalnosc i SRE
20 pojęć w 8 podgrupach, z prostymi definicjami i źródłami.
Przeglądaj kategorię
Miary niezawodnosci
Podstawy obserwowalnosci
Własność systemu pozwalająca wnioskować o jego wewnętrznym stanie na podstawie zewnętrznych wyjść (metryk, logów, śladów) bez modyfikacji kodu.
Zbiór danych pomiarowych emitowanych przez system (metryki, logi, ślady) i przesyłanych do systemu analizy w celu monitorowania zachowania.
Poziomy uslug
Dopuszczalna ilość niezawodności utraconej w okresie, wyznaczona jako dopełnienie celu SLO; wyczerpanie wstrzymuje wdrażanie zmian.
Stosunek bieżącego zużycia budżetu błędu do tempa, które wyczerpałoby go równomiernie w całym okresie; podstawa alertów wielookienkowych.
Praktyki SRE
Sledzenie rozproszone
Przekazywanie identyfikatorów śladu i przedziału między usługami w nagłówkach żądań, umożliwiające powiązanie operacji w jeden ślad rozproszony.
Selektywne zachowywanie części śladów rozproszonych w celu ograniczenia kosztów przechowywania przy zachowaniu reprezentatywności danych.
Pojedyncza, nazwana jednostka pracy w śladzie rozproszonym, opisana czasem rozpoczęcia, trwaniem i atrybutami; podstawowy element budujący ślad.
Reprezentacja przebiegu pojedynczego żądania przez wiele usług, złożona z powiązanych przedziałów ukazujących ścieżkę i czasy wykonania.
Strategie monitorowania
Automatyczne wykrywanie warunków przekroczenia progów w telemetrii i powiadamianie odpowiedzialnych osób o potencjalnej awarii usługi.
Miara stopnia wykorzystania ograniczonego zasobu systemu względem jego pojemności; bliskość pełnego nasycenia zwiastuje degradację wydajności.
Cztery kluczowe wskaźniki monitorowania usługi: opóźnienie, ruch, błędy i nasycenie, zalecane jako minimalny zestaw sygnałów.
Spadek wrażliwości operatorów na powiadomienia wskutek nadmiaru fałszywych lub niedziałających alertów, prowadzący do ignorowania zgłoszeń.
Sygnaly telemetryczne
Liczba unikalnych kombinacji etykiet metryki; wysoka wartość zwiększa koszt przechowywania i przetwarzania danych telemetrycznych.
Liczbowy pomiar agregowany w czasie, opisujący jeden wymiar zachowania systemu, np. liczbę żądań na sekundę czy zużycie pamięci.
Ciąg punktów pomiarowych uporządkowanych w czasie, identyfikowany nazwą metryki i zestawem etykiet, przechowywany w bazie szeregów czasowych.
Zarzadzanie incydentami
Ustrukturyzowany przegląd incydentu po jego zażegnaniu w celu ustalenia przyczyn i działań naprawczych, prowadzony bez przypisywania winy.
Podejście organizacyjne skupiające analizę incydentów na czynnikach systemowych, a nie na winie jednostek, by zachęcać do otwartego raportowania.
Pozostałe grupy — Chmura, DevOps i SRE
Chcesz wykorzystać AI w swojej firmie?
Wdrażamy chatboty, agentów głosowych i automatyzacje dla MŚP. Pierwsza konsultacja jest bezpłatna.
Bezpłatna konsultacja