Grupa pojęćChmura, DevOps i SRE

Obserwowalnosc i SRE

20 pojęć w 8 podgrupach, z prostymi definicjami i źródłami.

Przeglądaj kategorię

Miary niezawodnosci

czas naprawyMTTR

Średni czas od wykrycia awarii do przywrócenia poprawnego działania usługi (Mean Time To Recovery/Repair).

czas wykryciaMTTD

Średni czas od wystąpienia awarii do jej wykrycia przez system monitorowania lub operatorów (Mean Time To Detect).

Podstawy obserwowalnosci

obserwowalnośćo11y

Własność systemu pozwalająca wnioskować o jego wewnętrznym stanie na podstawie zewnętrznych wyjść (metryk, logów, śladów) bez modyfikacji kodu.

telemetria

Zbiór danych pomiarowych emitowanych przez system (metryki, logi, ślady) i przesyłanych do systemu analizy w celu monitorowania zachowania.

Poziomy uslug

budżet błęduerror budget

Dopuszczalna ilość niezawodności utraconej w okresie, wyznaczona jako dopełnienie celu SLO; wyczerpanie wstrzymuje wdrażanie zmian.

tempo wypalaniaburn rate

Stosunek bieżącego zużycia budżetu błędu do tempa, które wyczerpałoby go równomiernie w całym okresie; podstawa alertów wielookienkowych.

Praktyki SRE

praca operacyjnatoil

Ręczna, powtarzalna i zautomatyzowalna praca związana z utrzymaniem usługi, nieprzynosząca trwałej wartości i skalująca się z obciążeniem.

Sledzenie rozproszone

propagacja kontekstu

Przekazywanie identyfikatorów śladu i przedziału między usługami w nagłówkach żądań, umożliwiające powiązanie operacji w jeden ślad rozproszony.

próbkowanie śladów

Selektywne zachowywanie części śladów rozproszonych w celu ograniczenia kosztów przechowywania przy zachowaniu reprezentatywności danych.

przedział śladuspan

Pojedyncza, nazwana jednostka pracy w śladzie rozproszonym, opisana czasem rozpoczęcia, trwaniem i atrybutami; podstawowy element budujący ślad.

ślad rozproszony

Reprezentacja przebiegu pojedynczego żądania przez wiele usług, złożona z powiązanych przedziałów ukazujących ścieżkę i czasy wykonania.

Strategie monitorowania

alertowanie

Automatyczne wykrywanie warunków przekroczenia progów w telemetrii i powiadamianie odpowiedzialnych osób o potencjalnej awarii usługi.

nasyceniesaturation

Miara stopnia wykorzystania ograniczonego zasobu systemu względem jego pojemności; bliskość pełnego nasycenia zwiastuje degradację wydajności.

sygnały złotegolden signals

Cztery kluczowe wskaźniki monitorowania usługi: opóźnienie, ruch, błędy i nasycenie, zalecane jako minimalny zestaw sygnałów.

zmęczenie alertamialert fatigue

Spadek wrażliwości operatorów na powiadomienia wskutek nadmiaru fałszywych lub niedziałających alertów, prowadzący do ignorowania zgłoszeń.

Sygnaly telemetryczne

kardynalność

Liczba unikalnych kombinacji etykiet metryki; wysoka wartość zwiększa koszt przechowywania i przetwarzania danych telemetrycznych.

metryka

Liczbowy pomiar agregowany w czasie, opisujący jeden wymiar zachowania systemu, np. liczbę żądań na sekundę czy zużycie pamięci.

szereg czasowy

Ciąg punktów pomiarowych uporządkowanych w czasie, identyfikowany nazwą metryki i zestawem etykiet, przechowywany w bazie szeregów czasowych.

Zarzadzanie incydentami

analiza powłamaniowapostmortem

Ustrukturyzowany przegląd incydentu po jego zażegnaniu w celu ustalenia przyczyn i działań naprawczych, prowadzony bez przypisywania winy.

kultura bez obwinianiablameless

Podejście organizacyjne skupiające analizę incydentów na czynnikach systemowych, a nie na winie jednostek, by zachęcać do otwartego raportowania.

Pozostałe grupy — Chmura, DevOps i SRE

Chcesz wykorzystać AI w swojej firmie?

Wdrażamy chatboty, agentów głosowych i automatyzacje dla MŚP. Pierwsza konsultacja jest bezpłatna.

Bezpłatna konsultacja