Sledování stavu služby

Sledování stavu Vašich služeb

Než zveřejníte beta verzi, musíte již mít zaveden monitoring svých služeb, abyste mohli identifikovat problémy, které by mohly provoz služby ovlivnit.

Monitoring se správnými nástroji a procesy Vám umožní:

  • zjistit jakýkoliv problém, který mají uživatelé
  • zaveďte automatická upozornění, na technické problémy, abyste je mohli opravit, když se objeví,
  • předcházejte problémům, než k nim dojde nebo než se stanou vážnějšími,
  • zlepšujte své služby, například pomocí údajů o výkonnosti, které Vám pomohou s plánováním kapacity.

Plnění standardů digitálních služeb

Musíte monitorovat stav svých služeb, abyste plnili tyto body:

Sledování si naplánujte

Měli byste začít plánovat, jak monitorovat své služby během alfa verze.

Během alfa verze, Váš tým by se měl domluvit:

  • co na svých službách monitorovat,
  • jak monitorovat své služby,
  • jak zpracovat a zaznamenat problémy.

Veličiny pro monitorování

Musíte sledovat veličiny související s uživateli, stejně tak jako technické veličiny. Například sledujte procentní podíl uživatelů, kteří mohou dokončit úkol stejně jako dostupný prostor na disku, výkon aplikačního programového rozhraní a využití paměti.

Jak monitorovat

Když jste se domluvili, co budete monitorovat, Váš tým by měl

  • nastavit vnitřní a vnější monitorovací kontroly,
  • napište monitorovací kontroly,
  • nastavte automatická upozornění.

Nastavení vnitřních a vnějších monitorovacích kontrol

Měli byste nastavit vnitřní a vnější monitorovací kontroly.

Vnitřní monitoring je monitoring, který byste měli nastavit uvnitř Vaší infrastruktury a poskytne Vám v reálném čase aktuální informace o veličinách jako využití paměti, doba nahrání stránky a provoz v síti.

Vnější monitoring je monitoring, který můžete nastavit vně Vašich služeb a který Vaše systémy kontroluje i tehdy, když Váš systém přestane fungovat.

Psaní monitorovacích kontrol

Potřebujete se rozhodnout, jaký druh monitorovacích kontrol je pro Vaše služby nejužitečnější.

Monitorovací kontrola je řada testů, kterými můžete testovat svůj systém nebo celkově své služby za účelem zjistit jejich stav, případně Vám sdělí, že něco není v pořádku.

Například se můžete rozhodnout, že potřebujete vidět upozornění, pokud má během hodiny 1% uživatelů problémy dokončit transakci.

Měli byste napsat monitorovací kontroly při psaní kódu a považovat své kontroly za testy pro svůj živý systém.

Psaní automatických upozornění

Pište zprávy v automatických upozorněních jasné a stručné. Měly by být snadno srozumitelné pro členy týmu, kteří mohou být vzbuzeni v noci, aby vyřešili problém.

Uvažte vytvoření provozního manuálu nebo dokumentace, aby pomohla Vašemu týmu vyřešit problémy rychle. Zajistěte, aby každý člen Vašeho týmu měl na místě kopii dokumentace v listinné podobě pro případ, kdyby Vaše úložiště v cloudu nebylo dostupné.

Zpracování a zaznamenávání problémů

Měli byste řešit a sledovat chybové události pomocí systému ticketů, který Vám umožní delegovat události na členy Vašeho týmu.

Chybové události vždy obsahují zajímavé informace a mohou Vám říci o

  • uživatelském problému,
  • útocích na Vaše služby,
  • selhání systémů,
  • kapacitních problémech.

Sledování chybových událostí Vám pomůže zjistit, které události se opakují a zda jsou součástí služby obecně, nebo se vztahují k určité aplikaci nebo k určitému zařízení.

Můžete zkombinovat výsledky monitorovacích textů, abyste lépe zjistili, co u svých služeb opravit. Například srovnání testů nahrávání stránek se selháním transakcí a chybami aplikací Vám umožní:

  • zjistit části Vašich služeb, kde má více uživatelů problémy,
  • identifikovat důvod problémů,
  • diskutovat, jak vyřešit problém, například prostor na disku nebo pomalý výkon.

Většinu dat zpřístupněte

Pokud to nepředstavuje nebezpečí, měli byste data z monitoringu zpřístupnit.

Například můžete sdílet výkonnostní reporty s jinými servisními týmy ve Vašem oddělení nebo používat stavový panel, jako je například provozní stavová stránka používaná Hlídači webů, abyste uživatele informovali o jakýchkoliv problémech.

Revidujete pravidelně svůj monitorovací proces

Měli byste revidovat svůj monitorovací proces vždy, když dostanete automatické upozornění.

Je-li někdo povolán do práce mimo pracovní dobu, měli byste se ujistit, že taková reakce byla potřeba. Pokud například problém nemá dopad na uživatele a může počkat do rána, uvažte změnu strategie automatických upozornění, aby tento typ problému v budoucnosti nevyvolal zbytečný výjezd.

Související návody

Je možné, že pro Vás bude užitečný také návod Běh systému a dostupnost

Technology community (web operations)