Dobry monitoring to podstawa stabilnego działania środowisk bazodanowych. Porównujemy narzędzia z ponad 20 lat doświadczenia.

- Monitoring reaktywny (alerty gdy coś się stało) to za mało, potrzebny jest monitoring predykcyjny.
- Najważniejsze metryki: wait events, buffer cache hit ratio, I/O latency i top SQL by elapsed time.
- Unikaj alert fatigue, zbyt wiele alertów prowadzi do ignorowania wszystkich.
- Dobre dashboardy to nie liczby, to kontekst: co jest normą, co jest anomalią.
- Każdy monitoring powinien mieć właściciela i proces eskalacji, nie tylko narzędzie.
Monitoring reaktywny vs. predykcyjny
Większość organizacji, z którymi pracuję, ma monitoring reaktywny: alarm dzwoni, gdy coś się już posypało. Tablespace zapełniony w 100%, sesje zablokowane od godziny, backup nie wykonany od tygodnia. To lepsze niż nic — ale daleko od dobrego.
Monitoring predykcyjny to inny poziom: system ostrzega Cię, gdy tablespace wypełni się za 48 godzin przy obecnym tempie wzrostu. Gdy czas wykonania kluczowego raportu zaczyna rosnąć 5%, 10%, 20% wolniej niż baseline. Gdy I/O latency wzrasta subtelnie, ale konsekwentnie przez trzy dni z rzędu.
Różnica między reaktywnym a predykcyjnym to różnica między byciem strażakiem a bycie inżynierem zapobiegania pożarom.
Metryki, które naprawdę mają znaczenie
Przez lata nauczyłem się, że liczy się nie ilość monitorowanych metryk, ale wybór właściwych. Dla baz Oracle i SQL Server fundamentem są:
Dla Oracle
- Top wait events - powiedzą Ci, na co baza czeka najbardziej
- Buffer cache hit ratio - poniżej 95% to sygnał do zbadania
- Library cache hit ratio - wskaźnik jakości bind variables
- Top SQL by elapsed time / CPU / I/O - złoczyńcy wydajnościowi
- Undo retention - szczególnie ważny przy długich transakcjach
Dla SQL Server
- Wait statistics - analogia Oracle wait events
- Page Life Expectancy (PLE) - zdrowie buffer pool
- Batch requests/sec + compilations/sec — obciążenie silnika
- VLF count - fragmentacja transaction log
- Index fragmentation - wpływ na wydajność odczytów
Alert fatigue - cichy zabójca monitoringu
Znam środowiska, gdzie system monitoringu wysyła 300+ alertów dziennie. Efekt? Administratorzy przestają czytać maile od systemu monitoringu. Gdy przychodzi prawdziwy alarm, ginie w szumie.
Monitoring, który wysyła zbyt wiele alertów, jest gorszy niż brak monitoringu — bo daje fałszywe poczucie bezpieczeństwa.
Recepta jest prosta, choć wymaga dyscypliny: każdy alert powinien wymagać działania. Jeśli alert przychodzi i nic nie robisz (albo robisz „kliknij OK"), to nie jest alert, to szum. Usuń go lub zmień progi.
Narzędzia w 2026 roku
Rynek narzędzi monitoringu baz danych jest bogaty. Z naszego doświadczenia:
- Oracle Enterprise Manager - najlepsze dla środowisk czysto Oracle, drogie, ale kompletne
- SolarWinds DPA - świetne cross-platform (Oracle + SQL Server), dobry UX
- Datadog / New Relic - dobre dla organizacji z szerokim stackiem observability
- Grafana + Prometheus - open-source, wymaga więcej pracy, ale pełna kontrola
- sp_WhoIsActive + własne skrypty - nie śmiej się, dla wielu firm to wystarczy
Nie ma jednego narzędzia dla wszystkich. Ważniejsze niż wybór narzędzia jest to, kto jest odpowiedzialny za alerty i jaki jest proces eskalacji.