$ cat post.md
Как меняется отношение к мониторингу после первого неприятного инцидента
До первого реального сбоя мониторинг кажется необязательным украшением. После него начинаешь видеть его совсем иначе.
Пока всё работает, мониторинг часто воспринимается как приятный, но не срочный слой. Кажется, что логи можно посмотреть руками, а состояние сервиса и так более-менее понятно. Потом случается неприятный инцидент, и оказывается, что у вас нет ни нормального сигнала, ни истории, ни точки опоры.
После первого такого случая отношение меняется очень быстро. Ты уже не хочешь “когда-нибудь потом” настроить healthcheck или алерт на диск. Ты хочешь понять, что происходит с системой до того, как пользователь напишет о проблеме.
С этого момента мониторинг перестаёт быть декоративной панелью. Он становится способом возвращать себе контроль над системой.
Что я считаю минимумом
- Проверка доступности сервиса.
- Базовые алерты на диск, память и рестарты.
- Понятные логи с быстрым доступом.
- История, по которой можно восстановить хронологию проблемы.