/posts/server-problems-that-repeat

$ cat post.md

Какие серверные проблемы я раньше считал редкими, пока не начал ловить их регулярно

О скучных, но повторяющихся сбоях, которые не выглядят страшными на старте, зато стабильно отнимают время в эксплуатации.

Когда смотришь на инфраструктуру со стороны, кажется, что основные инциденты должны быть драматичными. Падение базы, сломанный диск, огромная утечка памяти. На практике куда чаще мешают вещи скучнее: закончившееся место, забытый сертификат, разросшиеся логи, контейнер, который формально жив, но уже давно не приносит пользы.

Именно такие проблемы раздражают сильнее всего, потому что кажутся “слишком мелкими”, чтобы о них думать заранее. Но если не думать, они начинают возвращаться как плохая привычка.

Сейчас я намного спокойнее отношусь к продакшену именно потому, что перестал считать такие вещи случайностью. Они не случайные. Это нормальная часть эксплуатации.

Что теперь всегда в поле зрения

  • Диск и рост логов.
  • Сроки действия сертификатов.
  • Поведение контейнеров после рестарта.
  • Свободная память и swap.

$ ls related/

$ cat /etc/motd

infraTales

Личный блог о DevOps, инфраструктуре, инструментах и инженерной практике.