Перейти к основному содержимому

2 записи с тегом "incident-management"

Посмотреть все теги

Шаблон post-mortem, который реально работает

· 7 мин. чтения
Artur Pan
CTO & Co-Founder at PanDev

В среднем post-mortem пишется 4 часа и порождает ноль action items, которые команда закрывает в течение 30 дней. Мы посмотрели на 120 post-mortem документов у трёх наших on-prem клиентов перед тем, как собрать этот шаблон. 83% action items оставались в статусе "open" через полгода. Это не разбор инцидента — это кладбище документов.

Post-mortem имеет смысл писать только если он что-то меняет. Всё остальное — прикрытие.

MTTR-цели 2026: реалистичные бенчмарки DORA Speed of Recovery для вашей команды

· 10 мин. чтения
Artur Pan
CTO & Co-Founder at PanDev

Книга Google Site Reliability Engineering (2016) популяризировала контринтуитивный принцип: примите неизбежность сбоев и инвестируйте в скорость восстановления. Исследования DORA подтвердили это данными — разница между элитными и отстающими командами не в том, что у элитных меньше инцидентов, а в том, что они восстанавливаются менее чем за час вместо недели. Каждая инженерная организация инвестирует в предотвращение сбоев. Немногие инвестируют в быстрое восстановление после них. Данные говорят, что приоритеты расставлены наоборот.