Kami mengalami pemadaman yang agak serius pada minggu terakhir ini yang memengaruhi beberapa layanan yang membuat kami keluar dari SLA kami dengan pelanggan. Sekarang semuanya telah diselesaikan, saya sedang melakukan tinjauan post-mortem.
Dari ulasan ini, saya ingin membuat dokumen internal yang menjelaskan pemadaman, efeknya, respons kita, dan resolusi. Saya ingin membuat formulir yang cukup standar untuk digunakan kembali di masa depan. Saya telah memasukkan pemikiran saya di bawah ini, tetapi barang apa lagi yang harus dimasukkan? Jika ini insiden terkait keamanan, apa yang akan Anda tambahkan?
- Ringkasan Ringkasan tingkat eksekutif acara.
- Layanan yang Terkena Dampak
- Dampak Apa dampaknya bagi pengguna dan SLA kami? Apakah ada biaya dalam dolar, transaksi yang terlewatkan, pelanggan yang hilang, dll?
- Durasi Pemadaman Untuk setiap layanan yang terpengaruh jika ada varian
- Penyebab Termasuk penyebab primer dan sekunder
- Resolusi
- Garis waktu acara Pemberitahuan, kontak dengan vendor eksternal, pemberitahuan pelanggan, tanggapan, dll.
- Masalah dengan respons kita Apakah semuanya tidak berjalan sesuai rencana dengan respons kita terhadap pemadaman? Orang yang benar diberitahu? Apakah vendor memenuhi kewajiban kontraknya?
- Langkah-langkah pencegahan yang harus diambil Bagaimana kita mencegah pemadaman ini tidak terjadi lagi atau mengurangi dampaknya?
- Metode Deteksi Seberapa baik kita mendeteksi pemadaman ini dan bagaimana kita meningkatkan deteksi di masa depan?
- Perubahan yang dilakukan dalam respons pemadaman di masa mendatang
Usahakan untuk menyimpan posting di satu item dan penjelasan, dan postingan ini dapat diperbarui dengan jawaban pilihan teratas.