Meskipun bukan tugas yang diberikan kepada saya, saya harus pulih dari downtime paksa.
Saya dulu adalah SA untuk situs keuangan yang agak besar. Kami tahu sistem kami di dalam dan luar, memiliki logging terpusat dan alat yang hebat untuk menyaringnya.
Tiba-tiba (tentu saja sangat dekat dengan tenggat waktu), semua ponsel menjadi gila dengan pesan peringatan. Periksa untuk melihat bahwa situsnya rusak, dan semua staf SA menghentikan apa yang mereka lakukan dan mulai menyelidikinya.
Log Apache baik-baik saja, database tidak membuang kesalahan dan cache berputar dengan baik. Banyak sumber daya cadangan, jaringan baik-baik saja dan tidak ada penyebaran baru-baru ini.
10 menit kemudian, saya mengetahui bahwa salah satu pengembang telah mendapatkan akses ke situs dan menambahkan die (); dalam modul yang tidak jelas terkait dengan pembuatan halaman.
Dengan kata lain, perangkat lunak melakukan apa yang diperintahkan, dan tidak ada informasi log yang akan membantu.
GM untuk perusahaan yang menjalankan situs itu menyeringai lebar dan berkata dia ingin memberi tahu kami. Saya mengatakan kepadanya untuk mematikan, bukan menyentuh server produksi saya, bahwa kami memang memiliki rencana pemulihan bencana yang besar, tetapi ketidakmampuan pengembangnya memastikan tidak ada rencana tersebut yang berhasil.
Jika dia ingin memeriksa waktu tanggapan kita, paling tidak dia harus mendiskusikannya dengan CTO dan bertanya apakah dia bisa melakukannya "beberapa waktu hari ini" atau "minggu ini". Dengan begitu tidak ada yang akan kesal, dan kami tidak akan membuang waktu untuk berdebat tentang hal itu.
Seluruh acara adalah salah satu yang paling tidak profesional yang saya temui sejauh ini.