Salah satu situs klien saya menerima sambaran petir langsung minggu lalu (kebetulan pada hari Jumat tanggal 13! ).
Saya berada jauh dari situs, tetapi bekerja dengan seseorang di tempat, saya menemukan pola kerusakan yang aneh. Kedua tautan internet terputus, sebagian besar server tidak dapat diakses. Sebagian besar kerusakan terjadi di MDF , tetapi satu IDF yang terhubung dengan serat juga kehilangan 90% port pada anggota stack switch. Cukup port cadangan yang tersedia untuk mendistribusikan kembali pemasangan kabel di tempat lain dan memprogram ulang, tetapi ada waktu henti sementara kami mengejar perangkat yang terkena dampak ..
Ini adalah gedung / fasilitas pergudangan baru dan banyak perencanaan masuk ke desain ruang server. Ruang server utama dijalankan oleh UPS online konversi ganda APC SmartUPS RT 8000VA , yang didukung oleh generator. Ada distribusi daya yang tepat untuk semua peralatan yang terhubung. Replikasi data di luar kantor dan cadangan sistem tersedia.
Secara keseluruhan, kerusakan (yang saya sadari) adalah:
- Kartu saluran 48-port gagal pada sakelar sasis Cisco 4507R-E .
Saklar Cisco 2960 yang gagal dalam tumpukan 4 anggota.(Ups ... kabel susun longgar)- Beberapa port flaky pada switch Cisco 2960.
- Motherboard dan catu daya HP ProLiant DL360 G7.
- Elfiq WAN penyeimbang tautan.
- Satu modem faks Multitech.
- WiMax / Antena internet nirkabel tidak bergerak dan injektor daya.
- Banyak perangkat yang terhubung dengan PoE (telepon VoIP, titik akses Cisco Aironet, kamera keamanan IP)
Sebagian besar masalah terkait dengan kehilangan seluruh blade switch di Cisco 4507R-E. Ini berisi beberapa jaringan VMware NFS dan uplink ke firewall situs. Host VMWare gagal, tetapi HA merawat VM setelah konektivitas jaringan penyimpanan dipulihkan. Saya terpaksa melakukan reboot / siklus daya sejumlah perangkat untuk menghapus status daya yang funky. Jadi waktu untuk pemulihan itu singkat, tetapi saya ingin tahu tentang pelajaran apa yang harus dipelajari ...
- Perlindungan tambahan apa yang harus diterapkan untuk melindungi peralatan di masa depan?
- Bagaimana saya harus mendekati garansi dan penggantian? Cisco dan HP mengganti item berdasarkan kontrak. Penyeimbang tautan WAN Elfiq yang mahal memiliki uraian di situs web mereka yang pada dasarnya mengatakan "terlalu buruk, gunakan pelindung lonjakan jaringan ". (Sepertinya mereka mengharapkan jenis kegagalan ini)
- Saya sudah berada di IT cukup lama untuk mengalami kerusakan badai listrik di masa lalu, tetapi dengan dampak yang sangat terbatas; misalnya antarmuka jaringan PC yang murah atau penghancuran sakelar mini.
- Apakah ada hal lain yang bisa saya lakukan untuk mendeteksi peralatan yang berpotensi terkelupas, atau apakah saya hanya harus menunggu perilaku aneh muncul?
- Apakah ini semua hanya kesialan, atau sesuatu yang harus benar-benar diperhitungkan dalam pemulihan bencana?
Dengan cukup $$$, adalah mungkin untuk membangun segala macam redudansi ke dalam lingkungan, tetapi apakah keseimbangan yang masuk akal dari desain preventif / bijaksana dan penggunaan sumber daya yang efektif di sini?