Saya telah mencari MTTF, MTBF, MTBR dan MTBF untuk mengetahui server HP Gen9 yang berjalan di lingkungan produksi kami.
Akar pertanyaan saya, harus khawatir atau tidak.
Saya sepertinya tidak bisa mendapatkan data yang bagus karena setiap server memiliki campuran perangkat keras.
Di perusahaan terakhir saya, kami menjalankan sekitar 2000 server dell r210 r410 r710 Saya akan mengatakan rata-rata kami memiliki sekitar 5 server sehari yang mengalami semacam kegagalan. Jadi sekitar 0,25% dari server rusak dan perlu bagian diganti sebelum dapat digunakan lagi.
Perusahaan terakhir saya semuanya diatur dalam pasangan HA, infrastruktur N + 2 sehingga tidak berdampak pada produksi. Kami dapat mengganti server dan terus berjalan
Di kantor saya saat ini, kami menjalankan 9 server, (HP Gen9, 56 VM Hyper-V) kami tidak menyimpan banyak suku cadang di tangan juga keluar pusat data tidak dikelola sehingga jika ada yang mati kami harus berkendara sekitar 45 menit untuk mengganti apa pun.
CTO atau manajer TI saya tampaknya khawatir, mereka telah mengalami downtime sekitar 2,5 hari tahun lalu, saya telah menambahkan bahwa kita perlu mengelompokkan server tetapi mereka tidak melihat adanya kebutuhan.
Apakah ada yang salah atau benar di sini? Tidak yakin apa yang harus dilakukan.
Saya tahu ini bukan tanggung jawab saya jika terjadi sesuatu pada CTO. Ini adalah perusahaan yang sangat kecil, hanya CTO, Manajer TI, saya sendiri (dev ops) dan 1 orang help desk.
Secara keseluruhan pengalaman dalam menjalankan lingkungan produksi, sangat terbatas, cara mengatur banyak hal yang saya sebut tingkat junior, baik CTO maupun Manajer TI saya tidak tahu banyak tentang pengelompokan sebelum saya tiba di sana. Mereka berada di tengah-tengah proyek untuk mengatur DR tanpa HA, yang saya lawan tetapi kalah.