Saya berada di lingkungan yang berisi banyak server Supermicro yang dilengkapi dengan pengontrol RAID perangkat keras Adaptec dan LSI MegaRAID . Pengontrol ini berisi modul cache yang didukung baterai untuk membantu meningkatkan kinerja penulisan dan melindungi data dalam perjalanan.
Masalah dukungan yang sering terjadi adalah kegagalan baterai pengontrol RAID. Ini menggeser array dari mode write-back ke write-through . Jelas ada dampak kinerja negatif karena sistem berjalan dengan kecepatan tulis yang menurun. Ini berlanjut sampai jendela downtime dapat dibuat untuk mematikan sistem dan mengganti baterai.
Ini adalah operasi yang sangat rutin bagi kami; hampir setiap minggu di beberapa ribu server fisik ... Kami bahkan memiliki stasiun pengisian daya untuk menyiapkan baterai pengganti sehingga dapat ditukar tanpa siklus pengisian daya.
Mungkin saya dimanjakan oleh sejarah panjang dengan server HP ProLiant dan pengontrol Smart Array RAID , tetapi sistem HP biasanya memiliki daya tahan baterai 4-6 tahun. Mereka akhirnya menghilangkan penggunaan baterai RAID sekitar 2009. Mereka diganti dengan modul memori yang didukung super-cache (cache tulis yang didukung flash, atau FBWC) dan tidak memerlukan penggantian, pembuangan, atau siklus pengisian awal yang panjang.
Karena saya melihat kegagalan baterai kontroler Adaptec dan LSI kadang-kadang terjadi pada sistem yang telah beroperasi selama kurang dari 12 bulan, saya bertanya-tanya apakah ini umum di lingkungan lain.
Jika ini umum, bagaimana lingkungan server besar lainnya menangani ini?
- Adakah tips atau trik untuk menangani penggantian baterai RAID?
- Apakah ada parameter konfigurasi yang dapat membantu?
- Bagaimana ini mengganggu operasi di lingkungan Anda ?
- Bisakah pendinginan dan suhu sasis yang buruk menjadi faktor?
- Apakah kita melakukan sesuatu yang salah?
- Pengontrol PERC Dell dibuat oleh LSI. Apakah lingkungan Dell mengalami masa pakai baterai pendek yang sama?
Literatur produk LSI menguraikan baterai generasi baru yang dapat bertahan lebih lama dari 1 tahun.
Server HP ProLiant DL585 G2 dengan waktu aktif 1000+ hari dan baterai RAID yang ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK