Apa itu server yang tidak kritis? Yang bisa gagal?
ECC RAM sangat penting ketika keandalan memori sangat mendasar.
Dua hal tumbuh dengan pertumbuhan ukuran memori:
- ketergantungan perangkat lunak pada memori, esp. perangkat lunak server (mis. caching)
- probabilitas kesalahan memori (p = num_bits * p_bit_failure)
Ini presentasi intel pada ECC melaporkan fakta-fakta ini:
- Rata-rata tingkat kesalahan memori untuk server dengan memori 4GB berjalan 24x7 adalah 150 kali setahun
- ~ 4000 kesalahan yang bisa diperbaiki per modul memori per tahun
- Overclocking dan usia sistem sangat meningkatkan tingkat kegagalan
- Kegagalan berulang sering terjadi dan terjadi dengan cepat (97% terjadi dalam 10 hari dari kegagalan pertama) => efek longsoran
- Untuk server ECC dengan umur 3 hingga 5 tahun, peluang kegagalan sistem kesalahan memori yang tidak dapat diperbaiki kurang dari 0,001%
Penelitian terbaru lainnya oleh WISC menunjukkan ECC sangat penting untuk sistem ZFS ini:
ZFS tidak memiliki tindakan pencegahan untuk kerusakan memori: blok data yang buruk dikembalikan ke pengguna atau ditulis ke disk, operasi sistem file gagal, dan berkali-kali seluruh sistem crash.
Penting untuk dicatat bahwa sistem file lain sama sensitifnya dengan bentuk korupsi data seperti halnya ZFS.
ECC adalah apa yang menyelamatkan Anda dari masalah-masalah ini, jika memungkinkan, dan dalam kasus-kasus bencana, apa yang memperingatkan Anda tentang hal ini terjadi sebelum terlambat.