Saya ingin membandingkan keandalan sistem RAID yang berbeda dengan drive konsumen (URE / bit = 1e-14) atau perusahaan (URE / bit = 1e-15). Rumus untuk memiliki probabilitas keberhasilan membangun kembali (mengabaikan masalah mekanis, yang akan saya perhitungkan nanti) sederhana:
error_probability = 1 - (1-per_bit_error_rate) ^ bit_read
Penting untuk diingat adalah bahwa ini adalah kemungkinan mendapatkan setidaknya satu URE, tidak harus hanya satu.
Misalkan kita ingin ruang yang dapat digunakan 6 TB. Kita bisa mendapatkannya dengan:
RAID1 dengan 1 + 1 disk masing-masing 6 TB. Selama pembangunan kembali kami membaca kembali 1 disk 6TB dan risikonya adalah: 1- (1-1e-14) ^ (6e12 * 8) = 38% untuk konsumen atau 4,7% untuk drive perusahaan.
RAID10 dengan 2 + 2 disk masing-masing 3 TB. Selama rekondisi kita membaca kembali hanya 1 disk 3TB (yang dipasangkan dengan yang gagal!) Dan risikonya lebih rendah: 1- (1-1e-14) ^ (3e12 * 8) = 21% untuk konsumen atau 2,4% untuk drive perusahaan.
RAID5 / RAID Z1 dengan 2 + 1 disk masing-masing 3TB. Selama rekondisi kami membaca kembali 2 disk masing-masing 3TB dan risikonya adalah: 1- (1-1e-14) ^ (2 * 3e12 * 8) = 38% untuk konsumen atau 4,7% atau drive perusahaan.
RAID5 / RAID Z1 dengan 3 + 1 disk masing-masing 2 TB (sering digunakan oleh pengguna produk SOHO seperti Synologys). Selama pembangunan kembali kami membaca kembali 3 disk masing-masing 2TB dan risikonya adalah: 1- (1-1e-14) ^ (3 * 2e12 * 8) = 38% untuk konsumen atau 4,7% atau drive perusahaan.
Menghitung kesalahan untuk toleransi disk tunggal mudah, lebih sulit menghitung probabilitas dengan sistem toleran terhadap kegagalan beberapa disk (RAID6 / Z2, RAIDZ3).
Jika hanya disk pertama yang digunakan untuk membangun kembali dan disk kedua dibaca lagi dari awal dalam kasus atau URE, maka probabilitas kesalahan adalah yang dihitung di atas kuadrat berakar (14,5% untuk konsumen RAID5 2 + 1, 4,5% untuk konsumen RAID1 1 + 2). Namun, saya kira (setidaknya di ZFS yang memiliki checksum penuh!) Bahwa disk paritas kedua / tersedia hanya dibaca jika diperlukan, artinya hanya beberapa sektor yang diperlukan: berapa banyak URE yang dapat terjadi pada disk pertama? tidak banyak, jika tidak, probabilitas kesalahan untuk sistem toleransi disk tunggal akan meroket bahkan lebih dari yang saya hitung.
Jika saya benar, disk paritas kedua praktis akan menurunkan risiko ke nilai yang sangat rendah.
Selain pertanyaan, penting untuk diingat bahwa produsen meningkatkan kemungkinan URE untuk drive kelas konsumen karena alasan pemasaran (menjual lebih banyak drive kelas perusahaan), oleh karena itu bahkan HDD kelas konsumen diharapkan mencapai 1E-15 URE / bit read .
Beberapa data: http://www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/
Nilai-nilai yang saya berikan dalam tanda kurung (drive perusahaan) karenanya secara realistis berlaku untuk drive konsumen juga. Dan drive perusahaan nyata memiliki keandalan yang lebih tinggi (URE / bit = 1e-16).
Mengenai kemungkinan kegagalan mekanis, mereka sebanding dengan jumlah disk dan sebanding dengan waktu yang dibutuhkan untuk membangun kembali.