Seberapa serius saya harus menerima peringatan kesalahan yang dapat diperbaiki ECC?


8

Saya memiliki tumpukan server Sun X2200-M2. Server-server ini memiliki memori ECC.

Di beberapa server ini, saya mendapat peringatan di eLOM tentang "kesalahan ECC yang dapat diperbaiki terdeteksi", misalnya:

# ssh regress11 ipmitool sel elist
   1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
   2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted

... beberapa lebih sering daripada yang lain.

Kernel pada sistem khusus ini juga melempar kesalahan EDAC, meskipun dengan frekuensi yang jauh lebih banyak daripada eLOM merekam kejadian ECC:

EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error

Sekarang jika server mendeteksi ECC yang Tidak Dapat Dioreksi, sistem me-reset, jadi jelas itu buruk dan menghapus / mengganti tongkat yang diidentifikasi atau pasangan memperbaiki masalah.

Tetapi saya berpikir bahwa jika kesalahan dapat diperbaiki, maka tidak ada masalah langsung - saya dapat memperlakukan ini sebagai peringatan dan bersiap untuk menarik tongkat / pasangan jika kesalahan yang tidak dapat diperbaiki mulai terjadi?

Jawaban:


10

Tergantung seberapa sering Anda mendapatkan kesalahan. Karena berbagai alasan, ECC harus memperbaiki kesalahan bit tunggal rata-rata setahun sekali. Jika Anda mendapatkannya secara signifikan lebih cepat dari itu, atau jika mereka kesalahan multi-bit, Anda harus khawatir (saya akan mengganti RAM ASAP).

Juga, ECC tidak sempurna. Mungkin saja kesalahan kumulatif melewati ECC; yang akan muncul sebagai OS crash atau masalah serupa.


Terima kasih. Bernegosiasi dengan pelanggan untuk mendanai penggantian.
David Mackintosh
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.