Ini tergantung pada perangkat keras server Anda. Papan tulis atau sistem Supermicro akan menangani ini secara berbeda dari Dell, HP atau IBM ...
Salah satu fitur nilai tambah dari server kelas atas adalah adanya tingkat integrasi perangkat keras / OS. Server yang lebih baik akan melaporkan apa yang Anda cari sebagai bagian dari agen manajemen dan / atau solusi manajemen out-of-band (ILO, DRAC, IPMI).
Anda harus menggunakan alat yang asli untuk platform perangkat keras Anda.
Kutipan dari server HP ProLiant yang menjalankan Linux dan agen Manajemen HP:
Trap-ID=6056
ECC Memory Correctable Errors detected.
dan
Trap-ID=6052
Advanced ECC Memory Engaged
atau yang lebih parah
Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.
atau yang terburuk ... Mengabaikan kesalahan selama 6 hari sampai server mogok karena RAM yang buruk
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during
memory initialization,
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001
LOG: ASR Detected by System ROM
Ini dicatat, ditambah perangkap SNMP dan email dikirim.
Secara umum, Anda akan melihat Pengecekan Pemeriksaan Mesin di buffer cincin kernel, sehingga Anda dapat memeriksa dmesg
atau menjalankan mcelog . Dalam pengalaman saya dengan Supermicro gear tanpa IPMI, itu tidak menangkap segalanya, dan saya masih memiliki kesalahan RAM yang menyelinap melalui celah dan menyebabkan pemadaman. Sayangnya, ini menyebabkan kebijakan burn-in RAM kuno sebelum penyebaran sistem.