Bagaimana cara menafsirkan pesan MCE?


10

Saya telah melihat banyak kesalahan yang baru saja muncul di /var/log/messagessalah satu server kami (di bawah). Namun, klien mce tampaknya kurang yakin tentang sumber kesalahan daripada entri yang diterjemahkan dalam syslog. Apakah ada semacam kunci yang digunakan untuk menafsirkan output MCE?

Nov 12 04:19:19 areion kernel: [14698753.176035] Machine check events logged
Nov 12 04:19:19 areion mcelog: HARDWARE ERROR. This is *NOT* a software problem!
Nov 12 04:19:19 areion mcelog: Please contact your hardware vendor
Nov 12 04:19:19 areion mcelog: MCE 0
Nov 12 04:19:19 areion mcelog: CPU 0 BANK 8
Nov 12 04:19:19 areion mcelog: MISC 640738dd0009159c ADDR 96236c6c0
Nov 12 04:19:19 areion mcelog: TIME 1352711959 Mon Nov 12 04:19:19 2012
Nov 12 04:19:19 areion mcelog: MCG status:
Nov 12 04:19:19 areion mcelog: MCi status:
Nov 12 04:19:19 areion mcelog: MCi_MISC register valid
Nov 12 04:19:19 areion mcelog: MCi_ADDR register valid
Nov 12 04:19:19 areion mcelog: MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Nov 12 04:19:19 areion mcelog: Transaction: Memory read error
Nov 12 04:19:19 areion mcelog: STATUS 8c0000400001009f MCGSTATUS 0
Nov 12 04:19:19 areion mcelog: MCGCAP 1c09 APICID 20 SOCKETID 1
Nov 12 04:19:19 areion mcelog: CPUID Vendor Intel Family 6 Model 44

Semua kesalahan tampaknya terhubung dengan bank memori yang sama:

areion:~# awk -F'mcelog:' '/mcelog:.*BANK/{ print $2; }' < /var/log/messages |uniq
 CPU 0 BANK 8 

Saya menjalankan daemon mcelog, dan ketika saya memeriksa informasi kesalahan, sepertinya tidak tahu dari mana kesalahan itu berasal. Hanya mereka yang terkait CPU0(kami hanya memiliki satu CPU di kotak ini):

Memory errors
SOCKET 1 CHANNEL any DIMM any
corrected memory errors:
        77 total
        77 in 24h
uncorrected memory errors:
        0 total
        0 in 24h
Per page corrected memory statistics:
359ffc000: total 2 2 in 24h online

3b93cc000: total 2 2 in 24h online

3ce45c000: total 2 2 in 24h online

96236c000: total 20 20 in 24h online triggered

96545c000: total 9 9 in 24h online

96a82c000: total 9 9 in 24h online

96a8ec000: total 1 1 in 24h online

96fb6c000: total 15 15 in 24h online triggered

9c2edc000: total 15 15 in 24h online triggered

9c5eac000: total 1 1 in 24h online

9c6a1c000: total 1 1 in 24h online

Sama sekali tidak jelas bagaimana saya menafsirkan informasi ini. Di satu sisi, klien mce tidak menunjukkan saluran atau DIMM, tetapi pesan yang diterjemahkan menunjukkan kesalahan terjadi pada DIMM 8. dmesgtampaknya menunjukkan bahwa hanya 42 pesan yang dicatat:

[14698753.176035] Machine check events logged
[14698753.629174] Machine check events logged
[14698815.338595] __ratelimit: 38 callbacks suppressed
[14698815.338628] Machine check events logged
[14698816.020797] Machine check events logged

Saya sepertinya mendapatkan pesan yang beragam, yang membuat saya bertanya-tanya asumsi apa yang harus dibuat berdasarkan info yang dilaporkan dari berbagai sumber.

Info lain-lain:

areion:~# grep 'model name' /proc/cpuinfo |uniq
model name      : Intel(R) Xeon(R) CPU           X5670  @ 2.93GHz

areion:~# apt-cache policy mcelog |grep Installed
  Installed: 1.0~pre3-3

areion:~# lsb_release -a
No LSB modules are available.
Distributor ID: Debian
Description:    Debian GNU/Linux 6.0.6 (squeeze)
Release:        6.0.6
Codename:       squeeze

Jawaban:


2

Anda mungkin ingin mencoba mengganti DIMM yang dimaksud (CPU 0, SOCKET 8) dan melihat apakah pesan MCE terus dihasilkan.

Paket mcelog datang dikonfigurasi dengan beberapa ambang standar untuk berbagai peristiwa MCE yang terjadi dari waktu ke waktu. Lihat /etc/mcelog/mcelog.confdetailnya. Untuk kesalahan halaman memori, ambangnya adalah 10 peristiwa selama 24 jam. (Saya tidak benar-benar yakin dari mana angka ini berasal tetapi mungkin ini merupakan titik referensi yang masuk akal). Pos Anda menyebutkan 77 peristiwa yang dapat diperbaiki lebih dari 24 jam terhadap sejumlah halaman, sehingga kemungkinan besar DIMM telah mengembangkan masalah yang mungkin atau mungkin tidak berubah menjadi sesuatu yang lebih serius.

Saya tidak akan terlalu kesal menerima informasi yang tidak konsisten dari berbagai sumber. Secara umum saya telah menemukan bahwa apa pun di tingkat firmware adalah platform yang cukup spesifik (yaitu khusus untuk model perangkat keras tertentu). Aturan praktis saya untuk masalah terkait firmware adalah bahwa alat vendor biasanya yang paling akurat, tetapi paling tidak dapat digunakan. Alat open source yang lebih umum lebih mudah digunakan, tetapi mungkin tidak memberikan informasi yang cukup untuk menunjukkan dengan tepat apa yang terjadi.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.