Menguraikan melanjutkan pesan syslog mpt2sas

15

Ringkasan

Saya telah mendapatkan pesan rahasia ini di syslog sejak saya menginstal beberapa perangkat keras baru dan saya tidak tahu apa masalahnya, apakah itu serius, atau apa yang harus dilakukan.

Mereka berasal dari SATA HBA baru dan mereka mengikuti pola. Saya akan mendapatkan beberapa pesan pertama diikuti oleh beberapa pesan kedua 5-30 detik kemudian. Mereka datang dalam gumpalan yang semuanya dicatat dalam detik yang sama dan jumlah yang tepat dari masing-masing bervariasi antara sekitar 2 dan 35. Ini bisa menjadi menit atau jam antara penampilan entri.

Contoh dari dua pesan:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

Selalu selalu 0x31120303 diikuti oleh 0x31110d01.

mpt2sas adalah driver untuk adaptor bus host SATA yang saya gunakan tetapi konten kesalahannya terlalu samar. Itu tidak memberi tahu saya apa masalahnya, apa disk atau port itu dengan atau seberapa parah itu.

Perangkat keras

Supermicro X9SCL dengan Xeon E3-1220 dan 8GB RAM.

Supercicro AOC-USAS2-L8I SAS / SATA HBA berbasis LSI SAS2008 yang terhubung ke set baki disk Supermicro CSE-M35T-1B . Ini memiliki tiga Western Digital WD30EZRX dan dua Segate ST3000DM001 dicolokkan ke dalamnya. Semua drive 3TB (jumlah sektor yang persis sama persis). Tidak ada ekspander port yang digunakan.

HBA, baki disk, dan 4 drive baru. Salah satu WD30EZRXes telah berbulan-bulan, tidak punya masalah dengan itu. Seandainya terhubung ke pengontrol Intel SATA terintegrasi sebelumnya, pindahkan ke drive bay dengan pengaturan baru ini.

Memiliki masalah dengan HBA yang perlu sering diatur ulang dan mendapatkan kinerja yang sangat buruk. Memperbarui firmware / bios menjadi "Fase 12", rilis terbaru yang tersedia dari Supermicro dan mengubah jenisnya menjadi IT (yaitu passthrough, dari IR untuk serangan terpadu karena saya akan menggunakan semua serangan perangkat lunak): 2008IT12.FW. Pembaruan itu membereskan semua masalah awal dan saya tidak mulai mendapatkan pesan-pesan di atas sampai nanti (lihat di bawah).

Empat disk pertama yang saya tambahkan semuanya pada port SFF-8087 pertama (dibagi menjadi 4 kabel SATA). Disk terbaru yang saya tambahkan ada di port lain, jika itu penting.

Satu-satunya disk lain di sistem yang berisi OS, dan merupakan Intel 80GB SSD yang lebih lama dicolokkan ke pengontrol SATA terintegrasi.

Perangkat lunak

Ubuntu 11.10 (oneiric). Linux 3.0.0-14-server x86_64. Menggunakan driver mpt2sas yang datang dengan OS.

Mencoba membangun array RAID6 menggunakan Linux md dengan lima disk tersebut. Dimulai dengan susunan 3 disk yang berdegenerasi, dua Segate, dan salah satu drive WD baru. Ini cepat dan berjalan sangat baik, tidak ada pesan di log setelah saya melakukan pembaruan firmware. Sementara itu, saya masih menggunakan disk WD lama pada port 0 dari controller yang sama.

Menambahkan disk WD baru lainnya ke array. Rebuild dimulai dan saya sekarang mendapatkan pesan-pesan itu di syslog secara berkala. Saya tidak yakin berapa lama waktu yang diperlukan untuk menambahkan disk ke array tetapi perkiraan waktu (cat / proc / mdstat) berkisar dari ribuan hingga puluhan ribu menit, lebih lama dari yang dibutuhkan 3 disk pertama. Saya mengerti bahwa disk WD jauh lebih lambat; Saya punya model yang berbeda untuk mengurangi kemungkinan kegagalan banyak disk, dan itu adalah dua model 3TB termurah.

Catatan

SMART tidak melaporkan masalah pada disk apa pun. Tidak ada kesalahan yang dicatat pada disk apa pun dan tidak ada statistik kegagalan yang mendekati ambang batas.

Pesan-pesan yang dicatat hanya mulai muncul setelah saya menambahkan disk terakhir, yang menunjukkan bahwa seseorang mungkin memiliki masalah tetapi saya tidak ada yang menunjuk ke sana.

Saya memang menemukan file header yang tampaknya sesuai dengan pesan logging dari driver ini. Pesan pertama tampaknya dibatalkan (kode 12) untuk "subkode" 0303 yang tidak terdaftar. Pesan kedua adalah reset (kode 11) karena alasan yang juga tidak jelas. Jika saya bisa menentukan apa artinya 0303 dan 0d01, itu akan sangat membantu.

Saya tahu bahwa 4 disk dalam disk 5 RAID6 adalah array yang tidak lengkap. Saya berencana untuk menyalin isi disk lama ke array setelah selesai mengintegrasikan disk ke-4 dan kemudian menambahkan disk lama ke array juga.

— Chris Smith
sumber

5

Kemungkinan taruhan terbaik Anda adalah masalah perangkat keras di suatu tempat antara disk Anda dan hingga dan termasuk pengontrol serangan sas Anda. Saya sarankan mencoba:

Jalankan alat diagnostik apa pun dari vendor jika tersedia
Periksa / pasang kembali / ganti kabel
menghapus komponen perangkat keras dan menukar perangkat keras dalam rantai yang menghubungkan disk ke pengontrol serangan Anda, termasuk pengontrol itu sendiri (yaitu, untuk Anda, coba sesuatu yang lain daripada serangan terintegrasi motherboard).

Saya punya satu dari dua Dell PowerEdge R515 yang identik memberikan pesan yang sangat mirip (log secara berkala diisi dengan pesan mpt2sas0, meskipun saya tidak memiliki kode numerik yang tepat). Diagnostik bootable Dell sendiri mengambil ini sebagai "kesalahan perangkat keras" dan mengganti backplane RAID karena menyelesaikan masalah.

Ketika saya sedang menyelidiki, saya tidak dapat menemukan sumber daya yang komprehensif tentang apa arti berbagai kode kesalahan mpt2sas0. Saya menduga mereka bahkan mungkin hardware-vendor-spesifik (seseorang yang tahu lebih banyak tentang SAS perlu mengkonfirmasi atau menyangkal ini). Jadi kode kesalahan Anda dapat berarti sesuatu yang sangat berbeda, tetapi jika SMART bersih, sulit untuk membayangkan alasan baik lainnya untuk mpt2sas0 untuk melaporkan kode kesalahan.

Kesalahan ini bisa sangat serius. R515 saya tampaknya berfungsi dengan pesan-pesan ini selama seminggu dengan 12 disk Ubuntu Linux software raid 6, tetapi kemudian tiba-tiba mengeluarkan semua 12 disk dari array sebagai rusak (!)

Juga dalam kasus saya, SMART untuk semua disk benar-benar bersih. Pemeriksaan yang baik adalah tes diagnostik mandiri cerdas:, smartctl -t long /dev/sdXdan kemudian periksa hasilnya sekitar satu hari kemudian dengan smartctl -l selftest /dev/sdX. Jika semuanya OK, tes akan mengatakan Completeddan LBA_first_errkolom harus kosong.

— Rickard Armiento
sumber

Catatan: pengontrol RAID (benar-benar HBA) sudah merupakan kartu yang terpisah. Pengontrol SATA onboard berfungsi dengan baik. Saya punya kabel pengganti SFF-8087 sesuai pesanan, harus ada di sini besok. Itu tersangka utama saya saat ini.

— Chris Smith

Kabel yang buruk adalah masalahnya! Saya mengganti keduanya (dua port SFF) dengan beberapa kabel berkualitas lebih tinggi dan tidak memiliki masalah sejak itu! Saya menerima jawaban Anda karena ini adalah yang terpanjang dan tidak menyarankan kabel yang buruk. PS Saya pasti melakukan tes SMART panjang; tidak ada masalah pada salah satu disk.

— Chris Smith

Senang mendengar bahwa Anda menemukan masalahnya. Terima kasih sudah menerima.

— Rickard Armiento

Bagi saya sangat aneh bahwa saya memenuhi masalah ini sebelumnya juga hanya dalam kasus platform Dell PowerEdge. Hasil yang sama masalahnya adalah dengan kabel ...

— Mazeryt

3

Wow, yang sulit.

Tampaknya ini menunjukkan bahwa 0x31120303 adalah reset bus karena salah satu perangkat Anda sedang dalam beban berat. Itu juga mengatakan Anda tidak perlu khawatir tentang hal itu. (Haha, ya benar.)

Ini menunjukkan bahwa pesan-pesan log ini terjadi karena salah satu perangkat Anda terlalu lama untuk merespons perintah. Ini mengatakan hal yang sama, dan juga menunjukkan hal itu terjadi di bawah beban berat.

Meskipun ini bukan jawaban yang lengkap, mudah-mudahan ini akan mengarahkan Anda ke arah yang bermanfaat.

— Michael Hampton
sumber

Saya melihat beberapa posting itu tetapi tidak pernah dapat menemukan pesan yang tepat. Ternyata menjadi kabel SFF-8087-> buruk. Terima kasih untuk bantuannya!

— Chris Smith

0

Ini berarti bahwa Anda memiliki beberapa kesalahan pada disk, itu adalah disk SATA di pengontrol SAS dari LSI dan karena kesalahan semua permintaan yang belum selesai dibatalkan.

Dalam kebanyakan kasus, Anda memiliki kesalahan sedang pada disk yang merupakan pemicu untuk kesalahan ini. Kesalahan ini dengan sendirinya tidak berarti kesalahan sedang dan Anda harus memeriksa log untuk petunjuk lain untuk menemukan apa sumber kegagalan disk asli.

Versi yang sedikit lebih rumit di: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/

— Baruch Even
sumber

Posting menarik, terima kasih sudah berbagi! SATA adalah protokol yang jelek tetapi disk-disk itu murah dan melakukan apa yang saya butuhkan. Pesan belum muncul kembali sejak saya mengganti kabel yang salah.

— Chris Smith

1

Lebih banyak decoding dari LSI Loginfo dapat ditemukan melalui utilitas yang saya buat untuk menguraikannya: blog.disksurvey.org/blog/2014/08/10/decoding-lsi-loginfo-codes

— Baruch Even