Pemulihan kegagalan disk Raid 1 mdadm (linux): DRDY err (UNC) terus berulang tidak dapat mencapai login

2

Selama akhir pekan, saya mendapat beberapa email dari server penyimpanan jaringan kami (hanya kotak khusus dengan CentOS 5 dan 2 2tb drive perangkat lunak raid 1) yang mengindikasikan masalah terdeteksi SMART dengan salah satu drive.

Saya melakukan status dan 2 partisi yang digerebek ditandai gagal:

    [root@aapsan01 ~]# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sdb1[1] sda1[0]
      104320 blocks [2/2] [UU]

md0 : active raid1 sdb3[1] sda3[2](F)
      4064320 blocks [2/1] [_U]

md3 : active raid1 sdb5[1] sda5[0]
      1928860160 blocks [2/2] [UU]

md2 : active raid1 sdb2[1] sda2[2](F)
      20482752 blocks [2/1] [_U]

Jadi, saya mengatur semua partisi sda ke "gagal," menghapus semua mirror sda dengan sukses, memasukkan drive identik 2tb yang baru ke dalam (setelah shutdown) dan boot. Sekarang, saya tidak dapat mencapai login karena pesan kesalahan terus berulang setelah md: array raid deteksi otomatis tercapai selama proses boot. Awalnya kesalahannya adalah seperti:

  DRDY err (UNC) -- exception emask media error

Sekarang saya mendapatkan kesalahan I / O. Saya mencoba dengan drive yang rusak dihapus dan kemudian dengan itu lagi. Pertunjukan yang sama. Tulisan yang saya temukan menunjukkan ini sebagai proses pemulihan yang sederhana. Apa yang menyebabkannya? Adakah yang mengalami hal serupa? Tampaknya seolah-olah proses booting masih berlanjut, meskipun butuh ribuan tahun untuk melewati setiap langkah. Adakah yang harus menunggu begitu lama untuk mencapai bisikan? Mudah-mudahan, jika saya tidak bisa mendapatkan prompt saya bisa mendapatkan suatu tempat dengan cd penyelamatan.

software-raid raid-1 centos-5

— Flotsam N. Jetsam
sumber

1

Bukankah beberapa partisi sdb yang gagal?

— Linker3000

Bagaimana Anda bisa tahu dari pesan stat? Email yang saya dapatkan dari daemon mdadm mengatakan "Itu bisa terkait dengan perangkat komponen / dev / sda3."

— Flotsam N. Jetsam

Lihatlah md2 - ia memiliki dua partisi dalam array yang tercantum dalam urutan [sdb2] [sda2] dan status pasangan terdaftar sebagai [_U], yang berarti bahwa partisi pertama ([sdb2]) telah keluar dari pemasangan. . Memiliki baca di sini: howtoforge.com/replacing_hard_disks_in_a_raid1_array

— Linker3000

1

Lihatlah md2 - ia memiliki dua partisi dalam array yang tercantum dalam urutan [sdb2] [sda2] dan status pasangan terdaftar sebagai [_U], yang berarti bahwa partisi pertama ([sdb2]) telah keluar dari pemasangan. . Baca di sini: http://www.howtoforge.com/replacing_hard_disks_in_a_raid1_array . Semoga Anda mendapatkannya diurutkan.

— Linker3000
sumber

Itu sangat membantu. Saya pernah melihat tulisan di web, tapi saya tidak ingat ada orang yang mengatakan bahwa sisi bawahnya menunjukkan sisi buruk. Mungkin harus intuitif tetapi saya kira saya sudah dalam mode panik dan tidak meresap. Terima kasih.

— Flotsam N. Jetsam

0

Saya bodoh. Saya telah salah mengidentifikasi disk yang gagal dan mencoba menggunakan yang buruk dalam upaya pemulihan saya. Bagi siapa pun yang tertarik, Anda dapat menggunakan lshal untuk mendapatkan s / n dari drive yang buruk. redirect output lshal ke file log dan kemudian cari sda sdb atau mdadm atau SMART apa pun yang diidentifikasi sebagai buruk.

— Flotsam N. Jetsam
sumber

0

Mengikuti jawaban Linker3000, isi disk yang Anda hapus dulu masih boleh ok. Hapus disk yang sekarang Anda tahu sebenarnya yang rusak dan coba mulai dengan disk yang bagus saja. Ada kemungkinan kecil bahwa md menandai disk sehat Anda sebagai di belakang ketika Anda menambahkannya kembali dengan disk yang rusak. Dalam hal ini, Anda harus mulai dari CD / USB langsung dan mengaktifkan kembali RAID Anda. Setelah sistem Anda berjalan ok, Anda dapat mulai lagi dengan langkah-langkah normal untuk menambahkan disk baru ke RAID 1s Anda.

— Joachim Wagner
sumber