Bagaimana cara memeriksa CentOS 6 Server VM Host setelah power falure?

9

Sore ini, seseorang di kantor kami memutuskan untuk mencabut steker dari server kami karena sedang menyerbu keluar. Mereka tidak mematikannya, mereka hanya mencabut stekernya saat sedang berjalan.

Server memiliki 4 drive SATA dalam konfigurasi RAID 10 perangkat lunak, dan LVM berjalan di atas RAID. Server menjalankan CentOS 6.2 Minimal dan merupakan host mesin virtual menggunakan KVM. Pada saat itu dicabut, ada banyak mesin tamu yang berjalan di komputer. Setiap tamu memiliki satu atau lebih partisi LVM yang digunakan langsung sebagai hard drive. Partisi tamu adalah EXT3, EXT4 dan NTFS. OS Host ada di partisi EXT4.

Kemudian, ketika listrik kembali, orang itu memasangnya kembali, dan mulai menyala. Karena mereka memasangnya tanpa memasang monitor terlebih dahulu, tidak ada cara untuk melihat apa yang muncul di layar. Saya mencoba memasang monitor sekarang, tetapi tidak akan berfungsi kecuali monitor terhubung saat boot. Saya telah meninggalkannya, persis seperti sekarang, sampai saya bisa mendapatkan saran karena saya tidak ingin mengacaukan apapun (lebih lanjut).

Saya bisa masuk ke host melalui SSH. Saya belum mem-boot ulang kalau-kalau ada sesuatu di log di suatu tempat yang mungkin berguna.

Yang perlu saya lakukan adalah memeriksa semua disk dan partisi untuk integritas data, jika itu mungkin. Saya pikir RAID 10 menggunakan semacam cache berbasis memori dan saya khawatir tentang drive yang tidak konsisten, atau file yang korup jika ada hal-hal dalam isyarat untuk menulis ke drive yang belum ditulis.

[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1] 
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
      102388 blocks super 1.0 [4/4] [UUUU]

md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
      1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
      bitmap: 0/15 pages [0KB], 65536KB chunk

md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
      1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]

unused devices: <none>

Itu juga mengganggu saya bahwa itu memanggil array saya, "hampir-salinan". Apakah itu normal?

Apa jenis pemeriksaan disk yang harus saya jalankan untuk memastikan semuanya OK dengan drive dan data? Apakah ada hal lain yang harus saya periksa?

MEMPERBARUI

Output dari mdadm --detail

[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
        Version : 1.1
  Creation Time : Sat Feb 25 09:26:20 2012
     Raid Level : raid10
     Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
  Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Sun Mar 11 12:59:30 2012
          State : active 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : othello.myserver.com:0  (local to host othello.myserver.com)
           UUID : 58ba40ab:12516733:e3779362:68200fdd
         Events : 2208

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3

— Nick
sumber

3

RAID baik-baik saja, semua UUUU berarti semua disk dalam array sudah habis. Aku bahkan tidak khawatir tentang itu untuk saat ini.

Adapun VM, jika Anda ingin menjalankan fscks pada mereka, hentikan VM dan jalankan

fsck.ext3 (ext4, etc) /path/to/lvm (biasanya suka / dev / vg-name / lv-name)

Jika Anda menggunakan KVM, Anda harus dapat menggunakan virshuntuk melakukan apa pun yang Anda butuhkan untuk VM. Berikut ini tautan ke halaman manual virsh http://linux.die.net/man/1/virsh

Jika Anda benar-benar ingin menjalankan pemeriksaan disk pada array raid Anda, Anda harus reboot ke mode pengguna tunggal atau boot dari live cd sehingga Anda dapat fsck perangkat individual / dev / mdX. Karena filesystem utama EXT4, saya tidak akan repot, ini jauh lebih baik daripada EXT3 dengan pemadaman listrik.

— Jemmille
sumber

+1, akan coba besok.

— Nick

1

Coba mdadm --detail / dev / md0 (sama untuk md1 dan md2).

Kemudian cobalah saran yang diberikan di sini: http://linas.org/linux/raid.html

— syair pujian
sumber

Saya sudah memposting output di mdadm --detail /dev/md0atas. Saya membaca panduan yang Anda tautkan, tetapi tidak menyebutkan sistem file EXT4, atau apa, khususnya yang dapat saya lakukan untuk memeriksa integritas?

— Nick

Jenis sistem file seharusnya tidak penting dalam hal integritas RAID. Jika Anda memiliki periode pemeliharaan, Anda dapat meng-unmount sistem file yang terkena dampaknya fsck. Jika Anda ingin memeriksa sendiri perangkat RAID, Anda dapat melakukan sesuatu seperti echo "check" > /sys/block/md0/md/sync_action. Atau gema "perbaikan" untuk itu untuk melakukan semacam perbaikan mdadm.

— cjc

Saya akan mencoba ini besok dan melaporkan kembali.

— Nick