Sore ini, seseorang di kantor kami memutuskan untuk mencabut steker dari server kami karena sedang menyerbu keluar. Mereka tidak mematikannya, mereka hanya mencabut stekernya saat sedang berjalan.
Server memiliki 4 drive SATA dalam konfigurasi RAID 10 perangkat lunak, dan LVM berjalan di atas RAID. Server menjalankan CentOS 6.2 Minimal dan merupakan host mesin virtual menggunakan KVM. Pada saat itu dicabut, ada banyak mesin tamu yang berjalan di komputer. Setiap tamu memiliki satu atau lebih partisi LVM yang digunakan langsung sebagai hard drive. Partisi tamu adalah EXT3, EXT4 dan NTFS. OS Host ada di partisi EXT4.
Kemudian, ketika listrik kembali, orang itu memasangnya kembali, dan mulai menyala. Karena mereka memasangnya tanpa memasang monitor terlebih dahulu, tidak ada cara untuk melihat apa yang muncul di layar. Saya mencoba memasang monitor sekarang, tetapi tidak akan berfungsi kecuali monitor terhubung saat boot. Saya telah meninggalkannya, persis seperti sekarang, sampai saya bisa mendapatkan saran karena saya tidak ingin mengacaukan apapun (lebih lanjut).
Saya bisa masuk ke host melalui SSH. Saya belum mem-boot ulang kalau-kalau ada sesuatu di log di suatu tempat yang mungkin berguna.
Yang perlu saya lakukan adalah memeriksa semua disk dan partisi untuk integritas data, jika itu mungkin. Saya pikir RAID 10 menggunakan semacam cache berbasis memori dan saya khawatir tentang drive yang tidak konsisten, atau file yang korup jika ada hal-hal dalam isyarat untuk menulis ke drive yang belum ditulis.
[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1]
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
102388 blocks super 1.0 [4/4] [UUUU]
md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
bitmap: 0/15 pages [0KB], 65536KB chunk
md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
unused devices: <none>
Itu juga mengganggu saya bahwa itu memanggil array saya, "hampir-salinan". Apakah itu normal?
Apa jenis pemeriksaan disk yang harus saya jalankan untuk memastikan semuanya OK dengan drive dan data? Apakah ada hal lain yang harus saya periksa?
MEMPERBARUI
Output dari mdadm --detail
[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
Version : 1.1
Creation Time : Sat Feb 25 09:26:20 2012
Raid Level : raid10
Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Sun Mar 11 12:59:30 2012
State : active
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0
Layout : near=2
Chunk Size : 512K
Name : othello.myserver.com:0 (local to host othello.myserver.com)
UUID : 58ba40ab:12516733:e3779362:68200fdd
Events : 2208
Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
1 8 19 1 active sync /dev/sdb3
2 8 35 2 active sync /dev/sdc3
3 8 51 3 active sync /dev/sdd3