Bagaimana saya bisa tahu jika disk gagal pada ESXi / apa artinya kesalahan ini?

Saya memiliki server yang menjalankan VMware ESXi v4.1.0 348481. Ini memiliki perangkat keras RAID10 dan drive cadangan SATA. Saya memiliki VM yang menjalankan yang memiliki boot vmdk primer pada RAID10 datastore, dan vmdk 600 GB pada datastore drive cadangan SATA. VM menjalankan linux Debian dengan kernel FreeBSD, dan menggunakan ZFS untuk drive cadangan.

EDIT: Drive tidak terhubung langsung ke VM. Ini digunakan sebagai VMware Datastore, dan VM memiliki vmdk pada datastore drive SATA. Datastore tidak penuh (hanya 65% penuh)

Saya masuk ke server menggunakan SSH dan menemukan bahwa cadangan semalam digantung, dan zfs listatau zpool listkeduanya digantung. Jadi saya membuka konsol virtual di ESXi dan sedih melihat:

Tangkapan layar ini membuat saya sedih

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

Saya mencoba untuk reboot VM dan saya menerima pesan bahwa sistem akan turun untuk reboot, dan kemudian tergantung. (^ C muncul tetapi tidak membunuh shutdown). Saya tidak bisa menyela atau kill -9yang zpool list zfs listatau rsyncproses - Tidak ada yang terjadi ketika saya mencoba.

Apakah ini menunjukkan drive SATA cadangan gagal? Atau mungkinkah ini hanya kesalahan ESXi?
Bagaimana di klien vSphere saya bisa tahu jika drive gagal? Saya tidak melihat indikasi apa pun, semua yang ada dalam Status Kesehatan Perangkat Keras terlihat bagus, dan saya tidak melihat apa pun di bawah konfigurasi Storage.
Bagaimana saya harus melanjutkan dari sini? Haruskah saya mem-boot ulang VM?

UPDATE: Saya baru saja reboot VM. Setelah kembali online, zpool cadangan online, namun:

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

Saya condong ke arah mengganti drive ...

vmware-esxi drive-failure debian

— Josh
sumber

Kesalahan itu memang menunjukkan salah satu drive SATA telah menemui cukup banyak blok buruk untuk kehabisan ruang blok-realokasi. Drive itu buruk, dan perlu diganti. Saya tidak yakin di mana di klien vSphere informasi ditampilkan, tetapi entri log cukup jelas.

Jika perangkat keras Anda memungkinkannya, hot-swap harus dilakukan. Jika tidak, Anda harus mematikan semuanya untuk melakukan penggantian. Jika VM itu tidak mati sendiri setelah 30 menit, sekarang saatnya untuk menghentikannya. Itu berisiko, tetapi jika itu benar-benar digantung tidak ada banyak untuk itu.

— sysadmin1138
sumber

Terima kasih @ sysadmin1138. Jadi, meskipun kesalahan tersebut muncul di dalam VM, itu jelas menunjukkan masalah perangkat keras yang sebenarnya? IE itu bukan hanya beberapa VMware aneh?

— Josh

@Josh Jika Anda telah mempresentasikan langsung drive SATA ke VM, maka Anda pasti akan melihatnya. Untuk penyimpanan yang didukung file, saya kurang yakin; bisa jadi datastore Anda telah kehabisan ruang.

— sysadmin1138

Saya seharusnya mengklarifikasi itu. Ini adalah penyimpanan yang didukung file. Datastore memiliki banyak ruang: ini adalah drive 1TB dan VMDK adalah 600 GB, tidak ada yang lain pada disk. Either way, itu jelas sesuatu yang salah, jadi kecuali orang lain memberi saya penjelasan yang jelas tentang apa ini bisa terjadi, saya akan mengganti drive.

— Josh