Saya memiliki server yang menjalankan VMware ESXi v4.1.0 348481. Ini memiliki perangkat keras RAID10 dan drive cadangan SATA. Saya memiliki VM yang menjalankan yang memiliki boot vmdk primer pada RAID10 datastore, dan vmdk 600 GB pada datastore drive cadangan SATA. VM menjalankan linux Debian dengan kernel FreeBSD, dan menggunakan ZFS untuk drive cadangan.
EDIT: Drive tidak terhubung langsung ke VM. Ini digunakan sebagai VMware Datastore, dan VM memiliki vmdk pada datastore drive SATA. Datastore tidak penuh (hanya 65% penuh)
Saya masuk ke server menggunakan SSH dan menemukan bahwa cadangan semalam digantung, dan zfs list
atau zpool list
keduanya digantung. Jadi saya membuka konsol virtual di ESXi dan sedih melihat:
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
Saya mencoba untuk reboot VM dan saya menerima pesan bahwa sistem akan turun untuk reboot, dan kemudian tergantung. (^ C muncul tetapi tidak membunuh shutdown
). Saya tidak bisa menyela atau kill -9
yang zpool list
zfs list
atau rsync
proses - Tidak ada yang terjadi ketika saya mencoba.
- Apakah ini menunjukkan drive SATA cadangan gagal? Atau mungkinkah ini hanya kesalahan ESXi?
- Bagaimana di klien vSphere saya bisa tahu jika drive gagal? Saya tidak melihat indikasi apa pun, semua yang ada dalam Status Kesehatan Perangkat Keras terlihat bagus, dan saya tidak melihat apa pun di bawah konfigurasi Storage.
- Bagaimana saya harus melanjutkan dari sini? Haruskah saya mem-boot ulang VM?
UPDATE: Saya baru saja reboot VM. Setelah kembali online, zpool cadangan online, namun:
root@timestandstill:/home/jnet# zpool status -v
pool: backup
state: ONLINE
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: http://www.sun.com/msg/ZFS-8000-8A
scrub: none requested
config:
NAME STATE READ WRITE CKSUM
backup ONLINE 0 0 0
da1 ONLINE 0 0 0
errors: Permanent errors have been detected in the following files:
/backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics
Saya condong ke arah mengganti drive ...