Kesalahan disk perangkat keras di ESX Guest, pada drive yang didukung vmfs ... bagaimana ini mungkin?

8

Bagaimana seorang tamu di dalam ESX menemukan masalah seperti ini?

[ 40.601502] end_request: critical target error, dev sdg, sector 430203456
[ 40.601563] sd 2:0:6:0: [sdg] Unhandled sense code
[ 40.601582] sd 2:0:6:0: [sdg] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
[ 40.601622] sd 2:0:6:0: [sdg] Sense Key : Hardware Error Sense Key : Hardware Error [current] [current] 
[ 40.601661] sd 2:0:6:0: [sdg] Add. Sense: Internal target failureAdd. Sense: Internal target failure
[ 40.601695] sd 2:0:6:0: [sdg] CDB: Write(10)Write(10):: 2a 2a 00 00 02 19 64 a4 05 62 c0 80 00 00 00 00 40 40 00 00

secara fisik data pada vmfs disimpan dalam array raid6 (adaptec 5805), yang tampaknya bahagia
juga host ESX tidak mencatat masalah apa pun
ukuran disk yang dilaporkan oleh tamu tampaknya sama dengan ukuran disk yang disediakan
melalui ESX tamu memiliki 9 'drive' yang sama terpasang dan hanya 2 menunjukkan masalah ini

linux vmware-esxi

— Tobi Oetiker
sumber

1

Mungkin bug di lapisan emulasi I / O? Sudahkah Anda mencoba mengubah tipe kontroler SCSI tamu untuk melihat apakah itu mengubah perilaku? Apakah mengakses sektor yang ditentukan mereproduksi kesalahan? Gunakan dd if=/dev/sdg bs=512 skip=430203455 count=1untuk membaca kembali atau hanya badblocks -w -b 512 /dev/sdg 430203457 430203455untuk melakukan siklus baca-tulis-tulis-ulang jika Anda merasa berani.

— the-wabbit

Kernel versi apa yang Anda miliki di sana? Tingkatkan kernel Anda dan lihat apakah kesalahan masih muncul.

— Sacx

1

Saya pernah mengalami hal serupa pada volume cadangan untuk MS SQL di Win 2008 guest di bawah ESX 4.0 - ini adalah volume mentah yang terpapar dari filer NetApp.

OS Guest melaporkan (dan masih melaporkan) bad sector pada volume itu.
Saya pikir ini terjadi karena terlalu banyak operasi penulisan I / O, batas waktu sementara atau kelebihan filer.
Tidak ada lagi sektor buruk yang dilaporkan. NetApp "disk scrubing" mengatakan semuanya baik-baik saja. Tidak ada kesalahan filer yang dilaporkan.

Tapi bagaimanapun juga kita akan membuat ulang volume ini dan melihat apakah ini bisa memperbaikinya.

Bagaimana dengan volume Anda yang lain di filer ini? Bisakah Anda memeriksa volume ini dengan perintah "badblocks / dev / sdg"? (hati-hati: overhead baca besar)

— TooMeeK
sumber

1

Toh itu masalah hardware / firmware. Sementara Adaptec 5805 (dengan firmware terbaru) melaporkan semua volume RAID6 dalam keadaan optimal, ia juga melaporkan satu volume berisi 'Garis-garis Gagal'. Efek dari ini tampaknya, bagian dari volume RAID6 menjadi tidak dapat dibaca (menyebabkan kesalahan yang dikutip dalam pertanyaan). ESX tampaknya tidak melihat ini secara langsung, tetapi menjalankan dd if=/dev/zero of=file-on-damaged-volumelangsung pada konsol ESXi berakhir dengan kesalahan i / o sementara masih ada banyak ruang di volume.

Tidak ada jumlah arcconf verifikasi / verifikasi_perbaikan yang berjalan pada volume dan perangkat fisik dapat mendeteksi atau memperbaiki apa pun ... Akhirnya saya memindahkan semua data dari volume dan membuat kembali pada tingkat adaptec. Sekarang semuanya baik-baik saja, tetapi kepercayaan saya pada kemampuan adaptec untuk melindungi data saya sangat rusak.

— Tobi Oetiker
sumber

1

Ini cukup koheren dengan prosedur Sun / Oracle untuk situasi seperti itu . Ada juga artikel FAQ Adaptec tentang garis-garis buruk yang memberikan beberapa informasi latar belakang tentang bagaimana garis-garis buruk terjadi dan apa yang dapat dilakukan untuk mencegahnya.

— the-wabbit

Ya, artikel Sun / Oracle membuat saya di jalur yang benar (sedih). Kami memiliki disk yang gagal dalam array ini, tetapi ia merampok6, jadi meskipun ada redundansi, bukan dari pemeriksaan media kemudian mengungkapkan kesalahan dengan disk yang tersisa ... juga kontroler adaptec memiliki BBU jadi saya tidak benar-benar melihat ada alasan untuk perilaku ini :-( Tidak pernah punya masalah dengan pengontrol pinang kami.

— Tobi Oetiker

Saya jarang menggunakan pengontrol Adaptec dan terutama mempertahankan penyimpanan LSI, tetapi ini adalah pertama kalinya saya menemukan "bad stripes" juga. Saya ingin tahu apakah ini sesuatu yang sangat spesifik untuk implementasi Adaptec.

— the-wabbit