Kami memiliki server Debian dengan 3Ware 9650SE 8-drive RAID controller, dengan 5 disk RAID6 array, bertindak sebagai host mesin virtual, semua Linux. Masalah terus terjadi dan saya menduga disk rusak tidak terdeteksi.
Kami telah mengalami beberapa gangguan sekarang, di mana tuan rumah dan semua tamu mengatakan bahwa sistem IO diblokir selama 120 detik atau lebih. Kami menduga pengontrol RAID yang salah, tetapi kami menggantinya dengan yang identik dengan firmware yang sama, yang tidak memperbaikinya. Saya tidak berpikir itu akan, karena array RAID1 kedua terus berfungsi dengan baik.
Hampir seminggu yang lalu (Minggu), ketika ini bertingkah, verifikasi otomatis berada di 66%. Tadi malam (Jumat pagi) 67%. Baik sebelum dan sesudah booting, dan keduanya saat mengalami masalah. Ketika saya mematikan verifikasi dengan tw_cli /c0/u0 stop verify
, hal-hal menjadi responsif lagi.
Saya menduga itu macet pada kesalahan disk sekitar 66%. Verifikasi otomatis dimulai pada hari Sabtu:
# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM
dan biasanya akan lama dilakukan pada hari Jumat. Melihat bagaimana hari Minggu adalah 66% dan hari Jumat adalah 67%, itu tidak mungkin kebetulan.
'smartctl -a -d 3ware, 0 / dev / twa0' dan 'smartctl -t long' (tes diri SMART yang panjang) pada semua drive tidak menemukan kesalahan. Tidak juga tw_cli /c0 show alarms
.
Saya menduga disk rusak dengan cara yang sulit dideteksi, tetapi saya mengambil setiap drive keluar dari array satu per satu, menciptakan array 'tunggal' dari itu dan menemukan nol. Tidak ada disk yang menunjukkan kesalahan.
Atau saran lain?
Edit:
ini tata letaknya:
# tw_cli /c0 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-6 OK - - 256K 5587.9 RiW OFF
u1 SPARE OK - - - 1863.01 - OFF
u2 RAID-1 OK - - - 1862.63 RiW ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 1.82 TB SATA 0 - ST32000542AS
p1 OK u0 1.82 TB SATA 1 - ST32000542AS
p2 OK u0 1.82 TB SATA 2 - ST32000542AS
p3 OK u0 1.82 TB SATA 3 - ST32000542AS
p4 OK u0 1.82 TB SATA 4 - ST32000542AS
p5 OK u1 1.82 TB SATA 5 - WDC WD2002FYPS-02W3
p6 OK u2 1.82 TB SATA 6 - WDC WD2002FYPS-02W3
p7 OK u2 1.82 TB SATA 7 - WDC WD2002FYPS-02W3
Name OnlineState BBUReady Status Volt Temp Hours LastCapTest
---------------------------------------------------------------------------
bbu On Yes OK OK OK 0 xx-xxx-xxxx
Unit yang dimaksud adalah u0.
edit2:
tw_cli / c0 show diag menunjukkan sesuatu yang menarik (edit3: ini tidak berbahaya, saya tahu itu disebabkan oleh pemanggilan di smartctl -a -d 3ware,X /dev/twa0
mana X adalah port yang tidak valid):
QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF
Legacy opcode=0xB1 error=0x10E
E=010E T=14:15:51 : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)
Saya mendapatkan banyak ini. Saya tidak tahu apa artinya itu. Saya bahkan tidak bisa melihat unit atau port mana itu. (edit3: Saya tahu sekarang, tidak berbahaya).
Diberikan edit3 saya, saya kembali ke titik awal. Tidak ada yang menunjukkan disk rusak, kecuali bahwa verifikasi hang pada 66% dan menyebabkan array hang, yang juga kadang-kadang terjadi secara acak. Saya berharap verifikasi akan menemukan kesalahan ...