Bagaimana menafsirkan data smartctl (smartmon) ini

20

Kami memiliki server linux yang telah banyak digunakan selama 3 tahun. Kami menjalankan sejumlah server tervirtualisasi di atasnya, beberapa di antaranya tidak berperilaku baik, dan untuk waktu yang signifikan kapasitas io server terlampaui yang mengarah ke iowait buruk. Itu punya 4 500GB Barracuda sata drive terhubung ke pengontrol serangan 3com. 1 Drive memiliki OS, dan 3 lainnya adalah setup raid-5.

Sekarang kami memiliki perdebatan mengenai kondisi drive dan apakah mereka gagal secara aktif.

Berikut adalah sebagian dari output untuk 1 dari 4 disk. Mereka semua memiliki statistik yang relatif sama:

Nomor revisi Struktur Data Atribut SMART: 10
Atribut SMART Khusus Vendor dengan Ambang:
ID # ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE TERBARU WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 118 099 006 Selalu Gagal - 169074425
  3 Spin_Up_Time 0x0003 095 092 000 Selalu gagal - 0
  4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 26
  5 Reallocated_Sector_Ct 0x0033 100 100 036 Pra-gagal Selalu - 0
  7 Seek_Error_Rate 0x000f 077 060 030 Selalu Gagal - 200009354607
  9 Power_On_Hours 0x0032 069 069 000 Old_age Selalu - 27856
 10 Spin_Retry_Count 0x0013 100 100 097 Pra-gagal Selalu - 1
 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 26
184 Unknown_Attribute 0x0032 100 100 099 Old_age Always - 0
187 Dilaporkan Tidak Benar 0x0032 100 100 000 Old_age Selalu - 0
188 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 1
189 High_Fly_Writes 0x003a 100 100 000 Old_age Selalu - 0
190 Airflow_Temperature_Cel 0x0022 071 060 045 Old_age Always - 29 (Lifetime Min / Max 26/37)
194 Temperature_Celsius 0x0022 029 040 000 Old_age Always - 29 (0 21 0 0)
195 Hardware_ECC_Recovered 0x001a 046 033 000 Old_age Always - 169074425
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Selalu - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Selalu - 0

Versi Log Kesalahan SMART: 1
Tidak Ada Kesalahan yang Dicatat

Interpretasi saya terhadap hal ini adalah bahwa kami belum memiliki sektor yang buruk atau indikasi lain bahwa ada drive yang gagal aktif.

Namun, Raw_Read_Error_Rate dan Seek_Error_Rate yang tinggi sedang ditunjukkan sebagai indikasi bahwa drive sedang sekarat.

linux smartctl

— gview
sumber

1

Ada deskripsi yang baik di sini (terlalu lama untuk mengirim ulang, silakan ikuti tautannya): lime-technology.com/wiki/Understanding_SMART_Reports Jika tautannya turun, beberapa kutipan penting: "Ini adalah indikator dari tingkat kesalahan saat ini dari operasi membaca sektor fisik tingkat rendah. Dalam operasi normal, SELALU ada sejumlah kecil kesalahan [...] tidak ada masalah dengan drive. " dan "PLEASE abaikan saja angka RAW_VALUE! Hanya Seagate yang melaporkan nilai mentah, yang ya, tampaknya merupakan jumlah kesalahan pembacaan mentah, tetapi harus diabaikan, sepenuhnya."

— Konrad Gajewski

7

Dalam pengalaman saya, Seagate memiliki angka aneh untuk dua atribut SMART tersebut. Saat mendiagnosis Seagate, saya cenderung mengabaikannya dan melihat lebih dekat bidang lain seperti Jumlah Sektor yang dialokasikan Ulang. Tentu saja, ketika ragu-ragu mengganti drive, tetapi bahkan Seagate baru akan memiliki angka tinggi untuk atribut tersebut.

— hwilbanks
sumber

58

Untuk disk Seagate (dan mungkin beberapa yang lama dari WD juga) Seek_Error_Rate dan Raw_Read_Error_Rate adalah angka 48 bit, di mana 16 bit yang paling signifikan adalah jumlah kesalahan, dan 32 bit rendah adalah sejumlah operasi.

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

Jadi disk Anda telah melakukan pencarian 2440858991, yang 46 gagal. Pengalaman saya dengan drive Seagate adalah bahwa mereka cenderung gagal ketika jumlah kesalahan melebihi 1000. YMMV.

— tsuna
sumber

7

Terima kasih untuk ini, saya berharap saya memiliki informasi itu kembali ketika saya awalnya mengajukan pertanyaan.

— gview

1

Ini sangat bermanfaat. Menyelamatkan saya dari kepanikan.

— Halsafar

Dapatkah seseorang memberikan tautan apa pun untuk mengonfirmasi bahwa nomor tersebut adalah angka 48 bit dengan pemisahan ini? Saya ingin mengkonfirmasi nomor ini

— iuridiniz

9

"Tingkat kesalahan pencarian" dan "tingkat kesalahan baca mentah" RAW_VALUES sebenarnya tidak ada artinya bagi siapa pun selain dukungan Seagate. Seperti yang ditunjukkan orang lain, nilai mentah dari parameter seperti "jumlah sektor yang dialokasikan kembali" atau entri dalam log kesalahan drive lebih cenderung menunjukkan kemungkinan kegagalan yang lebih tinggi.

Tetapi Anda dapat melihat data yang ditafsirkan dalam kolom VALUE, WORST, dan THRESH yang dimaksudkan untuk dibaca sebagai pengukur:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

Berarti tingkat kesalahan pencarian Anda saat ini dianggap "77% baik" dan dilaporkan sebagai masalah oleh SMART saat mencapai "30% baik". Sudah serendah "60% baik" sekali, tetapi secara ajaib telah pulih sejak itu. Perhatikan bahwa nilai yang diinterpretasikan dihitung oleh logika SMART drive secara internal dan perhitungan yang tepat mungkin atau mungkin tidak dipublikasikan oleh pabrikan dan biasanya tidak dapat di-tweak oleh pengguna.

Secara pribadi, saya menganggap drive yang berisi entri log kesalahan sebagai "gagal" dan mendesak untuk penggantian segera setelah mereka terjadi. Namun secara keseluruhan, data SMART ternyata menjadi indikator yang agak lemah untuk prediksi kegagalan, karena makalah penelitian yang diterbitkan oleh Google dibuka.

— the-wabbit
sumber

4

Saya menyadari diskusi ini agak lama tetapi ingin menambahkan 2 sen saya. Saya telah menemukan informasi yang cerdas menjadi indikator pra-kegagalan yang cukup baik. Ketika Anda mendapatkan ambang pintar tersandung kemudian ganti drive. Itulah gunanya ambang batas itu.

Sebagian besar waktu Anda akan mulai melihat sektor buruk. Itu adalah tanda pasti bahwa drive mulai gagal. SMART telah menyelamatkan saya berkali-kali. Saya menggunakan perangkat lunak RAID 1 dan ini sangat membantu karena Anda cukup mengganti drive yang gagal dan membangun kembali array.

Saya juga menjalankan tes diri pendek dan panjang setiap minggu.

smartctl -t short /dev/sda
smartctl -t long /dev/sda

Atau tambahkan /etc/smartd.conf dan kirimkan ke email Anda jika ada kesalahan

/dev/sda -s L/../../3/22 -I 194 -m someemail@somedomain
/dev/sdb -s L/../../7/22 -I 194 -m someemail@somedomain

Pastikan untuk menginstal logwatch dan arahkan kembali root ke alamat email dan periksa email harian dari logwatch. Bendera tersandung SMARTD akan muncul di sana tetapi tidak ada gunanya jika tidak ada yang memantau secara teratur.

— Fred Flint
sumber

1

Ya, bidang-bidang itu terlihat buruk tetapi saya tidak percaya (lagi) info yang dilaporkan oleh smart (mesin uji saya memiliki drive yang seharusnya sudah mati sejak lama jika Anda membaca data dengan smartctrl) Faktanya adalah bahwa Anda telah melaporkan iowait tinggi dan drive berusia 3 tahun. Ini sudah cukup bagi Anda untuk mengubah drive.

— migabi
sumber

1

Karena berbagai alasan, kami perlu memaksimalkan investasi dalam perangkat keras. The iowait ada hubungannya dengan beban konyol, serta beberapa kesalahan konfigurasi yang kami buat saat menyiapkan kotak.

— gview

0

Maaf untuk melakukan necromancy pada posting ini, tetapi dalam pengalaman saya, bidang "Raw Read Error Rate" dan "Hardware ECC Recovered" untuk drive Seagate akan benar-benar pergi ke mana -mana dan naik terus ke kisaran triliunan di titik mana mereka Akan berputar kembali ke nol untuk melanjutkan proses lagi. Saya sudah memiliki Seagate ST9750420AS yang telah memiliki masalah itu sejak hari pertama dan masih berfungsi dengan baik bahkan setelah beberapa tahun dan 3500+ jam penggunaan.

Saya pikir bidang tersebut dapat diabaikan dengan aman jika Anda menjalankannya dalam kasus Anda. Pastikan kedua bidang melaporkan nomor yang sama dan sinkron terus-menerus. Jika mereka tidak ... yah ... Itu sebenarnya bisa berarti masalah.

— Ryan Gandy
sumber

0

Untuk mengotomatiskan perhitungan jawaban ini , gunakan kalkulator javascript online:

https://yksi.ml/

Ini akan memberi tahu Anda:

Total jumlah operasi
Jumlah operasi yang gagal

Kalkulator ini valid untuk Seagate:

Cari Tingkat Kesalahan
Tingkat Kesalahan Baca Raw
Perangkat Keras ECC Dipulihkan

Untuk membaca lebih lanjut tentang perhitungan nilai normal (antara 0 dan 100), lihat artikel ini .

— Tom Hale
sumber