Saya memiliki server Ubuntu kecil yang berjalan di rumah, dengan 2 hard drive. Ada dua serangan perangkat lunak (raid1) pada disk, yang dikelola oleh mdadm, yang saya percaya tidak relevan, tetapi tetap menyebutkannya.
Kedua hard drive tersebut adalah Western Digital, dan telah digunakan selama sekitar 2 tahun, ketika salah satu dari mereka mulai mengeluarkan bunyi klik, dan mati. Saya pikir mungkin itu alami setelah 2 tahun, jadi saya membeli yang baru, dan menyinkronkan ulang susunan serangan. Setelah sekitar satu bulan, drive lain juga mati.
Saya tidak curiga, karena kedua drive telah dibeli pada saat yang sama, tidak mengherankan melihat keduanya berdekatan, jadi saya membeli yang lain.
Sejauh ini, 2 drive lama gagal, dan 2 baru dalam sistem. Setelah satu bulan, salah satu drive baru mati. Saat itulah mulai mencurigakan. Karena PC disatukan dari beberapa bagian yang benar-benar tua (pikirkan AthlonXP), saya pikir mungkin pengontrol SATA motherboard adalah penyebabnya. Tentu saja Anda tidak dapat mengganti bagian dengan mudah di PC lama seperti ini, jadi saya membeli seluruh sistem, MB baru, CPU baru, RAM baru. Mengambil kembali drive yang baru saja gagal, karena masih dalam garansi, dan mendapatkannya diganti.
Jadi terserah 2 drive gagal dari yang lama, dan 1 gagal drive dari yang baru. Tidak masalah, selama 1 bulan. Setelah itu kesalahan muncul lagi di / var / log / messages, dan mdadm melaporkan kegagalan raid array. Saya mulai mencabut rambut saya. Semuanya baru dalam sistem, terserah hard drive baru ketiga, tidak mungkin semua drive baru yang saya beli salah.
Mari kita lihat apa yang masih umum ... kabelnya. Oke, lama sekali, mari kita ganti kabel SATA. Ambil hard drive kembali, tersenyum kepada pria di konter dan berkata bahwa saya benar-benar sial. Ia mengganti hard drive. Saya pulang, satu bulan berlalu dan satu hard drive gagal, lagi. Saya tidak bercanda.
Dua hard drive baru telah gagal. Mungkin itu bug di OS. Mari kita lihat apa kata alat pengujian pabrikan. Unduh alat pengujian, bakar ke CD, reboot, biarkan pengujian hard drive semalaman. Tes mengatakan bahwa drive itu rusak, dan saya harus mencadangkan semuanya, jika saya masih bisa. Saya tidak tahu apa yang terjadi, tetapi itu tidak terlihat seperti masalah perangkat lunak, sesuatu pasti menghancurkan hard drive.
Saya harus menyebutkan sekarang, bahwa seluruh sistem berada dalam kotak sepatu. Karena ada banyak barang "buat kasingmu sendiri", kupikir seharusnya tidak ada masalah melempar barang itu ke dalam kotak, dan menyimpannya di suatu tempat. Kotak berventilasi baik, tapi saya pikir mungkin saja drive terlalu panas. Tidak ada jawaban lain yang mungkin untuk ini. Jadi saya mengambil hard drive kembali, dan menggantikannya (untuk yang ke-3), dan membeli pendingin hard drive.
Dan sekarang, saya telah mendengar suara ajal. klik klik whizzzzzzzzz . SSH ke dalam kotak:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
output dmesg:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
Rekap:
- Tidak ada kemungkinan overheating
- 6 drive gagal, 4 drive baru. Saya tidak yakin sekarang bahwa dua yang asli telah rusak, atau menderita hal yang sama dengan yang baru.
- Tidak ada yang umum dalam sistem, selain dari OS yang sekarang Ubuntu Karmic (dimulai dengan lela). MB baru, CPU baru, RAM baru, kabel SATA baru.
- Tidak, lubang kecil pada hard drive tidak tertutup
Saya menangis. Sangat. Saya tidak punya wajah untuk kembali ke toko sekarang, tidak mungkin untuk 4 drive gagal di bawah 4 bulan.
Beberapa ide yang saya pikirkan: Apakah mungkin saya mengacaukan sesuatu ketika saya mempartisi dan menyinkronkan ulang drive? Bisakah itu begitu buruk sehingga secara fisik merusak drive? (karena alat yang disediakan vendor mengatakan bahwa drive rusak) Saya melakukan partisi dengan fdisk, dan menggunakan ukuran blok yang sama untuk partisi raid1 (saya memeriksa ukuran blok yang tepat dengan fdisk -lu)
Apakah mungkin kernel Linux atau mdadm, atau sesuatu yang tidak kompatibel dengan hard drive merek yang tepat ini, dan meremukkannya?
Apakah mungkin itu kotak sepatu? Coba letakkan di tempat lain? Sekarang ada di bawah rak, jadi kelembaban juga tidak masalah. Mungkinkah case PC normal akan menyelesaikan masalah saya (saya akan menembak sendiri kalau begitu)? Saya akan mendapatkan gambar besok.
Apakah saya hanya dikutuk?
Setiap bantuan atau spekulasi sangat dihargai.
Sunting : Strip daya dilindungi terhadap tegangan lebih.
Sunting2 : Saya telah pindah di antara 4 bulan ini, jadi kemungkinan penyebabnya menjadi "kotor" listrik di kedua tempat, sangat rendah.
Sunting3 : Saya telah memeriksa tegangan pada BIOS (tidak dapat meminjam multimeter), dan semuanya tampak benar, perbedaan terbesar ada pada 12V, karena memasok 11.3. Haruskah saya khawatir tentang itu?
Sunting4 : Saya meletakkan PSU PC desktop saya ke server. BIOS melaporkan pembacaan tegangan yang jauh lebih akurat, dan juga telah berhasil membangun kembali array raid1, yang memakan waktu 3-4 jam, jadi saya merasa sedikit positif sekarang. Akan mendapatkan PSU baru besok untuk mengujinya. Juga, lampirkan gambar tentang kotak: (abaikan drive ke-3)