Areca 1280ml set volume RAID6 gagal

Hari ini kami mencapai beberapa skenario terburuk dan terbuka untuk segala jenis ide bagus.

Inilah masalah kita:

Kami menggunakan beberapa server penyimpanan khusus untuk meng-host mesin virtual kami. Sebelum saya melanjutkan, berikut spesifikasinya:

Mesin Server Khusus
Areca 1280ml pengontrol RAID, Firmware 1.49
12x Samsung 1TB HDD

Kami mengonfigurasi satu RAID6-set dengan 10 disk yang berisi satu volume logis. Kami memiliki dua suku cadang panas di sistem.

Hari ini satu HDD gagal. Ini terjadi dari waktu ke waktu, jadi kami menggantinya. Setelah membangun kembali disk kedua gagal. Biasanya ini tidak menyenangkan. Kami menghentikan operasi IO yang berat untuk memastikan pembangunan kembali RAID yang stabil.

Sayangnya disk cadangan gagal ketika membangun kembali dan semuanya berhenti.

Sekarang kami memiliki situasi berikut:

Pengendali mengatakan bahwa set serangan sedang dibangun kembali
Pengontrol mengatakan bahwa volume gagal

Ini adalah sistem RAID 6 dan dua disk gagal, sehingga data harus utuh, tetapi kami tidak dapat membawa volume online lagi untuk mengakses data.

Saat mencari, kami menemukan petunjuk berikut. Saya tidak tahu apakah itu baik atau buruk:

Mencerminkan semua disk ke set drive kedua. Jadi kita akan memiliki kemungkinan untuk mencoba berbagai hal tanpa kehilangan lebih dari yang sudah kita miliki.
Mencoba membangun kembali array di R-Studio. Tetapi kami tidak memiliki pengalaman nyata dengan perangkat lunak.
Tarik semua drive, reboot sistem, ubah ke BIOS kontroler pin, masukkan kembali HDD satu-per-satu. Beberapa orang mengatakan bahwa sistem ini dibawa online. Beberapa mengatakan bahwa efeknya nol. Ada yang mengatakan, bahwa mereka menghancurkan semuanya.
Menggunakan perintah pin yang tidak berdokumen seperti "rescue" atau "LeVel2ReScUe".
Menghubungi layanan forensik komputer. Tapi tunggu ... perkiraan utama melalui telepon melebihi € 20.000. Karena itu kami mohon bantuan. Mungkin kita kehilangan yang jelas?

Dan ya tentu saja, kami memiliki cadangan. Tetapi beberapa sistem kehilangan satu minggu data, itu sebabnya kami ingin menjalankan dan menjalankan sistem lagi.

Setiap bantuan, saran, dan pertanyaan lebih dari diterima.

— Richard
sumber

Saya berpendapat bahwa apa pun yang Anda lakukan, langkah pertama Anda harus menjadi ddcermin dari semua disk, hanya untuk mencegah lebih banyak kerusakan dan memiliki rencana mundur ketika bekerja pada solusi nyata.

— Sven

Kami akan melakukan ini ...

— Richard

Bagaimana dengan hotspot?

— Cawflands

Bisakah Anda menghubungi vendor untuk mendapatkan dukungan? Dengan asumsi Anda tidak dapat (dan Anda telah menggunakan dd untuk mencerminkan segalanya, sesuai saran bagus dari @ SvenW), mengapa tidak mengganti drive yang gagal, reboot, dan lihat apa yang terjadi? Saya tidak perlu menarik semua drive, hanya yang gagal. Tapi sungguh, taruhan pertama Anda adalah vendor, mereka mengerti perangkat lunak mereka.

— Jeremy

Apakah Anda menemukan solusi? Jika demikian, beri tahu kami apa itu untuk referensi di masa mendatang!

— Berikan

Jawaban:

Saya pikir Opsi 1. adalah yang terbaik.

Ambil 12x HDD baru, 1x pengontrol RAID baru Coba mirror (dd if = of =) disk lama ke yang baru 1: 1 menggunakan kotak linux apa pun. Bangun server baru menggunakan pengontrol RAID 1x baru plus 12x HDD baru

Cobalah untuk membangun kembali array di server baru. Keberhasilan? Bagus. Berhenti.
Pembangunan kembali gagal? Cerminkan disk lama ke yang baru lagi, coba Opsi i +1

— cipy
sumber

Sayangnya ini adalah skenario yang sangat umum. Ada penelitian Google yang baik pada tahun yang lalu, dan ternyata kehilangan data dengan RAID dapat terjadi selama membangun kembali array. Ini dapat memengaruhi berbagai sistem RAID dengan tingkat keparahan yang berbeda. Berikut adalah skenario RAID6:

array Anda memiliki 3 data dan 2 disk paritas.
jika Anda kehilangan satu disk, yakin bahwa semua data dapat dipulihkan.
jika Anda kehilangan 2 disk Anda kehilangan data

Mengapa demikian?

Pikirkan hal-hal berikut: mari kita memiliki beberapa data, asumsikan 3 blok pertama dari file Anda memiliki blok data berikut: A1 + A2 + A3 dan paritas berikut: Ap + Ap duduk di hdd1 ... hdd5

Jika Anda kehilangan dua disk antara 1 dan 3 Anda kehilangan data karena data tidak dapat dipulihkan, Anda memiliki 2 paritas dan 1 blok data.

Sekarang skenario yang sama dengan 10 disk mungkin berbeda, tetapi saya kira itu ditangani dengan cara yang sama bahwa Anda membagi data menjadi 8 blok dan menyimpan paritas ke 2 drive lain dan memiliki 2 hot-spares. Apakah Anda tahu detail konfigurasi pengontrol RAID Anda?

Saya akan mulai memulihkan dari cadangan luar kantor (saya kira Anda memiliki beberapa), dan layanan kembali mencoba untuk memulihkan data sebanyak mungkin, menggunakan Unix dan dd drive ke gambar dan menggunakannya sebagai perangkat loop misalnya.

http://wiki.edseek.com/guide:mount_loopback

Anda perlu tahu jenis metadata apa yang digunakan pengendali RAID dan jika Anda beruntung didukung di beberapa alat seperti dmraid.

Tetapi ini tidak berarti Anda dapat memulihkan data sama sekali, karena file-file tersebut didistribusikan di antara banyak-banyak blok biasanya, pemulihan kemungkinan akan gagal mengembalikan data Anda.

Lebih lanjut tentang RAID:

https://raid.wiki.kernel.org/index.php/RAID_setup

— Istvan
sumber