Praktik terbaik untuk pemeriksaan cadangan?


21

Ini adalah situasi yang umum, ketika administrator membuat sistem untuk pencadangan otomatis dan melupakannya. Hanya setelah sebuah sistem gagal pemberitahuan administrator, bahwa sistem cadangan telah rusak sebelum atau cadangan tidak dapat diperbaiki karena beberapa kesalahan dan dia tidak memiliki cadangan saat ini untuk memulihkan dari ... Jadi apa praktik terbaik untuk menghindari situasi seperti itu ??


Kami memiliki pemantauan cadangan dalam skrip ... skrip ini dikonsolidasikan dengan pemantauan lain dan dikirim ke admin setiap hari. Jika cadangan penuh dilewati (atau hanya sebagian saja), email akan menunjukkan ini.
Bip bip

Jawaban:


27

Jalankan latihan api ... setiap beberapa bulan adalah ide yang baik untuk mengatakan sistem XYZ sedang down ... kemudian benar-benar melalui gerakan untuk membawanya kembali online ke VM baru dll. Itu menjaga hal-hal yang jujur ​​dan membantu Anda menangkap kesalahan.


Kami melakukan ini di tempat kerja untuk menguji apakah cadangan sumber visual kami berfungsi dengan baik, untungnya mereka.
Jared

10

mode kotak sabun: AKTIF

Saya akan mengatakan bahwa sesederhana itu cadangan yang tidak diuji secara teratur tidak ada gunanya.

Pekerjaan saya sebelumnya, kami memiliki kebijakan bahwa setiap sistem (produksi, pengujian, pemantauan pengembangan, dll.) Harus diuji kembali setiap 6 bulan.

Ini juga merupakan pekerjaan admin paling junior sehingga dokumentasi selalu terbarui. Junior ditentukan oleh berapa banyak pekerjaan yang dia lakukan pada sistem tertentu, kadang-kadang (cukup sering sebenarnya) adalah "manajer grup" yang melakukannya

Kami memiliki perangkat keras khusus yang didedikasikan untuk ini (satu Intel dan satu kotak IBM / AIX) yang spec rendah untuk semuanya kecuali ruang disk, karena kami tidak perlu menjalankan apa pun yang nyata pada host yang dipulihkan.

Cukup banyak pekerjaan dalam beberapa putaran pertama tetapi itu membuat kami merampingkan proses pemulihan yang merupakan bagian penting dari cadangan.


7

Karena Anda tampaknya merujuk pada fakta bahwa administrator tidak melihat bahwa pekerjaan cadangan "rusak", dan tidak terlalu banyak sehingga cadangan yang berfungsi tidak berfungsi dengan baik, saya sarankan untuk membuat semacam skrip pemantauan di sekitar cadangan.

Saat membangun solusi cadangan buatan sendiri, saya akan melakukan sesuatu seperti ini:

  • Buat skrip untuk mencadangkan data Anda.
  • Lakukan pemulihan tes untuk memastikan skrip bekerja dengan benar.
  • Dalam skrip, atau melalui cara lain, terapkan cara untuk melacak status cadangan (berhasil, gagal, berlari, tidak berjalan).
  • Memonitor status pelacakan itu (email, basis data, sesuatu)

Setelah semua itu selesai, Anda harus baik-baik saja. Satu hal tambahan yang harus dilakukan adalah melakukan pemulihan tes secara teratur. Jika Anda memiliki perangkat keras tambahan untuk disumbangkan ke penyebabnya.

Di tempat saya bekerja, kami memiliki situs yang hangat, sebulan sekali kami secara acak memilih sistem atau basis data dan pergi ke situs kami yang hangat dan melakukan latihan pemulihan uji coba dengan bare-metal untuk memastikan kemampuan memulihkan data kami.

Sejujurnya, jika data Anda sangat penting bagi Anda, sebaiknya Anda berinvestasi dalam beberapa perangkat lunak untuk mengelola cadangan Anda. Ada ratusan produk di luar sana untuk ini, dari yang murah dan sederhana, hingga kelas perusahaan.

Jika Anda mengandalkan serangkaian skrip tulisan tangan yang berjalan di crontab untuk cadangan perusahaan Anda, cepat atau lambat Anda kemungkinan besar akan terbakar.


4

Kami memiliki versi 60% -ukuran 'Referensi' dari sistem 'Produksi' kami, kami menggunakannya untuk pengujian akhir perubahan, kami mengembalikan cadangan 'Produksi' ke sistem ini - ini menguji cadangan plus memastikan kedua lingkungan berada dalam satu sama lain .


1

Salah satu pendekatan adalah skrip pekerjaan "pemulihan" untuk dijalankan secara berkala, misalnya yang mengambil file teks tertentu dari cadangan terbaru dan mengirimkan email kepada Anda isinya. Jika memungkinkan, ini harus - setidaknya kadang-kadang - dilakukan dengan menggunakan kotak yang berbeda dari yang membuat atau membuat cadangan data, hanya untuk memastikan itu akan berfungsi jika Anda harus melakukannya. Keuntungannya adalah Anda dapat memastikan mekanisme enkripsi / dekripsi, kompresi, dan penyimpanan semuanya berfungsi dengan baik.

Ini sedikit lebih terlibat untuk backup khusus seperti email dan server database, meskipun melakukan semacam pemulihan skala kecil dari DB kecil atau cadangan kotak surat tingkat bata dan memverifikasi isinya tentu saja mungkin, hanya sedikit lebih terlibat.

Pendekatan ini juga tidak boleh menggantikan pemulihan penuh berkala untuk memastikan Anda dapat memulihkan data jika terjadi keadaan darurat - ini hanya memungkinkan Anda untuk sedikit lebih percaya diri tentang integritas pekerjaan cadangan Anda sehari-hari.


1

Saat melakukan tes pemulihan, saya tidak merasa nyaman pada titik "ini terlihat bagus, file dipulihkan, sepertinya tidak ada file yang hilang, bahkan ukurannya cocok", atau pada titik "ini terlihat bagus, saya memulai aplikasi saya. .. tidak crash, menampilkan beberapa data yang layak ".

Saya ingin mengembalikan server / cluster dari awal, dan kemudian benar-benar menggunakannya untuk produksi . Tidak sebentar, tidak selama satu jam, tetapi secara permanen . Jika Anda mengklaim bahwa pengembalian Anda berhasil, maka sama sekali tidak ada alasan untuk tidak memulai produksi. Ini bukan sistem "kotor", yang harus dilupakan. Ini adalah sistem yang akan Anda hadapi setelah bencana nyata. Jadi, jika melewati tahap "terlihat bagus", hiduplah dengan itu. Cadangkan malam berikutnya. Lupakan yang asli. Anda mungkin akan menemukan beberapa gangguan menggunakan pendekatan ini, dan Anda akan dipaksa untuk memperbaiki semuanya . Pemulihan berikutnya dari sistem yang sama memiliki peluang yang layak untuk menjadi 100% berhasil.

Ini termasuk perangkat lunak cadangan dan server Anda. Ya, Anda harus mengembalikan ini juga.


Tidak punya anggaran untuk membeli perangkat keras khusus untuk pemulihan?

  • Pastikan Anda benar-benar membutuhkan anggaran. Pada setiap kesempatan ingatkan para pembuat keputusan bahwa tes yang valid, sepanjang pemulihan belum terjadi. (Dan ya, kumpulkan bukti untuk menutupi pantatmu. Dunia yang sulit.)
  • Dalam sebagian besar organisasi kadang-kadang ada kebutuhan bisnis untuk memigrasikan beberapa sistem ke perangkat keras lain, jadi gunakan kesempatan itu. Selalu pilih metode "kembalikan dari cadangan" untuk migrasi, berpura-pura bahwa Anda baru saja kehilangan perangkat keras asli. Ya, itu berarti lebih banyak downtime, maaf soal itu. Setidaknya Anda akan memiliki keyakinan bahwa cadangan Anda bermanfaat.
  • Tidak ada migrasi? Mungkin Anda dapat meminjam beberapa perangkat keras selama dua minggu dan melakukan dua tes pemulihan (mengembalikan ke perangkat keras yang dipinjam, menunggu lebih dari seminggu, mengembalikan dari yang dipinjam ke yang asli, tinggal bersamanya). Biasanya, jika ada perangkat keras baru dibeli untuk beberapa sistem baru dan Anda mengatur semuanya dengan benar, Anda dapat dengan mudah meminjamnya - dengan menawarkan untuk mengujinya secara mendalam selama dua minggu. Jika perangkat keras baru tidak 100% identik dengan yang lama, itu akan membuat pengujian Anda lebih baik. Bagaimana Anda tahu jika Anda mendapatkan perangkat keras yang identik jika terjadi bencana nyata?
  • Adakah sistem baru yang sedang Anda implementasikan saat ini? Bisakah Anda menguji pemulihan sekarang? Jangan gunakan perangkat keras tambahan, cukup timpa sistem baru karena Anda memiliki pengetahuan baru cara mengimplementasikannya kembali dengan cepat. Ini berfungsi jika belum memiliki data yang signifikan. Sekali lagi, buka produksi pada versi yang dipulihkan, bukan pada versi yang baru diinstal ulang.

1
  1. Latihan api.
  2. Kebijakan pengujian semua cadangan setiap 6 bulan adalah ide yang sangat bagus
  3. Ketika datang ke pengujian, Anda perlu melihat setiap aplikasi atau sistem cadangan Anda. Idealnya, apa yang merupakan cadangan "berhasil" atau "dapat dipulihkan" harus dicantumkan dalam Uraian Layanan atau SOP (dokumentasi operasional) untuk cadangan Anda, bersama dengan perincian lain seperti waktu penyimpanan, bladibla.

Anda mungkin akan menemukan bahwa beberapa tipe cadangan dapat dengan mudah dikembalikan-diuji oleh skrip (seperti basis data) sementara yang lain memerlukan beberapa input manual (pemulihan Direktori Aktif). Otomatiskan sebanyak mungkin dari ini, pastikan ada semacam pelaporan, dan pastikan "seseorang" melakukan tes manual secara berkala juga. Lingkungan yang terisolasi (salinan downscaled of prod) akan membuatnya lebih mudah untuk melakukan pengujian pemulihan.


1
Maafkan pertanyaannya, tetapi apakah jawaban ini menambahkan sesuatu yang belum dikatakan?
MadHatter mendukung Monica

Setiap 6 bulan? Saya melakukan yang berskala kecil setiap beberapa minggu.
tombull89

0

Meskipun kami tidak menguji cadangan, kami memiliki komponen pemeriksaan dan pelaporan cadangan terpusat dalam sistem yang kami kembangkan BackupRadar.com. Jangan ragu untuk memeriksanya untuk melihat apakah itu membantu dengan komponen itu. Itu melampirkan salinan email keberhasilan / kegagalan ke kebijakan cadangan dan juga akan melampirkan tangkapan layar jika perangkat lunak cadangan Anda mampu mengirimnya juga.

Terima kasih, Patrick


-1

Pastikan aktivitas cadangan dicatat, kemudian tuliskan sesuatu (tentu saja) yang mem-parsing log-log tersebut untuk mencari kegagalan, saring, dan kirimkan sebagai email harian.


2
Ini tidak berurusan dengan situasi di mana stratigy cadangan itu sendiri salah.
Jared
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.