Bisakah NetApp Snapshots digunakan sebagai Cadangan?


11

Toko kami sangat bergantung pada Snapshot Volume NetApp untuk cadangan. Kami menggunakan backup tape berbasis agen tradisional untuk beberapa data kami, tetapi pada umumnya kami mengandalkan Snapshots untuk sebagian besar sistem kami. Selain itu kami tidak memiliki kebijakan perubahan kontrol yang ketat atau manajemen konfigurasi terpusat sehingga semuaserver kami, terlepas dari apakah data yang disediakan layanan mereka didukung, perlu dibangun kembali dari bare-metal (dan tanpa dokumentasi nyata). Tentu saja, ini membuat snapshot proposisi yang sangat menarik untuk manajemen karena kami hanya dapat memulihkan seluruh server, data pengguna, dan konfigurasi yang disertakan. Kami menggunakan NetApp's Virtual Storage Console untuk membuat snapshot dari data VMware berbasis NFS kami dan SnapDrive NetApp untuk LUN mentah yang dipetakan pada perangkat (fisik) yang dipresentasikan langsung ke tamu. Kami SnapMirror snapshot penting di luar lokasi ke Filer lain. Secara alami kami secara teratur menguji proses pemulihan kami.

Saya merasa tidak nyaman dengan ketergantungan kami pada snapshot pada backup. Bagi saya, agar suatu teknologi dianggap memadai sebagai strategi cadangan, ia harus memenuhi kriteria berikut:

  • Cadangan harus berupa atom. Dengan kata lain, cadangan tidak dapat mengandalkan hal lain untuk pemulihannya.
  • Cadangan perlu dipisahkan dari sistem itu adalah cadangan (keluar dari band).
  • Cadangan perlu disalin atau diangkut ke situs jarak jauh (di luar situs)


Snapshot NetApp

Ini adalah pemahaman saya bahwa NetApp Snapshots bekerja di bawah metodologi Redirect-On-Write (RoW). The WAFL file layout menggunakan satu set pointer (metadata?) Yang benar-benar referensi setiap blok penyimpanan di mana pun mungkin. Untuk membuat snapshot, sistem hanya mengambil salinan metadata volume dan menyimpannya di ruang yang disediakan volume itu. Tulisan apa pun (kreasi / perubahan / penghapusan) diarahkan ke blok baru. Ini seharusnya menjadi saus khusus yang membuat WAFL NetApp begitu hebat karena Anda tidak perlu membaca dan kemudian menulis data lama ke ruang yang disediakan dan kemudian menulis data baru Anda di atas yang lama seperti snapshot Copy-On-Write.


Saya sepenuhnya mengakui bahwa saya mungkin tidak mengerti persis bagaimana Snapshots Volume NetApp bekerja tetapi jika pemahaman saya kurang lebih benar Snapshot NetApp gagal memenuhi kriteria saya untuk backup.

  • Mereka bukan atom. "Cuplikan" sebenarnya hanyalah seperangkat petunjuk ke data asli. Jika data asli sudah tidak ada lagi, metadata tidak berguna.
  • Cuplikan tidak dipisahkan dari sistem. Jika seseorang menghapus volume yang salah, saya kehilangan snapshot. Jika NetApp Filer meledak menjadi anak kucing kecil saya kehilangan cadangannya. Saya dapat menggunakan SnapMirror untuk memindahkan foto saya ke Filer lain tapi sekali lagi, itu hanya memindahkan metadata bukan blok yang sebenarnya. Jika saya kehilangan volume aslinya, saya tidak dapat melihat bagaimana snapshot yang disalin ke Filer lain akan membantu.



Dapatkah seseorang menjelaskan bagaimana NetApp Snapshots dapat dianggap sebagai cadangan? Saya mencari jawaban Subyektif yang Baik jadi tolong dukung posisi Anda dengan fakta, referensi, dan pengalaman. Jika pemahaman saya tentang teknologi yang mendasari tidak benar, tolong jelaskan di mana dan mengapa itu mengubah kesimpulan saya. Jika toko Anda mengandalkan NetApp Snapshots sebagai cadangan, harap sertakan informasi kontekstual yang cukup sehingga orang dapat memahami kebijakan pemulihan seperti apa yang harus Anda penuhi.


Anda mungkin juga mendapatkan wawasan yang bermanfaat / praktik terbaik dari milis admin toaster di teaparty.net/mailman/listinfo/toasters . (Penafian: Saya menjalankan daftar.)
MadHatter

4
Saya sangat percaya bahwa cadangan harus di luar situs dan offline. Penyerang jahat tidak dapat meluncurkan serangan elektronik yang menghapus rekaman di kotak kunci. Anda membuat penyerang memanggil sarana kinetik setelah Anda mengambil cadangan offline.
Evan Anderson

Seperti yang Anda nyatakan dalam pertanyaan itu sendiri, Anda sudah menyadari bahwa snapshot bukan salinan data. Karena itulah SnapMirror diperlukan. Jadi mengapa Anda bertanya tentang snapshot daripada snapshot + SnapMirror adalah mekanisme cadangan yang valid?
200_sukses

Anda sering mengambil cadangan dari hal-hal yang tidak dicerminkan. Lingkungan nonprod, misalnya. Mereka membutuhkan waktu lama untuk membangun kembali, tetapi tidak akan meruntuhkan bisnis jika Anda kehilangan mereka.
Basil

Jawaban:


15

Cadangan melayani dua fungsi.

  • Pertama dan terutama, mereka ada di sana untuk memungkinkan Anda memulihkan data Anda jika itu tidak tersedia. Dalam hal ini, snapshot bukan cadangan. Jika Anda kehilangan data pada filer (penghapusan volume, kerusakan penyimpanan, kesalahan firmware, dll.), Semua snapshot untuk data itu hilang juga.
  • Kedua, dan jauh lebih umum, cadangan digunakan untuk memperbaiki hal-hal rutin seperti penghapusan tidak disengaja. Dalam hal penggunaan ini, snapshot adalah cadangan. Mereka bisa dibilang salah satu cara terbaik untuk menyediakan pemulihan semacam ini, karena mereka membuat versi sebelumnya dari data tersedia secara langsung kepada pengguna atau OS mereka sebagai direktori tersembunyi .snapshot dimana mereka dapat langsung membaca file mereka.

Tidak ada kebijakan penyimpanan

Yang mengatakan, sementara kami memiliki snapshot dan menggunakannya secara luas, kami masih melakukan penambahan malam di Netbackup ke tape atau domain data. Alasannya adalah bahwa snapshot tidak dapat secara andal menegakkan kebijakan retensi. Jika Anda memberi tahu pengguna bahwa mereka akan dapat mencadangkan dari granularity harian selama seminggu kemudian granularity mingguan selama sebulan, Anda tidak dapat memenuhi janji itu dengan snapshot.

Pada volume Netapp dengan snapshot, data yang dihapus yang terkandung dalam snapshot menempati ruang "cadangan snap". Jika volume tidak penuh dan Anda mengonfigurasinya dengan cara ini, Anda juga dapat mendorong melewati cadangan snapshot itu dan memiliki snapshot yang menempati beberapa ruang data yang tidak digunakan. Namun, jika volume terisi, semua foto tetapi yang didukung oleh data di ruang yang disediakan akan dihapus. Penghapusan foto hanya ditentukan oleh ruang foto yang tersedia, dan jika perlu menghapus foto yang diperlukan untuk kebijakan penyimpanan Anda, itu akan.

Pertimbangkan situasi ini:

  • Volume penuh dengan snapshot reguler dan persyaratan retensi 2 minggu.
  • Asumsikan setengah dari cadangan yang digunakan untuk foto-foto berdasarkan tingkat perubahan normal.
  • Seseorang menghapus banyak data (lebih dari cadangan snapshot), secara drastis meningkatkan laju perubahan, untuk sementara waktu.

Pada titik ini, cadangan snapshot Anda sepenuhnya digunakan, seperti halnya banyak ruang bebas data yang Anda izinkan OnTap untuk digunakan untuk snapshot, tetapi Anda belum kehilangan snapshot apa pun. Namun, segera setelah seseorang mengisi volume cadangan dengan data, Anda akan kehilangan semua foto yang terdapat di bagian data, yang akan mendorong titik pemulihan Anda kembali ke waktu tepat setelah penghapusan besar.

Ringkasan

Snapshot Netapp tidak melindungi Anda dari kehilangan data nyata. Volume yang dihapus atau hilangnya data yang salah pada filer akan meminta Anda untuk membangun kembali data.

Mereka adalah cara yang sangat sederhana dan elegan untuk memungkinkan pemulihan rutin sederhana, tetapi mereka tidak cukup dapat diandalkan sehingga mereka mengganti solusi cadangan nyata. Sebagian besar waktu, mereka akan membuat mengembalikan rutin sederhana dan tidak menyakitkan, tetapi ketika mereka tidak tersedia, Anda terpapar.


Deletion of snapshots is determined only by available snapshot space, and if it needs to delete snapshots that are required for your retention policy- Ini adalah sesuatu yang bahkan tidak kupikirkan. Poin luar biasa.

Anda ingin bersenang-senang? Coba lakukan snapshot pada volume snapmirrored untuk flexclone target. Kemudian coba gunakan 100% dari ruang non-cadangan pada sumbernya. Ia berfungsi sampai backshot snapshot yang flexclone terhapus pada volume sumber, di mana replikasi titik berhenti .
Basil

1
Meskipun saya setuju dengan Anda sebagian besar, saya mungkin akan mengoreksi Anda pada poin pertama Anda. Ingat aturan pencadangan 3-2-1 dan bahwa 2 adalah singkatan dari dua media yang berbeda. SnapShots fit akan sebagai salah satu dari tiga salinan Anda dan mungkin skenario pemulihan Anda yang lebih umum. Itu bukan salinan di luar media atau di luar kantor. Jadi, saya katakan SnapShots berfungsi sebagai cadangan tetapi tidak cukup sebagai cadangan HANYA atau strategi cadangan keseluruhan. Saya pikir inilah yang Anda maksudkan; tapi, saya merasa seperti ini sedikit lebih bernuansa.
abegosum

Perbedaan yang bagus antara dua fungsi cadangan (yang penting), yang masing-masing lebih dapat disebut sebagai pemulihan bencana dan pemulihan tolol .
MadHatter

8

Mereka adalah suatu backup, ya. Saya pribadi menggunakannya sebagai pengganti incrementals harian sebelumnya, tapi kami masih melakukan full mingguan untuk rekaman.

Mereka melindungi dengan sangat baik dari kesalahan atau masalah pengguna atau admin non-netapp (sistem yang mengakses volume).

Mereka tidak melindungi dari kegagalan perangkat keras bencana dari netapp itu sendiri. Pemahaman saya adalah bahwa SnapMirror memang menyalin semua data (dalam snapshot) ke filer lain [1], jadi SnapMirroring ke filer lain harus melindungi dataset tersebut dari kegagalan katastropik kegagalan filer tunggal.

Satu masalah utama, tentu saja, adalah bahwa jika seseorang mengelola netapp menghapus volume, maka semua snapshot ikut dengannya. SnapMirror ke filer lain harus cukup melindungi terhadap hal itu.

Jika semua pengarsip NetApp Anda berada di pusat data yang sama, maka Anda tidak memiliki apa pun yang mencakup bencana besar, seperti yang diberikan oleh backup tape ke luar kantor.

Anda akan mendapatkan cadangan VM yang lebih baik dan basis data apa pun (atau hal-hal seperti basis data) jika Anda menggunakan agen SnapManager yang sesuai, yang akan mengoordinasikan pengambilan data secara singkat saat snapshot diambil. Jika VM yang diberikan dan datanya terkandung sepenuhnya dalam volume NetApp tunggal, maka snapshot dari VM itu harus konsisten dengan crash. Artinya, harus sama baiknya dengan jika Anda menarik steker pada server dan mencitrakan drive, yang biasanya berarti pemeriksaan sistem file dan setara database. Jika data basis data terbagi antara LUN, sepertinya ada risiko korupsi data yang signifikan.

Jika itu saya, saya akan mengatur semua database untuk melakukan backup reguler ke disk lokal, dan mengatur pekerjaan itu untuk menyimpan satu atau dua salinan. Itu memberi Anda jaminan pemulihan yang jauh lebih baik.

[1] http://www.netapp.com/us/system/pdf-reader.aspx?m=snapmirror.pdf&cc=us


+1 untuk menyebutkan SnapMirroring ke filer lain; orang tampaknya mengabaikan fungsi itu.
MadHatter

1
Snapmirroring ke filer lain tidak akan melindungi Anda dari snapshot otomatis yang memperpendek titik pemulihan Anda. Itu melindungi terhadap penghapusan volume dan kehilangan filer.
Basil

2

Anda harus membaca jawaban yang sangat bagus dari @Basil sekarang, tetapi inilah dua sen saya:

Snapshots tidak disadari oleh aplikasi

Hanya karena Anda mengambil snapshot dari volume penyimpanan yang mendasarinya tidak berarti data pada volume tersebut dapat dipulihkan. MS SQL adalah contoh yang bagus untuk hal ini - Anda harus memastikan bahwa database Anda konsisten dengan transaksi sebelum Anda mengambil snapshot dari penyimpanan yang digunakannya seperti yang disebutkan oleh @freiheit. Anda tidak lebih baik daripada pulih dari kegagalan yang sulit. DBA senang menggunakan LUN yang berbeda untuk berbagai bagian SQL untuk lebih memanfaatkan sistem penyimpanan, temp basis data pada penyimpanan cepat, basis data sistem pada penyimpanan yang lebih lambat, hanya baca atau arsip data penyimpanan massal, dan data yang bekerja di antara keduanya. Jika Anda hanya snapshotting volume itu sangat tidak mungkin Anda akan dapat memulihkan database Anda.

NetApp memasok sejumlah alat Snap untuk membuat aplikasi snapshots sadar. SnapManager untuk SQL memberikan kesadaran itu. Dalam ekosistem Microsoft, saya percaya ada juga alat SnapManager untuk Exchange dan SharePoint. SnapDrive tidak memiliki kesadaran aplikasi ini. Itu hanya menyediakan metode yang nyaman untuk mengelola penyimpanan di dalam tamu.

Jika Anda menyimpan semua data IIS dan konfigurasi pada LUN dan memotret LUN secara langsung, Anda tidak dapat menjamin bahwa data dapat dipulihkan. Tanya saya bagaimana saya tahu ...


Beberapa tipe penyimpanan dapat memiliki jadwal snapshot yang berbeda

Jika Anda mempresentasikan penyimpanan ke server Anda dengan cara yang berbeda ini dapat menyulitkan foto dan pemulihan gambar Anda. ONTAP NetApp adalah penawaran multi-protokol dan sangat mungkin Anda menggunakan lebih dari satu metode atau tipe penyimpanan untuk server tertentu. Di toko kami, beberapa server kami mendapatkan drive C: \ di atas datastore berbasis NFS dan drive "penyimpanan" mereka di atas Raw Device Mapped LUNs. Kami mengambil snapshot dari LUN RDM tetapi tidak datastore berbasis NFS. Ini membuat memulihkan server, sulit.


Snapshots tidak memiliki kebijakan penyimpanan yang dijamin

Sekali lagi, @Basil benar-benar membahas hal ini dengan baik tetapi patut untuk diulangi. Dimungkinkan untuk mengisi Snap Reserve Anda sedemikian rupa sehingga Snpashot Autodelete menghapus foto-foto yang secara alami belum tua untuk dihapus. Lagi. Ini bisa sangat buruk jika Anda atau pelanggan Anda mengharapkan tiga minggu foto akan tersedia.


Snapshots sebaris

Ini adalah kelemahan dari penyimpanan terintegrasi ... baik ... terintegrasi. Jepretan Anda berada di platform yang sama dengan yang Anda cadangkan. Jika volume atau Filer dihidupkan begitu juga cadangan Anda. Anda dapat mengurangi ini dengan menyalin snapshot ke Filer lain menggunakan SnapMirror karena saya keliru menyatakan dalam pertanyaan saya bahwa salinan SnapMirror bukan salinan lengkap.


Snapshots memungkinkan praktik operasional yang buruk untuk melanjutkan

Satu hal yang saya perhatikan adalah bahwa snapshot memungkinkan manajer dan pelanggan untuk melanjutkan perilaku operasi yang mengerikan. Di lingkungan kami, kami memiliki praktik manajemen dokumentasi dan konfigurasi yang sangat buruk. Ini berarti bahwa sebagian besar server mulai dengan basis yang sama (templat atau gambar) tetapi kemudian dikonfigurasikan secara manual oleh berbagai kelompok orang. Ketika mereka melanjutkan hidup mereka, server menyimpang lebih jauh dan lebih jauh dari template dengan cara yang umumnya tidak didokumentasikan atau diimplementasikan dengan manajemen konfigurasi.

Dan kemudian datang snapshot! Kami tidak perlu mundur dan mengatasi beberapa praktik operasional mendasar kami karena kami dapat memotret semua server kami! Dan kita dapat menggunakan SnapMirror untuk memindahkan foto-foto itu di luar situs agar kita dapat menggunakannya sebagai cadangan!

Saya pikir ini pelajaran yang salah untuk dipelajari di sini. Pelajaran yang lebih baik untuk dipelajari adalah bahwa kerangka kerja manajemen konfigurasi, bahkan jika sesederhana changelog, harus didukung untuk keperluan pemulihan bare-metal. Snapshots adalah alat yang fantastis tetapi saya bisa ada godaan untuk terlalu bergantung pada mereka untuk menghalangi fundamental yang penting.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.