Cliffhanger: Backupnya benar ... ini ... benar?


28

Di tempat kerja saya, cadangan memiliki prioritas yang sangat rendah. Strategi cadangan telah diimplementasikan beberapa saat yang lalu, dan sejak itu diasumsikan bahwa cadangan baik-baik saja. Jika Anda bertanya pada sysadmin, mereka akan mengatakan semuanya didukung.

Tetapi kemudian, ketika Anda meminta cadangan SPESIFIK, separuh waktu mereka tidak ada di sana:

  • Disk sudah penuh
  • Rekaman itu gagal
  • Sepertinya seseorang menonaktifkan pekerjaan pencadangan
  • Koneksi jaringan mengalami gangguan
  • Kami memesan disk itu bertahun-tahun yang lalu, tetapi keuangan belum menyetujui pesanan pembelian
  • File-file tersebut rusak
  • File berisi database yang salah
  • Hanya backup log transaksi (tidak berguna tanpa yang penuh)

Beberapa minggu yang lalu, bencana menjadi sangat dekat ketika salah satu server kehilangan satu terlalu banyak disk serangan. Untungnya satu disk masih cukup baik untuk menyalin data, jika Anda mencoba banyak kali.

Tetapi bahkan setelah hampir terjadi bencana, saya sepertinya tidak dapat meyakinkan para sysadmin untuk memperbaiki situasi. Jadi saya bertanya-tanya, ada tips untuk membuka mata orang? Sepertinya saya kita berjalan di sepanjang tepi tebing.


17
Jadi Anda mengatakan bahwa tidak hanya sysadmin Anda tidak cukup kompeten untuk kehilangan set RAID, mereka juga cukup berguna untuk tidak memiliki cadangan untuk sistem itu? Kedengarannya seperti kasus yang bagus untuk mendapatkan beberapa admin baru.
PowerApp101

Jawaban:


24

Anda selalu harus memperbaiki hal-hal ini dari atas.

Apakah strategi cadangan saat ini didukung oleh dan dipahami oleh manajemen? Jika tidak, itu tidak berguna.

Manajemen eksekutif perlu tahu tentang masalah dan risiko apa yang terlibat (kehilangan data keuangan yang harus Anda bawa secara legal untuk bertahan hidup, atau data pelanggan yang telah bertahun-tahun dikumpulkan?) Dan pertimbangkan bahwa dalam memutuskan tindakan, atau memutuskan membiarkan seseorang (seperti Anda) mengambil tindakan.

Jika Anda tidak dapat menghubungi manajemen, coba pengontrol bisnis atau posisi keuangan lainnya di mana pengambilan data dan integritasnya sangat penting bagi laporan perusahaan. Mereka pada gilirannya dapat "memulai badai" jika diperlukan ...


Saya benar-benar membenci politik kerja, dan orang-orang "memulai badai", tetapi jika Anda mengatakan kebenaran yang jujur ​​tentang situasi "pergi ke puncak" dan permulaan "badai" lainnya mungkin merupakan cara terbaik / satu-satunya.
pengecut anonim

Setuju, pukulannya (tidak ada permainan kata-kata). Itu hanya salah satu dari hal-hal yang kadang-kadang harus dilakukan, meskipun itu menjengkelkan dan berisiko menjadi starter badai. Tetapi ketika datang ke masalah kritis seperti ini ada seperti tiga opsi paling banyak: abaikan, pergi atau serang. Dan mengabaikan cacat seperti ini tidak terdengar bagus.
Oskar Duveborn

14

Di mana untuk memulai? Ini adalah bencana yang menunggu untuk terjadi. Fungsi pekerjaan utama Sysadmins adalah untuk memastikan data dicadangkan dan dipulihkan. Yang lainnya sekunder. Tidak, jika tidak, tetapi

Berikut beberapa hal yang dapat Anda lakukan:

  1. Lacak KPI untuk dipulihkan. Seharusnya dimungkinkan untuk menghasilkan laporan yang menunjukkan berapa banyak permintaan untuk pemulihan telah berhasil. Apapun yang kurang dari 100% harus diselidiki secara menyeluruh. Manajemen suka melaporkan dan ini adalah bukti kuat.

  2. Harus ada prosedur yang terdokumentasi untuk semua operasi pencadangan dan pemulihan, termasuk semua sistem dan strategi pencadangannya, rotasi pita, jadwal, jalur eskalasi, uji pemulihan, dll. Mintalah untuk melihatnya.

  3. Bicaralah dengan manajer sys admin dan sampaikan kekhawatiran Anda. Bersenjata dengan bukti bahwa mengembalikan tidak berfungsi. Jika tidak ada sukacita lebih tinggi.

Serius - tendang ribut. Hal-hal seperti ini dapat menghancurkan perusahaan.


Hanya saja, jangan lupa untuk menggunakan distribusi beta pada "statistik" Anda dari tiga upaya :-P stats.stackexchange.com/q/47771/9487
Tobias Kienzler

5

Usulkan (minimal) tes pemulihan bencana tahunan. Pekerjaan yang diperlukan untuk berhasil menjalankan tes harus mengungkapkan kekurangan.


5

Di mana saya bekerja, kami memiliki departemen TI yang sangat baik, setiap tahun mereka berkumpul dari setiap kantor di seluruh Eropa dan memiliki 'restore fest' ke server sewaan di pusat data, secara efektif mensimulasikan apa yang akan terjadi jika staf datang untuk bekerja suatu hari dan menemukan kantor terbakar pada malam hari.

Libatkan bos besar, ingatkan dia bahwa jika bencana melanda, dia akan mendapat bonus tahun itu (atau lebih buruk!) Dan jadi mungkin lebih bijaksana untuk mengadakan latihan pemulihan bencana serupa. Seharusnya tidak butuh waktu lama atau biaya banyak - admin dikirim pergi dengan kaset cadangan di luar kantor mereka dan disuruh membuka lingkungan kantor yang sama dari mereka.

Kemudian duduk dan saksikan TI menjadi lebih baik - begitu manajemen menyadari bahwa data perusahaan hampir hilang secara permanen, percikan api akan terbang (dari roket yang akan ditempatkan secara strategis di admin tersebut)


1
Itu luar biasa!
Oskar Duveborn

4

Mudah untuk menyalahkan admin - namun Oskar benar: hal-hal ini didorong dari atas. Jika manajemen tidak akan menghabiskan banyak uang untuk membuat cadangan sebagai prioritas, maka sysadmin biasanya kurang beruntung dan melakukan yang terbaik yang mereka bisa dengan sumber daya yang mereka miliki.

Kuncinya, jika Anda adalah salah satu dari admin yang kurang beruntung - dan saya telah berada di kapal ini untuk beberapa keterlibatan pelanggan - adalah bahwa Anda memastikan bahwa manajemen diberi pengarahan, berulang kali, dan dengan cara yang sesuai dengan jejak kertas, bahwa ini adalah risiko bagi bisnis.

Strategi saya adalah terus-menerus menekankan masalah. Jika Anda melakukan itu, kadang-kadang masalah akan diperbaiki, tetapi sebagian besar agar siapa pun saya melapor tidak dapat bersembunyi di balik alasan "Saya tidak pernah diberi pengarahan". Sebagai konsultan, saya biasanya bisa lebih baik. Saya bisa membuat atasan saya memberi pengarahan kepada manajemen yang lebih senior daripada saya bahwa ada kerentanan. Ini menyebarkan kesalahan di sekitar, atau setidaknya memfokuskannya pada tingkat yang lebih tinggi dari saya.

Pada saat yang sama Anda harus inventif dan bekerja keras untuk meminimalkan risiko dengan sumber daya apa pun yang dapat disediakan pelanggan.

Meskipun dalam beberapa kasus admin mungkin bersalah, manajemen selalu bertanggung jawab: baik untuk mengetahui risiko dan tidak melakukan cukup untuk memitigasinya, atau mempekerjakan orang yang tidak mengingatkan mereka akan risiko ini.


3

Saya bertanggung jawab atas sekitar 200 server yang tersebar di Barat Laut Inggris, dan ini jelas terlalu banyak untuk diperiksa secara manual.

Saya mengkonfigurasi cadangan sehingga setelah selesai menjalankan skrip (VBScript) yang memeriksa log cadangan, mengetahui apakah cadangan berfungsi atau tidak dan menulis catatan ke dalam basis data pusat dengan hasil cadangan. Kemudian di kantor pusat saya menjalankan skrip yang menanyakan database ini dan memberi saya daftar situs di mana cadangan melaporkan kesalahan atau tidak ada laporan dari situs.

Hasil akhirnya adalah bahwa ketika saya duduk di meja saya, saya memiliki daftar semua situs di mana saya perlu memeriksa cadangan.

Inti dari semua ini adalah asumsi default adalah bahwa cadangan gagal, dan cadangan dianggap telah berfungsi hanya jika VBScript saya tidak mendeteksi kesalahan dan menulis kesimpulan ini saya ke database saya. Ini memastikan kegagalan cadangan tidak luput dari perhatian.

Beberapa server menggunakan Backup Exec, beberapa NTBackup dan beberapa hanya menyalin file mereka ke server lain di seluruh jaringan. Tidak masalah apa jenis cadangan yang dilakukan server karena mudah untuk mengubah VBScript saya untuk memeriksa kesalahan. Script saya sebenarnya cukup mendasar, itu hanya membuka laporan cadangan sebagai file teks dan greps untuk frasa seperti "gagal me-mount", "tape penuh", "CRC error" dll, dll. Saya yakin seorang programmer profesional akan melakukan pekerjaan yang lebih licin. Namun semuanya sederhana dan kuat, dan proaktif dalam arti bahwa saya melihat laporan kegagalan cadangan apakah saya ingin atau tidak dan saya hanya akan gagal melihat kesalahan jika saya secara sadar memutuskan untuk mengabaikan laporan.

JR

PS 99% dari kegagalan cadangan adalah karena pengguna lupa untuk mengganti rekaman cadangan. Jangan suka pecinta saja :-)


Atau robot menjatuhkan rekaman itu (robot sialan) ^^ (terjadi lebih sering daripada yang diperkirakan)
Oskar Duveborn

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.