Evan mendapatkan beberapa poin bagus, tapi mungkin ada beberapa cara efektif untuk mendapatkan waktu pemulihan 1 jam dalam menghadapi kegagalan.
Small Business cenderung berarti perangkat keras kecil, jadi mungkin tidak banyak biaya untuk melakukan beberapa hal sederhana yang sebenarnya menambah jumlah ketahanan yang signifikan dalam menghadapi masalah. Ide utamanya adalah hanya memiliki perangkat keras tambahan yang siap digunakan.
Pertama, merasa nyaman dengan pemikiran IP virtual. Itu adalah alamat IP yang akan diajak bicara pengguna, tetapi dapat berada di server mana pun yang Anda berikan. Ini adalah alamat IP yang Anda pengguna, dan aplikasi ingin diajak bicara. Dan itu akan menjadi yang paling bermanfaat untuk akhirnya solusi apa pun yang Anda pilih. Memiliki VIP berarti Anda tidak perlu mengkonfigurasi ulang aplikasi mana pun ketika gagal. Juga, perlu diingat bahwa memiliki perangkat keras yang berlebihan juga berdampak meningkatkan biaya administrasi, melakukan dua pembaruan konfigurasi daripada 1.
Jika kami mulai dengan perutean / server proxy web Anda, itu mungkin yang termudah karena mereka tidak akan menjadi keadaan nyata yang perlu disimpan di kotak itu sendiri. Jadi, dapatkan duplikat dari kotak yang sama, dan konfigurasikan hal yang sama. Saya akan tetap terhubung pada segmen LAN, dan dengan asumsi Anda internet di antarmuka lain, tukar kabel jika mereka gagal. Dari perspektif perutean, Anda menetapkan semua yang Anda klien untuk menargetkan alamat .1 (VIP) untuk rute default mereka dan server proxy memberikan server A alamat .2 dan server B alamat .3. Dengan cara ini keduanya dapat dikelola untuk pembaruan konfigurasi (berlaku untuk keduanya). Dan yang harus Anda lakukan untuk failover adalah menghapus tugas IP .1 dari .2 dan memindahkannya ke .3, dan memindahkan koneksi internet ke antarmuka lainnya. Itu tidak terlalu rumit, mudah dilakukan dan dipahami, dan biaya perangkat keras tambahan dari kotak kedua. Jika Anda bisa mendapatkan redundansi di sisi internet, Anda bisa menambahkan beberapa kompleksitas, dan mendapatkan failover otomatis menggunakan sesuatu seperti VRRP.
Tanpa spesifik, sulit dikatakan tetapi server web Anda mungkin sesederhana itu. Tambahkan server kedua dengan konfigurasi Identik, buat vIP di antara keduanya, dan pindahkan VIP ke cadangan saat menghadapi kegagalan. Saya biasanya tidak keberatan jika keadaan sesi hilang pada failover (itu masalah kritis yang menyebabkan failover). Jadi, jika pengguna harus masuk lagi, bukan masalah besar. Sekali lagi, vrrp mungkin dapat digunakan untuk failover otomatis.
Pindah ke Anda DB, ini jauh lebih kompleks. Sebagian besar DB memiliki semacam model primer / sekunder, di mana Anda membuat cadangan DB asli ke sekunder, dan kemudian menyalin semua log transaksi atau perubahan DB ke sekunder. Sekali lagi, Anda dapat menggabungkan ini dengan VIP untuk aplikasi / pengguna yang benar-benar mengakses DB. Namun, failover lebih sering terjadi. Bergantung pada kegagalan utama, Anda mungkin harus benar-benar menjalankan dan menjalankan untuk menyalin dan sisa log transaksi. Kemudian aktifkan sekunder. Jika Anda dapat mentolerir beberapa data yang hilang, maka Anda dapat segera mengaktifkan yang sekunder. Setelah failover, server B sekarang Anda utama, dan Anda sedang bekerja untuk mengembalikan server A, dan mengubahnya menjadi cadangan baru sehingga siap gagal ketika server b akhirnya memiliki masalah.
File server selalu merupakan bagian yang paling sulit, karena tidak seperti DB, banyak fitur yang sulit didapat dari sistem file. Namun, beberapa tingkat ketahanan dapat dicapai dengan memiliki server kedua, dan menulis skrip yang memindai sistem file untuk perubahan, dan menyalin file baru apa pun ke sekunder. Pada dasarnya Anda dapat menjalankan rsync pada cron yang saya percayai untuk melakukan ini. Sekali lagi, Anda menggunakan VIP yang Anda berikan kepada pengguna, bahwa Anda pindah jika Anda melakukan failover. Dalam skrip Anda, saya sangat merekomendasikan agar Anda memeriksa untuk memastikan bahwa sistem adalah pemilik VIP sebelum mentransfer file. Anda benar-benar benar-benar tidak ingin rsync dieksekusi di arah yang salah dan menimpa setiap perubahan yang Anda buat pengguna. Ini bisa kehilangan beberapa file jika gagal,
Saya tidak tahu apa yang dapat Anda lakukan terhadap sistem telepon Anda ... itu benar-benar tergantung pada vendor dan bagaimana pengaturannya. Vendor mungkin memiliki beberapa solusi untuk ketahanan.
Beberapa kata peringatan terakhir. Pastikan Anda benar-benar menguji pengaturan yang akan Anda lakukan. Pastikan Anda tahu bagaimana cara membuatnya gagal tanpa kehilangan informasi penting itu. Tes tes tes untuk memastikan itu akan berfungsi saat Anda membutuhkannya. Pastikan Anda memiliki proses yang memungkinkan perubahan konfigurasi, pembaruan perangkat lunak, dll. Diterapkan dengan benar ke cadangan utama dan cadangan. Berita baiknya adalah, Anda mungkin dapat melakukan failover yang terkontrol saat Anda ingin menurunkan server, dan lain-lain. Ini bukan pengaturan aktif-aktif, jadi Anda tidak tahu apakah sekunder akan berfungsi saat Anda membutuhkannya.
Saya bekerja di bidang telekomunikasi, dan peralatan kami sangat redundan, termasuk dalam kebanyakan kasus redundansi geografis. Titik kegagalan nomor 1 kami adalah redundansi tidak diuji setelah perubahan, dan pengguna membuat perubahan yang tidak tahu cara kerja model redundansi. Namun, kami memiliki masalah tambahan bahwa semua peralatan kami perlu mendukung failover otomatis dalam waktu tidak lebih dari beberapa detik. Anda dapat mentolerir intervensi manual dalam kegagalan Anda jika Anda hanya perlu bangun dan berjalan dalam waktu 30 - 60 menit. Anda hanya perlu dipersiapkan. Semoga berhasil.