Kami memiliki pusat data kecil dengan sekitar seratus host yang menunjuk ke 3 server dns internal (bind 9). Masalah kami muncul ketika salah satu server dns internal menjadi tidak tersedia. Pada saat itu semua klien yang menunjuk ke server itu mulai berkinerja sangat lambat.
Masalahnya tampaknya bahwa resolver stock linux tidak benar-benar memiliki konsep "gagal" ke server dns yang berbeda. Anda dapat menyesuaikan batas waktu dan jumlah coba lagi yang digunakannya, (dan atur putar sehingga ia akan bekerja melalui daftar), tetapi tidak peduli apa pun pengaturan yang digunakan seseorang, layanan kami bekerja jauh lebih lambat jika server dns primer menjadi tidak tersedia. Saat ini, ini adalah salah satu sumber gangguan layanan terbesar bagi kami.
Jawaban ideal saya adalah "RTFM: tweak /etc/resolv.conf seperti ini ...", tetapi jika itu pilihan saya belum melihatnya.
Saya bertanya-tanya bagaimana orang lain menangani masalah ini?
Saya dapat melihat 3 kemungkinan jenis solusi:
Gunakan linux-ha / Pacemaker dan failover ips (sehingga VIP dns IP "selalu" tersedia). Sayangnya, kami tidak memiliki infrastruktur pagar yang baik, dan tanpa pagar pemacu jantung tidak berfungsi dengan baik (dalam pengalaman saya Pacemaker menurunkan ketersediaan tanpa pagar).
Jalankan server dns lokal di setiap node, dan arahkan resolv.conf ke localhost. Ini akan berhasil, tetapi akan memberi kami lebih banyak layanan untuk dipantau dan dikelola.
Jalankan cache lokal di setiap node. Orang-orang tampaknya menganggap nscd "rusak", tetapi dnrd tampaknya memiliki set fitur yang tepat: menandai dns server sebagai naik atau turun, dan tidak akan menggunakan server dns 'turun'.
Any-casting tampaknya hanya berfungsi pada tingkat ip routing, dan tergantung pada pembaruan rute untuk kegagalan server. Multi-casting sepertinya itu akan menjadi jawaban yang sempurna, tetapi bind tidak mendukung penyiaran atau multi-casting, dan dokumen yang saya temukan nampaknya menyarankan bahwa multicast dns lebih ditujukan pada penemuan layanan dan konfigurasi otomatis daripada penyelesaian dns reguler .
Apakah saya kehilangan solusi yang jelas?