Salam pembuka,
Saya ingin bertanya pendapat kolektif dan pandangan tentang sistem pemantauan terdistribusi, apa yang Anda gunakan dan apa yang Anda ketahui yang mungkin mencentang kotak saya?
Persyaratannya cukup kompleks;
Tidak ada titik kegagalan. Betulkah. Aku benar-benar serius! Harus dapat mentolerir kegagalan simpul tunggal / ganda, baik 'master' dan 'pekerja' dan Anda dapat berasumsi bahwa tidak ada lokasi pemantauan ("situs") yang memiliki banyak node di dalamnya, atau berada di jaringan yang sama. Oleh karena itu ini mungkin mengesampingkan teknik HA tradisional seperti DRBD atau Keepalive.
Logika terdistribusi, saya ingin menggunakan 5+ node di beberapa jaringan, dalam banyak pusat data dan di beberapa benua. Saya ingin tampilan "Mata Burung" dari jaringan dan aplikasi saya dari perspektif pelanggan saya, poin bonus untuk logika pemantauan tidak menjadi macet ketika Anda memiliki 50+ node, atau bahkan 500+ node.
Kebutuhan untuk dapat menangani sejumlah pemeriksaan host / layanan yang cukup masuk akal, ala Nagios, untuk angka rata-rata mengasumsikan 1500-2500 host dan 30 layanan per host. Akan sangat bagus jika menambahkan lebih banyak node pemantauan memungkinkan Anda untuk skala relatif linier, mungkin dalam 5 tahun ke depan saya mungkin ingin memantau 5000 host dan 40 layanan per host! Menambahkan dari catatan saya di atas tentang 'logika terdistribusi' akan menyenangkan untuk mengatakan:
- Dalam keadaan normal, pemeriksaan ini harus dijalankan pada $ n atau n% dari node pemantauan.
- Jika kegagalan terdeteksi, jalankan pemeriksaan pada $ n atau n% dari node lainnya, korelasikan hasilnya dan kemudian gunakan untuk memutuskan apakah kriteria telah dipenuhi untuk mengeluarkan peringatan.
Grafik dan fitur ramah manajemen. Kami perlu melacak SLA kami dan mengetahui apakah aplikasi 'sangat tersedia' kami naik 24x7 agak berguna. Idealnya solusi yang Anda usulkan harus melaporkan "out of the box" dengan minimal faff.
Harus memiliki API atau sistem plugin yang solid untuk mengembangkan pemeriksaan pesanan khusus.
Perlu masuk akal tentang peringatan. Saya tidak ingin selalu tahu (via SMS, jam 3 pagi!) Bahwa satu node pemantauan memperhitungkan router inti saya sedang down. Saya tidak ingin tahu apakah persentase didefinisikan dari mereka setuju bahwa sesuatu yang funky yang terjadi;) Pada dasarnya apa yang saya bicarakan di sini adalah "kuorum" logika, atau penerapan kewarasan kegilaan didistribusikan!
Saya bersedia mempertimbangkan opsi komersial dan open source, meskipun saya lebih suka menghindari perangkat lunak yang harganya jutaan poundsterling :-) Saya juga bersedia menerima mungkin tidak ada yang ada di luar sana yang menandai semua kotak itu, tetapi ingin bertanya kepada kolektif itu.
Ketika berpikir tentang memonitor node dan penempatannya, ingatlah bahwa sebagian besar dari ini akan didedikasikan server pada jaringan ISP acak dan dengan demikian sebagian besar di luar kendali saya. Solusi yang mengandalkan umpan BGP dan kejenakaan jejaring kompleks lainnya sepertinya tidak cocok.
Saya juga harus menunjukkan bahwa saya telah mengevaluasi, menyebarkan atau banyak menggunakan / menyesuaikan sebagian besar rasa open source di masa lalu termasuk Nagios, Zabbix dan teman-teman - mereka benar-benar bukan alat yang buruk tetapi mereka gagal secara keseluruhan " didistribusikan "aspek, terutama berkaitan dengan logika yang dibahas dalam pertanyaan saya dan peringatan 'cerdas'.
Senang mengklarifikasi poin yang diperlukan. Ceria cowok dan cewek :-)