Apakah nagios "memantau" WAN ideal?

8

Baru mulai di perusahaan baru dan salah satu tugas pertama saya adalah mencari alternatif untuk sistem pemantauan internal mereka.

Solusi mereka saat ini adalah aplikasi .Net yang memeriksa berbagai perangkat melalui WAN (karena mereka adalah perusahaan konsultan IT yang menyediakan dukungan 24/7 / "pemeliharaan"). Perangkat berkisar dari router / switch / printer ke server dan layanan MS.

Setelah membaca posting yang tak terhitung jumlahnya di situs dan googling secara luas, tampaknya konsensusnya adalah semacam campuran Nagios / Munin.

Yang membawa saya ke pertanyaan saya:

A) Apakah mungkin menjalankan server Nagios secara lokal di perusahaan dan memantau berbagai situs eksternal melalui WAN? (Mereka tidak ingin server Nagios lokal di setiap situs karena sebagian besar situs relatif kecil (10-25 host) dan jumlah situs cukup besar (75-100)).

B) Jika demikian, bagaimana agen akan menghubungi backend Nagios? Melalui SSH? HTTP?

C) Selain dari fakta bahwa itu akan rentan terhadap kegagalan sambungan-WAN, seperti apa kelemahan langsung dari solusi semacam itu?

Setiap umpan balik dihargai, dan saya minta maaf sebelumnya atas kesalahpahaman karena saya baru di industri.

monitoring nagios

— NmE
sumber

6

Pemantauan atas WAN dimungkinkan, tetapi umumnya tidak ideal. Ini karena jika tautan WAN turun atau blip, semua pemeriksaan akan gagal dan Anda tidak mengetahui apa yang terjadi di lokasi terpencil. Anda juga mengalami peningkatan latensi sehingga kurang berguna untuk pengukuran kinerja LAN View. Yang sedang berkata jika Anda pergi dengan cara ini Anda mungkin ingin mengatur dependensi sehingga Anda tidak dibanjiri peringatan ketika tautan WAN memiliki masalah.

Cara paling umum yang saya lihat komunikasi antara sistem pemantauan dan layanan yang dimonitor adalah untuk memiliki terowongan VPN situs-ke-situs. Maka komunikasi tidak berbeda dengan jaringan lokal. Selain itu, nagios seringkali berbasis tarik (meskipun tidak harus). Jadi Nagios menghubungi layanan dan server yang dipantau, bukan sebaliknya.

Terakhir, solusi yang lebih ideal adalah dengan menggunakan pengaturan pemantauan terdistribusi, dengan Nagios satu opsi dijelaskan di http://nagios.sourceforge.net/docs/3_0/distributed.html .

— Kyle Brandt
sumber

Jelas merupakan kasus untuk menjalankan server lokal dan memang memiliki tampilan keras lama di NRPE. Adapun protokol? Terserah Anda - mungkin harus diamankan, tetapi ada ssh, stunnel serta VPN konvensional

— symcbean

Terima kasih banyak, beberapa info hebat di artikel yang didistribusikan pasti akan berguna.

— NmE

1

Ini semacam tergantung apa yang akan Anda pantau. Sebagian besar jika Anda hanya melakukan pemeriksaan ping, pemeriksaan layanan, pemeriksaan disk, dll, dan tetap menggunakan waktu nagios selama 5 menit, saya tidak dapat melihatnya yang menyebabkan Anda mengalami masalah.

Sekali lagi, tergantung pada apa yang Anda periksa tergantung pada apa yang akan dibicarakan. Jika Anda memeriksa host windows, Anda bisa menggunakan kueri WMI dan bahkan tidak memerlukan agen yang berjalan di kotak.

— beakersoft
sumber

1

Ini tentu dimungkinkan, melalui beberapa metode berbeda.

Jika "pengaturan terdistribusi" keluar dari pertanyaan, maka Anda harus melakukan setidaknya satu dari yang berikut:

Minta setiap kotak di hasil pemeriksaan push situs jarak jauh ke Nagios (lihat NSCA )
Poke lubang firewall sehingga Nagios dapat menjangkau setiap kotak di setiap situs jarak jauh
Tentukan satu kotak di setiap situs untuk menjadi semacam "Nagios proxy"

Saya akan menyarankan # 3, karena membutuhkan lubang firewall paling sedikit, dan juga menyederhanakan konfigurasi. Ini semacam versi ramping dari setup terdistribusi, dalam hal itu tidak memerlukan contoh Nagios penuh di setiap situs.

Untuk melakukan ini, Anda dapat mengatur NRPE (atau menggunakan check_by_ssh ) dan meminta "proxy" ini menjalankan semua pemeriksaan lain terhadap host lain di jaringan. Ini memiliki manfaat tambahan dari data kinerja yang Anda dapatkan kembali menjadi relatif terhadap proxy, sehingga tidak akan terpengaruh oleh keterlambatan WAN.

Selain itu, Anda kemudian dapat menggunakan pengaturan induk / anak untuk menjadikan setiap host di situs remote sebagai anak dari proxy-nya, untuk mengurangi pemberitahuan positif palsu. Anda mungkin juga ingin membuat semua layanan bergantung pada layanan check_nrpe (atau check_ssh) dari proxy. Lihat dokumen jangkauan jaringan untuk info lebih lanjut.

Apa pun metode yang Anda gunakan, sangat penting bagi Anda untuk menyesuaikan batas waktu default secara tepat, untuk memperhitungkan keterlambatan tambahan melintasi tautan WAN.

— Keith
sumber