Saya memiliki 15 severs Linux RH 4.7 64-bit yang identik. Mereka menjalankan database cluster (cluster adalah level aplikasi). Kadang-kadang (setiap bulan atau lebih) kotak acak (tidak pernah sama sekalipun) membeku.
Saya bisa ping kotak dan ping berfungsi. Jika saya mencoba ssh di dalam kotak saya mendapatkan:
ssh_exchange_identification: Connection closed by remote host
SSH diatur dengan benar.
Ketika saya pergi ke ruang server, dan mencoba masuk langsung ke konsol, saya dapat mengganti konsol dengan Alt+ Fn, saya dapat memasukkan nama pengguna, dan karakter ditampilkan, tetapi setelah menekan Enter, tidak ada yang terjadi. Saya menunggu 8 jam sekali dan itu tidak berubah.
Saya mengatur syslog untuk mencatat semuanya ke host jarak jauh, dan tidak ada dalam log tersebut. Ketika saya reboot mesin, itu berfungsi tanpa masalah. Saya telah menjalankan tes HW - semuanya baik-baik saja, dan tidak ada yang ada dalam log. Mesin-mesin juga dimonitor dengan NAGIOS, dan tidak ada beban atau aktivitas yang tidak biasa sebelum membeku.
Saya kehabisan ide; apa lagi yang bisa saya lakukan atau periksa?