Pertama, saya harus bertanya: "shutdowns"? Apakah maksud Anda bahwa mesin reboot atau apakah itu benar-benar berhenti? Jika berhenti, itu salah konfigurasi (mungkin di BIOS) atau ada sesuatu yang secara aktif mematikan mesin (yaitu init 0).
Jika tidak, kandidat utama Anda adalah / var / log / syslog dan /var/log/kern.log karena masalah Anda terdengar seperti panik kernel atau kesalahan perangkat keras yang dipicu oleh perangkat lunak. Tentu saja, jika server menjalankan beberapa layanan (mis. Apache) dapat memberi Anda petunjuk juga.
Seringkali, dalam situasi seperti ini, ada entri log yang dihasilkan, tetapi karena mesin mengalami kesulitan, itu tidak akan berhasil menulis entri ke disk. Jika kotak tersebut ditempatkan, kemungkinan terhubung ke konsol serial oleh mitra colo. Di situlah saya akan mencari jika saya tidak menemukan sesuatu yang mencurigakan di log di atas.
Jika mesin tidak terhubung ke konsol serial dan tidak ada dalam log, Anda mungkin ingin mempertimbangkan untuk mengirim syslog ke kotak yang berbeda melalui jaringan. Mungkin antarmuka jaringan bertahan sedikit lebih lama, dan pesan log dapat dibaca di server syslog. Lihatlah rsyslog atau syslog-ng.
MEMPERBARUI:
Saya setuju dengan @Johann di bawah ini. Penyebab paling mungkin berhenti adalah pengawas suhu prosesor. Coba periksa / rencanakan suhu dalam kotak melalui sensor atau smartctl (biasanya yang paling mudah). Saya menemukan bahwa collectd tidak tertandingi dalam melacak sejumlah besar variabel dari waktu ke waktu. Ia dapat melakukan IPMI dan lm-sensor dan hddtemp. Juga, beberapa BIOS: menghentikan aktivitas suhu log.