Saya menjalankan server menggunakan Debian Squeeze dengan beberapa kontainer OpenVZ. Kontainer berjalan kebanyakan Squeeze, beberapa Lenny, dan beberapa sudah diperbarui ke Wheezy. Tuan rumah tidak melakukan banyak hal di luar iptables dan DHCP. Server file, proxy, server mail, kerberos, LDAP, ... semuanya dimasukkan ke dalam wadah. Sistem berjalan stabil selama bertahun-tahun dan tidak memiliki perubahan besar kecuali beberapa aturan firewall selama lebih dari setahun.
2 hari yang lalu tiba-tiba sistem macet. Saya punya banyak masalah untuk membawanya lagi. Pada awalnya itu tidak akan membiarkan saya masuk via ssh. login root ditolak oleh 'Anda tidak ada. Pergi!' Login lokal baik-baik saja. Beberapa waktu kemudian ssh bekerja lagi. Secara kebetulan saya tidak menggunakan kembali baris dari bash history, tetapi mengetikkan perintah baru, yang diperiksa triply identik dengan baris, yang tidak bekerja sebelumnya tetapi bekerja sebelum crash.
Kemudian sistem berjalan, tetapi lalu lintas jaringan pada sebagian besar protokol diblokir mengikuti SYN ACK. DNS, Telnet, dan SSH baik-baik saja, tetapi sisanya berantakan. Setelah beberapa jam memancing dalam gelap dan memuat ulang firewall beberapa kali tiba-tiba semuanya baik-baik saja. Saya tidak dapat menemukan sesuatu yang mencurigakan di log - tapi saya bukan ahli forensik.
Hari ini nscd dari server file keluar dari soket untuk menghubungi LDAP karena kuota wadah. Sesuatu yang tidak pernah terjadi sebelumnya. Saya juga melihat banyak (> 30) soket yang diklaim oleh smbd.
/ var / log / messages tampak sangat sama dengan syslog . /var/log/kern.log memiliki informasi tambahan ini tentang alasan kerusakan:
/var/log/kern.log:2950:Sep 19 10:46:57 asgard kernel: [6529441.320086] INFO: task sendmail:32181 blocked for more than 120 seconds.
/var/log/kern.log:2982:Sep 19 10:48:57 asgard kernel: [6529561.324525] INFO: task kdmflush:1932 blocked for more than 120 seconds.
/var/log/kern.log:3005:Sep 19 10:48:57 asgard kernel: [6529561.324694] INFO: task xfssyncd:10162 blocked for more than 120 seconds.
/var/log/kern.log:3027:Sep 19 10:48:57 asgard kernel: [6529561.324934] INFO: task postgres:16827 blocked for more than 120 seconds.
/var/log/kern.log:3060:Sep 19 10:49:51 asgard kernel: [6529561.325129] INFO: task imapd:31749 blocked for more than 120 seconds.
/var/log/kern.log:3084:Sep 19 10:49:51 asgard kernel: [6529561.325248] INFO: task cleanup:32194 blocked for more than 120 seconds.
/var/log/kern.log:3106:Sep 19 10:50:57 asgard kernel: [6529681.324028] INFO: task flush-253:3:3216 blocked for more than 120 seconds.
/var/log/kern.log:3142:Sep 19 10:50:57 asgard kernel: [6529681.324224] INFO: task kjournald:6859 blocked for more than 120 seconds.
/var/log/kern.log:3166:Sep 19 10:50:57 asgard kernel: [6529681.324366] INFO: task syslogd:11720 blocked for more than 120 seconds.
/var/log/kern.log:3198:Sep 19 10:50:57 asgard kernel: [6529681.324574] INFO: task postgres:16827 blocked for more than 120 seconds.
/var/log/kern.log:7152:Sep 19 19:29:41 asgard kernel: [ 1440.617090] INFO: task sendmail:11892 blocked for more than 120 seconds.
Kerusakan terakhir 'sendmail' adalah setelah me-reboot mesin. Sejak itu tidak ada lagi kejadian seperti itu. 'imapd' dan 'postgres' pasti dijalankan dalam wadah yang berbeda.
Yah, saya tidak melihat pistol merokok, tapi saya mungkin hanya buta. Menyiapkan sistem dari cadangan yang dikenal / dianggap baik akan memukul saya terlalu sulit untuk mencobanya tanpa alasan yang sangat baik.
Saya sangat menghargai saran apa yang harus diperiksa selanjutnya.
Terima kasih atas bantuan Anda.
Pembaruan : Berusaha lebih keras dalam mencari beberapa kursor sebelum crash, saya menemukan yang berikut di syslog:
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (10490->8232)
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (17442->8232)
Sep 19 10:11:02 asgard ntop[7965]: **WARNING** packet truncated (11650->8232)
Sep 19 10:11:02 asgard ntop[7965]: **WARNING** packet truncated (10202->8232)
Sep 19 10:11:29 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:13:27 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:20:33 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Saya tahu ini dianggap tidak kritis, tetapi tampaknya merupakan peristiwa yang jarang terjadi. Pemotongan paket hanya ada pada hari crash kedua. Tidak ada tempat lain di semua file log yang tersedia.