First Order: Apakah responsif?
Jika Anda tidak dapat masuk, ada masalah yang lebih besar terjadi. Ini umumnya datang dalam dua rasa: kegagalan perangkat keras, dan kegagalan perangkat lunak. Keduanya berpotensi menimbulkan bencana. Untuk mencegah kesalahan DFA, periksa kesehatan perangkat keras secara umum terlebih dahulu - pandangan sederhana biasanya sudah cukup.
Orde Kedua: Apakah struktur dasar sistem dalam kondisi kesehatan dan ketertiban yang baik?
Periksa "Triad Emas" sistem:
- Cukup waktu CPU gratis untuk diproses
- Ruang disk yang cukup bebas untuk penyimpanan
- Memori yang cukup gratis untuk beban kerja
Dalam beberapa dekade terakhir, triad ini telah berkembang menjadi "quad" yang mencakup komunikasi (jaringan):
- Konektivitas fungsional, responsif, dan memiliki kapasitas
Urutan Ketiga: Apa keparahan masalah ini?
Program atau layanan apa yang terpengaruh? Dalam mengurangi tingkat keparahan, apakah sistemik (sistem-lebar), berkerumun (sekelompok program), atau terisolasi (program tertentu)? Cluster program biasanya naik karena layanan dasar tertentu telah gagal atau tidak responsif. Masalah sistemik kadang-kadang terkait dengan ini (pikirkan konflik DNS atau IP) tetapi mengetahui ke mana harus mencari biasanya adalah kuncinya.
Urutan Keempat: Apakah alat diagnostik menyediakan data berguna yang relevan dengan masalah ini?
Sekarang Anda memiliki info tentang kesehatan sistem (urutan kedua) dan bagian mana yang mengalami masalah (urutan ketiga) ini akan membuatnya mudah untuk mempersempit di mana masalahnya.
Pesan kesalahan atau file log harus menjadi titik jalan umum dalam perjalanan ini.
Masalah CPU:
Masalah ruang disk / IO:
Masalah memori:
Masalah konektivitas:
- ping
- rute (dan arp dan rarp dan teman)
- iptables, ipchains, ipfw (untuk orang-orang BSD di luar sana)
- traceroute atau mtr
- host, nslookup, atau gali
- netstat
Keluhan yang paling umum (yang saya dengar):
Email tidak mengirimkan dengan cukup cepat (lebih dari satu menit dari kirim ke penerimaan oleh penerima) atau, email menolak upaya saya untuk mengirim. Ini biasanya turun ke tingkat limiter di Postfix yang menendang selama badai spam, yang berdampak pada kemampuan untuk menerima pengiriman internal.
Contoh kehidupan nyata:
Namun, ini tidak selalu terjadi. Suatu kali, masalah tetap ada terlepas dari restart layanan; jadi setelah 3 menit sudah waktunya untuk mulai melihat-lihat. CPU sibuk tetapi di bawah 100%, namun bebannya telah melonjak hingga 15 pada kotak hanya 2 core, dan mengancam akan naik lebih tinggi. Perintah teratas mengungkapkan bahwa sistem surat berada di overdrive, bersama dengan pemindai surat, tetapi tidak ada proses anak amavis untuk dilihat. Itulah petunjuknya - perintah antrian email (mailq) menunjukkan sekitar 150+ pesan yang tidak terkirim, lebih dari 80% di antaranya adalah spam, dalam 20 menit terakhir. Penyesuaian cepat untuk menurunkan pembatas tingkat (yang mengurangi tingkat masuknya badai spam) sambil meningkatkan jumlah proses pemindai email anak (untuk membantu memproses backlog), diikuti oleh layanan restart, menyelesaikan masalah dan sistem mampu untuk menyelesaikan pengiriman dalam waktu singkat.
Penyebab masalahnya adalah bahwa proses orang tua amavis telah mati karena mati, dan proses anak akhirnya semua berjalan dengan sendirinya (mereka berhenti sendiri setelah begitu banyak pemindaian untuk mencegah kebocoran memori). Jadi ada proses SMTP dalam postfix yang mencoba menghubungi ... udara tipis ... untuk melakukan pemindaian spam / virus yang diperlukan. Distro yang saya gunakan memiliki paket-paket usang yang tidak akan pernah diperbarui; karena penginstalannya akan diganti dalam satu tahun atau lebih, saya secara manual "mengesampingkan" penginstalan ke versi terbaru, yang mencakup beberapa perbaikan bug. Saya tidak punya masalah yang sama sejak itu.