Kami telah menjalankan beberapa situs web dari infrastruktur AWS Amazon selama sekitar dua tahun sekarang dan sekitar dua hari yang lalu server web mulai turun sekali atau dua kali sehari dengan satu-satunya kesalahan yang saya temukan adalah:
HTTP/1.1 503 Service Unavailable: Back-end server is at capacity
Tidak ada alarm (CPU / Disk IO / DB Conn) dipicu oleh CloudWatch. Saya mencoba mengunjungi situs melalui IP elastis untuk melewati ELB dan mendapatkan ini:
HTTP request sent, awaiting response... Read error (Connection reset by peer) in headers. Retrying.
Saya tidak melihat sesuatu yang luar biasa di log apache dan memverifikasi bahwa mereka diputar dengan benar. Saya tidak punya masalah mengakses mesin ketika "turun" melalui SSH dan melihat daftar proses saya melihat 151 proses apache2 yang tampak normal bagi saya. Restart apache sementara memperbaiki masalah. Mesin ini beroperasi hanya sebagai server web di belakang ELB. Setiap saran akan sangat dihargai.
CPU Utilization Average: 7,45%, Minimum: 0,00%, Maksimal: 25,82%
Penggunaan Memori Rata-Rata: 11,04%, Minimum: 8,76%, Maksimal: 13,84%
Rata-rata Pemanfaatan Tukar: N / A, Minimum: N / A, Maksimum: N / A
Pemanfaatan Ruang Disk untuk / dev / xvda1 dipasang pada / Rata-rata: 62,18%, Minimum: 53,39%, Maksimum: 65,49%
Biarkan saya mengklarifikasi saya pikir masalahnya adalah dengan contoh EC2 individu dan bukan ELB saya hanya tidak ingin mengesampingkan itu meskipun saya tidak dapat mencapai IP elastis. Saya menduga ELB baru saja mengembalikan hasil dari memukul contoh EC2 yang sebenarnya.
Pembaruan: 2014-08-26 Saya seharusnya memperbarui ini lebih cepat tetapi "perbaikan" adalah untuk mengambil snapshot dari contoh "buruk" dan memulai AMI yang dihasilkan. Tidak turun sejak saat itu. Saya memang melihat pemeriksaan kesehatan ketika saya masih mengalami masalah dan bisa sampai ke halaman pemeriksaan kesehatan ( curl http://localhost/page.html
) bahkan ketika saya mendapatkan masalah kapasitas dari load balancer. Saya tidak yakin itu masalah pemeriksaan kesehatan, tetapi karena tidak ada orang, termasuk Amazon, yang dapat memberikan jawaban yang lebih baik, saya menandainya sebagai jawabannya. Terima kasih.
Pembaruan: 2015-05-06 Saya pikir saya akan kembali ke sini dan mengatakan bahwa bagian dari masalah yang sekarang saya yakini dengan kuat adalah pengaturan pemeriksaan kesehatan. Saya tidak ingin mengesampingkan masalah mereka dengan AMI karena pasti akan menjadi lebih baik setelah AMI pengganti diluncurkan tetapi saya menemukan bahwa pemeriksaan kesehatan kami berbeda untuk setiap penyeimbang beban dan yang memiliki masalah terbesar. memiliki batas tidak sehat yang sangat agresif dan batas waktu respons. Lalu lintas kami cenderung melonjak tak terduga dan saya pikir antara pengaturan pemeriksaan kesehatan yang agresif dan lonjakan lalu lintas itu adalah badai yang sempurna.