Saya telah melihat perilaku aneh pada kluster HA 2-server dan saya berharap seseorang dapat mengkonfirmasi kecurigaan saya, atau mungkin menawarkan beberapa penjelasan lain ... Ini adalah pengaturan saya:
- Instalasi 2-server SQL 2012 SP1
- SQL AlwaysOn HA telah diaktifkan untuk beberapa database
- CPU-nya adalah 2,4GHz, 4 core
- RAM adalah 34 GB (ini adalah contoh AWS, karenanya angka ganjil)
- Pemanfaatan sumber daya relatif rendah - setiap server memiliki memori 14+ GB gratis, dan SQL tidak dibatasi pada berapa banyak memori yang digunakan
- Waktu akses disk baik-baik saja - jarang melebihi 15 ms / Baca atau Tulis
- Database tidak besar - 1 GB, 1,5 GB, 7,5 GB
- Proses SQL server menggunakan 16 GB Private Bytes, 15 GB Working Set
Secara keseluruhan, tidak ada masalah sumber daya yang dicatat. Sekarang untuk bagian yang aneh. SQL tidak dimulai kembali (proses telah berjalan selama hampir 6 bulan) tetapi tampaknya setiap ~ 50 hari, penghitung Page Life Expectancy turun menjadi (hampir) 0. Hingga saat itu ia terus naik, tidak ada tetes. Berikut adalah grafik perf:
Ketika saya melihat data penghitung (saya tidak memiliki angka pastinya, hanya agregasi per jam) tampaknya nilai penghitung PLE mencapai sekitar 4.295.000 detik (kira-kira 50 hari) setiap waktu (setidaknya setiap kali saya memiliki data).
Teori gila saya adalah bahwa nomor PLE disimpan dalam milidetik sebagai int panjang yang tidak ditandatangani (yang memiliki batas 4.294.967.295) dan pada 49,71 hari ia me-reset, baik dengan desain, atau karena bug. Ini akan menjelaskan perilaku dua server dan pola identik yang mereka miliki. Atau bisa jadi sesuatu yang sama sekali berbeda dan saya tidak masuk akal. :)
Adakah yang melihat sesuatu seperti itu, atau dapat menjelaskan perilaku ini?
PS Saya melihat posting ini , tetapi kasus saya tampaknya sedikit berbeda.
PPS Ini adalah repost - Saya awalnya mempostingnya di sini , tetapi disarankan audiens di sini lebih tepat.
Terima kasih!