Kami memiliki server Graphite untuk mengumpulkan data melalui collectd, statsd, JMXTrans ... Sejak beberapa hari, kami sering memiliki lubang di data kami. Menggali data yang masih kita miliki, kita dapat melihat peningkatan ukuran cache karbon (dari 50K ke 4M). Kami tidak melihat peningkatan dalam jumlah metrik yang dikumpulkan (metricsReceived stabil di sekitar 300K). Kami memiliki peningkatan jumlah kueri dari 1000 menjadi 1500 rata-rata.
Anehnya, cpuUsage berkurang sedikit dari 100% (kami memiliki 4 CPU) hingga 50% ketika ukuran cache meningkat.
Anehnya lagi, kita melihat peningkatan jumlah jika oktet membaca dari disk, dan penurunan jumlah oktet yang ditulis.
Kami memiliki konfigurasi karbon sebagian besar dengan nilai default:
- MAX_CACHE_SIZE = inf
- MAX_UPDATES_PER_SECOND = 5000
- MAX_CREATES_PER_MINUTE = 2000
Jelas, sesuatu telah berubah dalam sistem kami, tetapi kami tidak mengerti apa, atau bagaimana kami dapat menemukan penyebab ini ...
Ada bantuan?