Sayangnya sepertinya kita mungkin tidak mendapatkan ke bagian bawah aplikasi apa itu, tapi untuk mendapatkan beberapa nilai dari kejadian ini, saya ingin membuat jawaban referensi. Ini adalah VMware dan centric manajemen lapisan virtual. Banyak admin yang terpisah, dan tidak bisa mendapatkan akses tamu atau penyimpanan dengan cepat, dan ini untuk mereka :)
http://support.seagate.com/kbimg/flash/laptop/Laptop.swf tampaknya merupakan kecocokan terdekat dengan aplikasi aktual, yang ditemukan oleh @MosheKatz.
Jika ini terjadi di masa depan, penyelidikan harus seperti berikut:
- Anda perhatikan beberapa tetapi tidak semua VM mengalami crash. Anda menduga ini karena masalah penyimpanan (karena biasanya penyebabnya paling mungkin)
- Pertama-tama cobalah untuk mengisolasi faktor umum. Apakah semua VM yang macet berbagi datastore yang sama? Dalam kasus ini, tetapi beberapa Mesin tidak masalah, jadi kami mengesampingkan masalah perangkat keras yang jelas.
- Periksa semua VM yang rusak untuk melihat apakah ada faktor umum (waktu, fungsi dll). Dalam hal ini tidak ada.
Periksa kejadian tidak biasa lainnya. Sesuatu mengibarkan bendera di sini:
- Penyimpanan NFS didukung tipis (pada level array). Ini berarti bahwa meskipun misalnya. 200GB disajikan ke host ESXi, pada kenyataannya hanya 100GB yang tersedia. Namun hanya array yang memiliki pengetahuan ini. Apa yang kami temukan adalah sejumlah VM dihentikan sementara karena kehabisan ruang disk. Kami pikir ini mungkin merupakan penyebab utama, jadi tindakan pertama kami adalah mengalokasikan lebih banyak penyimpanan di bagian belakang, untuk menghapus ini sebagai masalah.
Setelah ini diselesaikan (perubahan UI sederhana), dan VM yang dijeda mulai kembali dengan sukses, kami kembali ke masalah semula. Kami memasang disk virtual dari VM yang rusak ke VM yang berfungsi, dan melihat bahwa tidak ada tabel partisi pada disk. Kami tidak memiliki hex viewer yang tersedia, jadi harus mengasumsikan disk sekarang kosong.
Sistem pemantauan memberi tahu VM baru yang tidak merespons. Ini hebat, karena banyak VM punya menit sebelum hanya berubah tidak responsif karena masalah ruang disk, sehingga fakta VM baru ini ditemukan dengan cepat adalah tanda administrasi pemantauan yang baik.
Kami membuka konsol dan memeriksa tamu, dan melihat layar ambil di atas.
- Pada tahap ini saya pergi ke ruang obrolan kesalahan server untuk melihat apakah program dapat diidentifikasi, sementara rekan penyimpanan saya memeriksa semua log layer virtual dan acara, untuk memastikan tidak ada operasi penyimpanan yang berjalan dari daerah kami.
- Apa yang seharusnya kita lakukan adalah menangguhkan VM, mengizinkan file menangguhkan untuk ditulis, dan menganalisis dump untuk melihat apakah program yang berjalan dapat diidentifikasi. Tangguhkan VM ke inti PDF, VMware KB
Pada akhirnya, kami tahu dan alat infrastruktur virtual tidak akan melaporkan dalam tamu seperti yang dilakukan di atas. Kami bisa melihat tidak ada ISO yang dipasang, dan tidak ada peristiwa yang dicatat terhadap VM. Kita bisa melihat VM bukan "hard power cycled", hanya soft restart (ini tidak terlihat oleh infrastruktur yang mendasarinya). Kami tahu itu bukan sisi penyimpanan karena kami sudah mengesampingkan itu. Kami menduga itu tidak otomatis karena terjadi selama beberapa jam pada VM tertentu. Kami menduga itu tidak berbahaya karena mengapa konsol akan melaporkan Disk Wipe jika itu :)
Jadi, kesimpulannya adalah pengguna menghapus disk. Itu sejauh investigasi saya berjalan, tapi saya harap Anda menemukan itu berguna.
Pelajaran yang Dipetik:
- Cadangkan dan uji pemulihan Anda
- Pastikan semua pengguna, khususnya admin pengguna, tahu mereka bekerja di lingkungan yang disediakan tipis, dan harus menghindari apa pun seperti format disk write-out (mis. Menulis banyak 1
- Memiliki sistem pemantauan yang baik.
- Dan yang baru bagi saya: Di lingkungan virtual yang besar, siapkan alat VM, bahkan dimatikan, dengan alat diagnostik diinstal; kinerja, penyimpanan jaringan. Jika ini tersedia, kita bisa memasang dan melakukan hex dump pada disk yang rusak untuk melihat apakah itu benar-benar kosong, atau hanya kehilangan mbr. Kita juga bisa melihat apakah itu ditulis dengan angka 1.