Bagaimana saya keluar dari situasi ini dengan aman?
Detailnya adalah sebagai berikut:
Server xen memiliki perangkat blok yang dialokasikan untuk VM. Tetapi perangkat ini juga telah dipasang di dalam Xen.
Bahkan 44 dari perangkat blok ini telah dipasang seperti ini. Untuk membuat keadaan menjadi lebih buruk, setiap perangkat fisik terlihat di 4 jalur dan masing-masing dipasang pada titik mount terpisah. Dengan kata lain perangkat sebenarnya dipasang masing-masing 5 kali.
VM guest OS melihat path melalui perangkat pseudo PowerPath (dialokasikan sebagai perangkat phy: blok ke domU)
Beberapa perangkat diformat sebagai ext2 dan reiserfs.
Tidak perlu menjelaskan kepada saya risiko korupsi sistem file yang terlibat di sini.
Saya takut bahwa bahkan hanya melepas sistem file dapat menyebabkan korupsi, dan merasa bahwa pada titik ini menarik daya dari tuan rumah, adalah opsi paling aman .
Perhatikan bahwa aplikasi, database Oracle untuk sebagian besar, di semua VM masih berjalan dan digunakan.
Saya menemukan ini ketika menyelidiki penggunaan CPU yang tinggi pada dom0. Ada proses "find" yang tidak dapat digunakan, dengan cwd -> / media / disk-12 yang di-mount dari / dev / sdf1, yang merupakan milik / dev / emcpowerr
Sebelum ada yang bertanya, satu kali saya melihat proses tidak dapat dimatikan dan terus menggunakan CPU dan RAM (tidak seperti proses zombie / mati), adalah ketika ada I / Os yang memiliki komitmen, mis. Sinkronisasi dikembalikan tetapi tidak secara fisik pada disk . Lebih umum ini terjadi pada rekaman I / O.
Saran!?
PS Saya berharap perangkat "dicadangkan" setelah dipasang, untuk mencegah hal semacam ini? Atau apakah itu tidak mungkin di Linux?
EDIT: Pertama saya yakin bahwa KDE di dalam hypervisor) adalah pelakunya. Sepertinya KDE sedang memasang perangkat yang dapat di-logging untuk membuat ikon desktop. Namun hal yang sama tidak terjadi pada server Xen lain, tetapi semua server lain menjalankan versi SLES dan KDE yang jauh lebih tua ... V4 tampaknya adalah yang menyinggung, dengan 3,4 berperilaku lebih baik).
Selain itu, dua VM yang tidak kritis telah digantung. Setelah mematikannya, mereka tidak mau boot lagi karena kerusakan sistem file. VM utama / produksi masih berjalan dan database di atasnya masih berfungsi, tetapi jelas ini adalah bom waktu. Pelanggan sedang mencoba untuk membangun kembali lingkungan pada VM lain di server lain tetapi terjebak pada masalah mengkonfigurasi beberapa komponen, jadi kami menunggu ...
Bagaimanapun saya merasa bahwa tidak ada jawaban sejauh ini lebih dari "praktik terbaik selalu ditutup dengan anggun" Dan saya berharap untuk mendapatkan sesuatu yang lebih konkret ... Bagaimanapun, saya merasa bahwa situasi ini mungkin memerlukan beberapa lebih hati-hati berpikir. Akankah mematikan menyebabkan IO yang beredar, khususnya sistem file meta, pembaruan data dari hypervisor, akan disinkronkan dan berpotensi menyebabkan kerusakan sistem file yang besar?