Server Xen saya adalah openSUSE 11.1 dengan open-iscsi untuk kluster SAN iSCSI kami. Modul SAN berada dalam grup IP failover di belakang IP virtual yang terhubung oleh pemrakarsa.
Jika server SAN utama turun, sekunder mengambil peran melayani sebagai target. Ini semua ditangani oleh perangkat lunak LeftHand SAN / iQ dan berfungsi dengan baik di sebagian besar situasi.
Masalah yang saya miliki adalah bahwa kadang-kadang beberapa Xen DomUs saya akan membuat sistem file root mereka hanya baca setelah IP failover. Itu tidak konsisten, dan terjadi pada subset yang berbeda setiap kali terjadi failover. Mereka semua menjalankan citra perangkat lunak openSUSE 11.1 yang sama.
Root filesystems untuk setiap DomU dipasang oleh open-iscsi di Dom0 dan kemudian Xen menggunakan driver perangkat blok standar untuk mengeksposnya ke DomU.
Gejala yang tepat adalah bahwa sebagai root saat menjalankan touch /test
mengembalikan kesalahan "read-only filesystem". Namun, output mount
menunjukkan itu sedang dipasang baca-tulis. Tentu saja, semua I / O lain di domU juga gagal pada saat ini sehingga mesin turun keras. Cukup restart dengan xm
dari Dom0 bahkan tanpa menghubungkan kembali sesi iSCSI membuat semuanya berfungsi kembali.
Di sisi Dom0 pesan syslog selama fail-over adalah sesuatu seperti berikut:
kernel: connection1:0: iscsi: detected conn error (1011)
iscsid: Kernel reported iSCSI connection 1:0 error (1011) state (3)
iscsid: connection1:0 is operational after recovery (1 attempts)
Saya mengalami kesulitan mencari tahu pada layer apa untuk debug masalah ini, apakah itu sesuatu di kernel DomU? atau di level Dom0 atau Xen? Saya pikir kemungkinan ada beberapa parameter di suatu tempat yang perlu diubah untuk meningkatkan semacam waktu tunggu, tapi saya tidak yakin ke mana harus mencari.
Saya tidak berpikir itu masalah dengan open-iscsi hanya karena perangkat blok yang terhubung masih dapat dibaca dan ditulis dari Dom0.