Saya mencoba untuk mengatur cluster Linux-HA aktif / pasif (2 node) dengan corosync dan alat pacu jantung untuk memegang dan menjalankan PostgreSQL-Database. Ini bekerja melalui DRBD dan layanan-ip. Jika simpul1 gagal, simpul2 harus mengambil alih. Sama jika PG berjalan pada node2 dan gagal. Semuanya berfungsi dengan baik kecuali hal STONITH.
Antara node adalah koneksi-HA khusus (10.10.10.X), jadi saya memiliki konfigurasi antarmuka berikut:
eth0 eth1 host node1 node2
Stonith diaktifkan dan saya menguji dengan ssh-agent untuk membunuh node.
crm configure property stonith-enabled=true
crm configure property stonith-action=poweroff
crm configure rsc_defaults resource-stickiness=100
crm configure property no-quorum-policy=ignore
crm configure primitive stonith_postgres stonith:external/ssh \
params hostlist="node1 node2"
crm configure clone fencing_postgres stonith_postgres
crm_mon -1
Last updated: Mon Mar 19 15:21:11 2012
Stack: openais
Current DC: node2 - partition with quorum
Version: 1.0.9-74392a28b7f31d7ddc86689598bd23114f58978b
2 Nodes configured, 2 expected votes
4 Resources configured.
Online: [ node2 node1 ]
Full list of resources:
Master/Slave Set: ms_drbd_postgres
Masters: [ node1 ]
Slaves: [ node2 ]
Resource Group: postgres
fs_postgres (ocf::heartbeat:Filesystem): Started node1
virtual_ip_postgres (ocf::heartbeat:IPaddr2): Started node1
postgresql (ocf::heartbeat:pgsql): Started node1
Clone Set: fencing_postgres
Started: [ node2 node1 ]
Masalahnya adalah: ketika saya memutuskan koneksi antara eth0-interface, itu membunuh kedua node . Saya pikir ini masalah dengan kuorum, karena hanya ada 2 simpul. Tetapi saya tidak ingin menambahkan simpul ke-3 hanya untuk perhitungan kuorum yang tepat.
Apakah ada ide untuk menyelesaikan masalah ini?
ketika cluster Anda dalam kondisi gagal?