Ini adalah jawaban untuk @vinesh serta melihat prinsip umum dalam pertanyaan awal.
Sebenarnya ada 2 masalah di sini dengan beberapa perbandingan: karena kami meningkatkan jumlah perbandingan yang dibuat, kami memiliki lebih banyak informasi yang membuatnya lebih mudah untuk melihat perbedaan nyata, tetapi peningkatan jumlah perbandingan juga membuatnya lebih mudah untuk melihat perbedaan yang tidak ada (Positif palsu, pengerukan data, menyiksa data sampai ia mengaku).
Pikirkan kelas dengan 100 siswa, masing-masing siswa diberi koin yang adil dan disuruh membalik koin 10 kali dan menggunakan hasilnya untuk menguji hipotesis nol bahwa proporsi kepala adalah 50%. Kami akan mengharapkan nilai-p berkisar antara 0 dan 1 dan kebetulan kami berharap untuk melihat sekitar 5 siswa mendapatkan nilai-p kurang dari 0,05. Bahkan kami akan sangat terkejut jika tidak satupun dari mereka memperoleh nilai p kurang dari 0,05 (kemungkinan kurang dari 1% dari hal itu terjadi). Jika kita hanya melihat beberapa nilai penting dan mengabaikan yang lain maka kita akan secara keliru menyimpulkan bahwa koin-koin itu bias, tetapi jika kita menggunakan teknik yang memperhitungkan beberapa perbandingan, maka kita kemungkinan masih akan menilai dengan benar bahwa koin itu adil. (atau setidaknya gagal untuk menolak bahwa mereka atau adil).
Di sisi lain, pertimbangkan kasus serupa di mana kami memiliki 10 siswa yang melempar dadu dan menentukan apakah nilainya ada di set {1,2,3} atau set {4,5,6} yang masing-masing akan memiliki 50% kesempatan setiap gulungan jika dadu itu adil (tetapi bisa berbeda jika dadu dicurangi). Semua 10 siswa menghitung nilai-p (nol adalah 50%) dan mendapatkan nilai antara 0,06 dan 0,25. Sekarang dalam kasus ini tidak satupun dari mereka mencapai keajaiban 5% cut-off, jadi melihat setiap hasil siswa tidak akan menghasilkan deklarasi yang tidak adil, tetapi semua nilai-p kurang dari 0,5, jika semua dadu adil maka nilai-p harus didistribusikan secara seragam dan memiliki peluang 50% berada di atas 0,5. Peluang mendapatkan 10 nilai p independen semuanya kurang dari 0,5 ketika nol benar adalah kurang dari keajaiban 0,05 dan ini menunjukkan bahwa dadu bias,
Sekarang membalik koin dan mati bergulir sedikit dibuat-buat, jadi contoh yang berbeda: Saya punya obat baru yang ingin saya uji. Anggaran saya memungkinkan saya untuk menguji obat pada 1.000 subjek (ini akan menjadi perbandingan berpasangan dengan masing-masing subjek menjadi kontrol mereka sendiri). Saya sedang mempertimbangkan 2 desain studi yang berbeda, pada awalnya saya merekrut 1.000 subjek melakukan penelitian dan melaporkan nilai-p tunggal. Dalam desain kedua saya merekrut 1.000 subjek tetapi memecahnya menjadi 100 kelompok masing-masing 10, saya melakukan studi pada masing-masing 100 kelompok 10 dan menghitung nilai p untuk setiap kelompok (100 total nilai p). Pikirkan tentang perbedaan potensial antara 2 metodologi dan bagaimana kesimpulan bisa berbeda. Pendekatan obyektif akan mengharuskan kedua desain penelitian mengarah pada kesimpulan yang sama (mengingat 1.000 pasien yang sama dan yang lainnya sama).
@mljrg, mengapa Anda memilih untuk membandingkan g1 dan g2? Jika ini adalah pertanyaan yang menarik sebelum mengumpulkan data, maka nilai p MW masuk akal dan bermakna, namun jika Anda melakukan tes KW, maka cari tahu 2 kelompok mana yang paling berbeda dan lakukan uji MW hanya pada mereka yang terlihat paling berbeda, maka asumsi untuk uji MW dilanggar dan nilai p MW tidak ada artinya dan nilai p KW adalah satu-satunya dengan makna potensial.