Saya mencoba memahami alasannya dengan memilih pendekatan tes khusus ketika berhadapan dengan tes A / B sederhana - (yaitu dua variasi / grup dengan binary respone (dikonversi atau tidak). Sebagai contoh saya akan menggunakan data di bawah ini
Version Visits Conversions
A 2069 188
B 1826 220
Jawaban teratas di sini bagus dan berbicara tentang beberapa asumsi yang mendasari uji z, t dan chi square. Tapi yang saya temukan membingungkan adalah sumber daya online yang berbeda akan mengutip pendekatan yang berbeda, dan Anda akan berpikir asumsi untuk tes A / B dasar harus hampir sama?
- Misalnya, artikel ini menggunakan skor-z :
- Artikel ini menggunakan rumus berikut (yang saya tidak yakin apakah berbeda dengan perhitungan zscore?):
- Makalah ini referensi uji t (p 152):
Jadi argumen apa yang bisa dibuat untuk mendukung pendekatan yang berbeda ini? Mengapa seseorang memiliki preferensi?
Untuk memasukkan satu kandidat lagi, tabel di atas dapat ditulis ulang sebagai tabel kontingensi 2x2, di mana uji eksak Fisher (p5) dapat digunakan
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Tetapi menurut thread ini , tes fisher hanya dapat digunakan dengan ukuran sampel yang lebih kecil (apa cut-nya?)
Dan kemudian ada tes t dan z berpasangan, uji f (dan regresi logistik, tapi saya ingin meninggalkan itu untuk saat ini) .... Saya merasa seperti tenggelam dalam pendekatan uji yang berbeda, dan saya hanya ingin dapat buat semacam argumen untuk berbagai metode dalam kasus uji A / B sederhana ini.
Menggunakan contoh data saya mendapatkan nilai-p berikut
https://vwo.com/ab-split-test-significance-calculator/ memberikan nilai-p 0,001 (skor-z)
http://www.evanmiller.org/ab-testing/chi-squared.html (menggunakan uji chi square) memberikan nilai-p 0,00259
Dan di R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
memberikan nilai-p 0,002785305
Yang saya kira semuanya cukup dekat ...
Pokoknya - hanya berharap untuk diskusi sehat tentang pendekatan apa yang akan digunakan dalam pengujian online di mana ukuran sampel biasanya dalam ribuan, dan rasio respons sering 10% atau kurang. Naluri saya mengatakan kepada saya untuk menggunakan chi-square, tetapi saya ingin dapat menjawab dengan tepat mengapa saya memilihnya daripada banyak cara lain untuk melakukannya.