Mengapa salah menghentikan tes A / B sebelum ukuran sampel optimal tercapai?

Saya bertanggung jawab untuk mempresentasikan hasil tes A / B (dijalankan berdasarkan variasi situs web) di perusahaan saya. Kami menjalankan tes selama satu bulan dan kemudian memeriksa nilai-p pada interval reguler sampai kami mencapai signifikansi (atau mengabaikan jika signifikansi tidak tercapai setelah menjalankan tes untuk waktu yang lama), sesuatu yang sekarang saya temukan adalah praktik yang salah .

Saya ingin menghentikan latihan ini sekarang, tetapi untuk melakukan itu, saya ingin mengerti MENGAPA ini salah. Saya mengerti bahwa ukuran efek, ukuran sampel (N), kriteria signifikansi alfa (α) dan kekuatan statistik, atau beta yang dipilih atau tersirat (β) terkait secara matematis. Tetapi apa yang sebenarnya berubah ketika kita menghentikan pengujian kita sebelum kita mencapai ukuran sampel yang dibutuhkan?

Saya telah membaca beberapa posting di sini (yaitu ini , ini dan ini ), dan mereka memberi tahu saya bahwa perkiraan saya akan menjadi bias dan tingkat kesalahan Tipe 1 saya meningkat secara dramatis. Tetapi bagaimana itu bisa terjadi? Saya mencari penjelasan matematis , sesuatu yang jelas akan menunjukkan efek ukuran sampel pada hasil. Saya kira itu ada hubungannya dengan hubungan antara faktor-faktor yang saya sebutkan di atas, tetapi saya belum dapat menemukan formula yang tepat dan mengerjakannya sendiri.

Misalnya, menghentikan tes sebelum waktunya meningkatkan tingkat kesalahan Tipe 1. Baik. Tapi kenapa? Apa yang terjadi untuk meningkatkan tingkat kesalahan tipe 1? Saya kehilangan intuisi di sini.

Tolonglah.

— sgk
sumber

mungkin berguna evanmiller.org/how-not-to-run-an-ab-test.html

— seanv507

Ya saya pergi melalui tautan ini, tetapi saya hanya tidak mengerti contoh yang diberikan.

— sgk

maaf Gopalakrishnan - belum melihat bahwa tautan pertama Anda sudah menunjukkan itu.

— seanv507

Bisakah Anda menjelaskan apa yang tidak Anda mengerti. Matematika / intuisi tampak cukup jelas: tidak begitu banyak berhenti sebelum ukuran sampel yang diperlukan, tetapi berulang kali memeriksa. , jadi Anda tidak dapat menggunakan tes yang dirancang untuk pemeriksaan tunggal beberapa kali.

P (\cup_{i \in 1 \dots N} x_{i} > θ) \geq P (x_{N} > θ)

$P(\cup _{i \in 1\dots N} x_i>\theta) \ge P( x_N>\theta)$

— seanv507

@GopalakrishnanShanker penjelasan matematis yang diberikan dalam jawaban saya

— tomka

Jawaban:

Tes A / B yang hanya menguji berulang kali pada data yang sama dengan tingkat kesalahan tipe-1 tetap ( ) secara mendasar cacat. Setidaknya ada dua alasan mengapa demikian. Pertama, tes berulang berkorelasi tetapi tes dilakukan secara independen. Kedua, fixed tidak memperhitungkan tes yang dilakukan multipel yang mengarah ke inflasi kesalahan tipe-1. $\alpha$ $\alpha$

Untuk melihat yang pertama, asumsikan bahwa pada setiap pengamatan baru Anda melakukan tes baru. Jelas bahwa dua nilai p selanjutnya akan dikorelasikan karena kasus tidak berubah di antara kedua tes. Akibatnya kita melihat tren dalam plot @ Bernhard yang menunjukkan keterkaitan nilai-p ini. $n-1$

Untuk melihat yang kedua, kami mencatat bahwa bahkan ketika tes independen kemungkinan memiliki nilai p di bawah meningkat dengan jumlah tes mana adalah peristiwa hipotesis nol ditolak palsu. Jadi probabilitas untuk memiliki setidaknya satu hasil tes positif bertentangan dengan ketika Anda berulang kali menguji a / b. Jika kemudian berhenti setelah hasil positif pertama, Anda hanya akan menunjukkan kebenaran rumus ini. Dengan kata lain, meskipun hipotesis nol itu benar Anda pada akhirnya akan menolaknya. Tes a / b dengan demikian adalah cara utama untuk menemukan efek di mana tidak ada. $\alpha$ $t$

P (A) = 1 - (1 - α)^{t},

$P(A) = 1-(1-\alpha)^t,$

A

$A$

1

$1$

Karena dalam situasi ini baik korelasi dan pengujian berganda pada saat yang sama, nilai p dari uji bergantung pada nilai p dari . Jadi jika Anda akhirnya mencapai , Anda kemungkinan akan tinggal di wilayah ini untuk sementara waktu. Anda juga dapat melihat ini di plot @ Bernhard di wilayah 2500 hingga 3500 dan 4000 hingga 5000. $t+1$ $t$ $p< \alpha$

Beberapa pengujian per-se adalah sah, tetapi pengujian terhadap fixed tidak. Ada banyak prosedur yang berhubungan dengan prosedur pengujian berganda dan tes berkorelasi. Satu keluarga koreksi uji disebut kontrol tingkat kesalahan bijak keluarga . Apa yang mereka lakukan adalah memastikan $\alpha$

P (A) \leq α .

$P(A) \le \alpha.$

Penyesuaian yang bisa dibilang paling terkenal (karena kesederhanaannya) adalah Bonferroni. Di sini kita mengatur yang dapat dengan mudah ditunjukkan bahwa jika jumlah tes independen besar. Jika tes berkorelasi cenderung konservatif, . Jadi penyesuaian termudah yang bisa Anda lakukan adalah membagi tingkat alfa Anda dengan jumlah tes yang telah Anda buat.

α_{a d j} = α / t,

$\alpha_{adj} = \alpha/t,$

P (A) \approx α

$P(A) \approx \alpha$

P (A) < α

$P(A) < \alpha$

0.05

$0.05$

Jika kita menerapkan Bonferroni ke simulasi @ Bernhard, dan memperbesar ke interval pada sumbu y, kita menemukan plot di bawah ini. Untuk jelasnya saya berasumsi kita tidak menguji setelah setiap koin flip (percobaan) tetapi hanya setiap seratus. Garis putus-putus hitam adalah standar terputus dan garis putus-putus merah adalah penyesuaian Bonferroni. $(0,0.1)$ $\alpha = 0.05$

Seperti yang kita lihat penyesuaian itu sangat efektif dan menunjukkan betapa radikalnya kita harus mengubah nilai-p untuk mengendalikan tingkat kesalahan bijaksana keluarga. Secara khusus kami sekarang tidak menemukan tes signifikan lagi, sebagaimana mestinya karena hipotesis nol @ Berhard adalah benar.

Setelah melakukan ini, kami mencatat bahwa Bonferroni sangat konservatif dalam situasi ini karena tes berkorelasi. Ada tes superior yang akan lebih berguna dalam situasi ini dalam arti memiliki , seperti tes permutasi . Juga ada banyak hal yang bisa dikatakan tentang pengujian daripada sekadar merujuk pada Bonferroni (misalnya mencari tingkat penemuan palsu dan teknik Bayesian terkait). Namun demikian ini menjawab pertanyaan Anda dengan jumlah matematika minimum. $P(A) \approx \alpha$

Ini kodenya:

set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)

p.values <- numeric(n)
for (i in 5:n){
  p.values[i] <- binom.test(table(toss[1:i]))$p.value
}
p.values = p.values[-(1:6)]
plot(p.values[seq(1, length(p.values), 100)], type="l", ylim=c(0,0.1),ylab='p-values')
abline(h=0.05, lty="dashed")
abline(v=0)
abline(h=0)
curve(0.05/x,add=TRUE, col="red", lty="dashed")

— Tomka
sumber

Ini bekerja untuk saya. Saya harus menerjemahkan ini ke bisnis-bicara untuk menyampaikan maksud saya kepada senior saya sekarang, tapi itu masalah saya sendiri. Terima kasih banyak

— sgk

Jika hipotesis nol itu benar, maka orang sering berharap nilai p menjadi sangat tinggi. Ini tidak benar. Jika hipotesis nol benar, maka p adalah variabel acak terdistribusi seragam. Artinya, bahwa dari waktu ke waktu akan berada di bawah 0,05 hanya secara acak. Jika Anda melihat banyak subsampel yang berbeda, terkadang nilai p akan di bawah 0,05.

Untuk membuatnya lebih mudah dipahami, berikut ini adalah simulasi kecil di R:

Ini akan melempar koin 10.000 kali dan kami tahu, itu adalah koin yang adil:

set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)

Mulai dari lemparan ke-5, ini akan melakukan tes binomial untuk keadilan setelah setiap lemparan dan menyimpan nilai p:

p.values <- numeric(n)
for (i in 5:n){
     p.values[i] <- binom.test(table(toss[1:i]))$p.value
}

Dan ini akan memplot nilai p satu demi satu:

plot(p.values, type="l")
abline(h=0.05)

$H_0$ $H_0$

(Agar terbuka sempurna, saya sudah mencoba lebih dari satu seed untuk generator angka sebelum sejelas contoh ini, tapi itu adil untuk tujuan pendidikan. Jika Anda telah Rmenginstal dan menjalankan, Anda dapat dengan mudah bermain dengan angka-angka .)

— Bernhard
sumber

Terima kasih atas percobaan sederhana ini. Tetapi katakan saya menghentikan tes pada satu tahap seperti itu (ketika nilai-p <0,05), apa yang akan berarti hasil saya? (Selain fakta bahwa itu salah). Apakah mungkin bagi saya untuk mengkompensasi dengan mengurangi ambang nilai p?

— sgk

+1 Catat tes yang berkorelasi dan beberapa masalah pengujian terkait. Lihat jawaban saya yang diperluas dengan opsi penyesuaian di bawah ini, berdasarkan pada contoh Anda (sangat bagus).

— Tomka

α

$\alpha$

α

$\alpha$

Poin utama saya adalah mengendalikan tingkat kesalahan bijak keluarga (FWER) atau false discovery rate (FDR) yang menargetkan kesalahan tipe-1. Mengontrol kesalahan tipe-2 kurang menjadi masalah dalam tes a / b karena sampel yang biasanya sangat besar.

— Tomka

p = 0.05

$p=0.05$