Validasi tes a / b web dengan menjalankan kembali percobaan - apakah ini valid?

Suatu hari webinar oleh perusahaan pengujian a / b telah meminta penduduk mereka "Data Scientist" menjelaskan bahwa Anda harus memvalidasi hasil Anda dengan menjalankan kembali percobaan. Premisnya adalah, jika Anda memilih kepercayaan 95%, ada kemungkinan 5% (1/20) dari false positive. Jika Anda menjalankan kembali percobaan dengan kendala yang sama, sekarang ada 1/400 (Saya berasumsi mereka menentukan ini sebagai 0,05 ^ 2 = 1/400)

Apakah ini pernyataan yang valid? (yaitu, "jalankan dua kali, dua kemenangan signifikansi statistik = 1/400 probabilitas positif palsu")? Apakah ini akan menjadi pendekatan yang lebih baik untuk meningkatkan level signifikansi Anda?

Dari sudut pandang bisnis, kekhawatiran yang saya miliki adalah dengan menjalankan kembali eksperimen, Anda mengekspos lebih banyak pengguna ke halaman yang lebih rendah (pengobatan), dan dengan demikian kehilangan potensi penjualan.

— John
sumber

Hai John, selamat datang di Stats.SE! Jika Anda puas dengan salah satu jawaban, Anda harus menerima salah satunya, atau memberikan lebih banyak pertanyaan klarifikasi tentang apa yang Anda cari.

— Christopher Aden

John, saya curiga masalah sebenarnya menyangkut konteks. Jarang orang akan mendedikasikan sumber daya untuk mempelajari hanya satu hal pada satu waktu: mereka ingin memaksimalkan data mereka, untuk alasan yang baik. Itu berarti bahwa setiap dataset akan digunakan untuk beberapa tes. Selain itu, kadang-kadang tes adalah post hoc : mereka terinspirasi oleh pola yang terlihat dalam data. Dalam kasus seperti itu, tes tidak benar-benar memiliki kepercayaan diri dan replikasi yang diinginkan 95% (atau apa pun) sangat penting. Jadi: apa tepatnya yang Anda maksud dengan "eksperimen"? Jawabannya bergantung pada detail kecil itu!

— whuber

Tentang pengulangan percobaan dan nilai signifikansi, periksa komik XKCD ini : xkcd.com/882 Setelah membacanya, periksa komentar whuber di atas.

— Lucas Gallindo

whuber: maaf karena kurang detail, saya mereferensikan pengoptimalan situs web, jadi contoh percobaan akan menguji coba dua versi beranda saya, dengan masing-masing 50/50 pengguna.

— John

Jawaban:

Mengabaikan probabilitas false positive untuk saat ini, saya akan melihatnya seperti ini:

Jika Anda menjalankan percobaan dua kali untuk mendapatkan hasil yang sama, Anda tidak tahu apakah ada dua hasil positif benar atau dua hasil positif palsu berturut-turut.
Jika Anda menjalankan percobaan dua kali dan mendapatkan dua hasil yang berbeda, maka Anda tidak tahu mana yang positif benar dan yang mana hasil positif palsu.

Dalam kedua kasus, Anda harus menjalankan percobaan ketiga, hanya untuk memastikan. Ini mungkin bagus untuk eksperimen yang relatif murah, tetapi di mana biayanya berpotensi tinggi (seperti kehilangan pelanggan) Anda benar-benar perlu mempertimbangkan manfaatnya.

Melihat probabilitas, pertama kali Anda menjalankan percobaan, ada peluang 1/20 dari hasil positif palsu. Saat kedua Anda menjalankan percobaan, masih ada peluang 1/20 dari hasil positif palsu (anggap itu sebagai menggulung dadu di mana setiap gulungan memiliki 1/6 peluang untuk mendapatkan nomor tertentu). Hanya ada 1/400 kemungkinan memiliki dua kesalahan positif berturut-turut.

Masalah sebenarnya adalah memiliki hipotesis yang terdefinisi dengan baik dengan prosedur yang ketat, dan memiliki ukuran sampel, tingkat kesalahan, dan interval kepercayaan yang dapat Anda jalani atau mampu. Pengulangan percobaan harus diserahkan kepada penjelajahan

pelanggan dari waktu ke waktu
perubahan yang dilakukan oleh organisasi
perubahan yang dilakukan oleh kompetisi

alih-alih hasil tebakan kedua. Meskipun menjelaskan hal ini kepada manajer lebih mudah diucapkan daripada dilakukan.

— mjc
sumber

mjc, terima kasih banyak atas komentarnya - inilah tepatnya yang saya cari.

— John

Ya pernyataan itu benar, dengan asumsi eksperimen Anda ideal. Tetapi mendapatkan eksperimen yang ideal jauh lebih sulit daripada kepercayaan ini. Data "dunia nyata" berantakan, rumit, dan sulit ditafsirkan sejak awal. Ada ruang yang luar biasa untuk analisis cacat, variabel tersembunyi (sangat jarang ada "kendala yang sama"), atau miskomunikasi antara ilmuwan data yang melakukan pekerjaan mereka dan eksekutif yang melakukan tugas mereka.

Dari sudut pandang bisnis, pastikan metodologi yang baik dan tidak terlalu percaya diri dalam hasil; tantangan yang lebih sulit dari yang Anda kira. Setelah Anda menurunkannya, maka kerjakan 5% itu.

— eric chiang
sumber

Terima kasih, itu menjawab pertanyaan pertama. Bagaimana dengan pertanyaan kedua: "Apakah itu akan menjadi pendekatan yang lebih baik untuk meningkatkan tingkat signifikansi Anda?" Hanya melakukan simulasi cepat dalam R (menjaga ukuran efek dan kekuatan yang sama, hanya mengubah nilai signifikansi) saya bisa mengumpulkan ~ 4,8% lebih sedikit data dengan hanya memilih 97,5% signifikansi, daripada menjalankan eksperimen 2X pada signifikansi 95%. Saya harus mengklarifikasi - ketika saya bertanya "Apakah lebih baik .." Maksud saya, dapatkah saya mencapai hasil akhir yang sama dengan mengumpulkan lebih sedikit data.

— John