Saya mempelajari statistik bertahun-tahun yang lalu dan telah melupakan semuanya sehingga ini mungkin tampak seperti pertanyaan konseptual umum daripada yang spesifik tetapi di sini adalah masalah saya.
Saya bekerja untuk situs web e-commerce sebagai Desainer UX. Kami memiliki kerangka kerja pengujian A / B yang dibangun bertahun-tahun lalu dan saya mulai meragukannya.
Metrik yang membuat semua keputusan kami dikenal sebagai konversi, dan didasarkan pada persentase pengguna yang mengunjungi situs, akhirnya membeli sesuatu.
Jadi kami ingin menguji mengubah warna tombol Beli dari Hijau ke Biru.
Kontrol adalah apa yang sudah kita miliki, tombol Hijau di mana kita tahu berapa tingkat konversi rata-rata kita. Percobaan ini mengganti tombol Hijau dengan tombol Biru.
Kami setuju signifikansi 95% adalah tingkat kepercayaan yang kami senangi dan kami aktifkan eksperimen, biarkan berjalan.
Ketika pengguna mengunjungi situs, di balik layar ada kemungkinan 50/50 mereka akan dikirim ke versi kontrol (tombol hijau) Vs versi percobaan (tombol biru).
Setelah melihat eksperimen setelah 7 hari, saya melihat peningkatan konversi 10,2% mendukung percobaan dengan ukuran sampel 3000 (1500 untuk kontrol, 1500 untuk percobaan) dan signifikansi statistik 99,2%. Bagus sekali menurut saya.
Percobaan berlanjut, ukuran sampel tumbuh dan kemudian saya melihat peningkatan +9% dalam konversi dengan signifikansi 98,1%. Oke, teruskan percobaan berjalan lebih lama dan sekarang percobaan hanya menunjukkan peningkatan 5% dalam konversi dengan signifikansi statistik hanya 92%, dengan kerangka kerja mengatakan bahwa saya perlu 4600 sampel lagi sebelum saya mencapai signifikansi 95%?
Pada titik apa eksperimen itu meyakinkan?
Jika saya berpikir untuk mengatakan proses uji klinis di mana Anda menyetujui ukuran sampel di muka dan menyelesaikan percobaan Anda melihat peningkatan 10% dari metrik apa pun menjadi signifikansi 99%, maka keputusan dibuat bahwa obat itu kemudian pergi ke pasar. Tetapi kemudian jika mereka melakukan percobaan pada 4000 orang dan mereka melihat peningkatan 5% dari metrik apa pun menjadi hanya 92% signifikan maka obat itu tidak akan diizinkan untuk pergi ke pasar.
Haruskah kita menyetujui ukuran sampel terlebih dahulu dan berhenti setelah ukuran sampel tercapai dan puas dengan hasilnya jika signifikansi itu 99% pada titik mematikan eksperimen?