Pengujian AB vs pengujian hipotesis nol

Saya mencoba memahami perbedaan antara

menguji hipotesis nol (yaitu menguji bahwa probabilitas "tujuan" adalah sama di 2 populasi yang berbeda, mirip dengan prop.test dalam R)
tes A / B menggunakan formula bayesian seperti dijelaskan di sini: http://www.evanmiller.org/bayesian-ab-testing.html

Apakah ada perbedaan? Apakah yang lebih disukai?

Masalah yang saya hadapi terlihat seperti ini:

kelompok kontrol memiliki 100.000 tayangan dan kelompok uji 100 reaksi memiliki 50.000 tayangan dan 55 reaksi

— pengguna35581
sumber

Apakah ada perbedaan?

Iya. Uji hipotesis nol menghasilkan statistik uji dan nilai-p, probabilitas statistik uji yang sama ekstrimnya dengan data, dengan asumsi bahwa hipotesis nol itu benar. Dalam contoh Anda, prop.testuji asumsi bahwa $p_A$ dan $p_B$ adalah sama. Ini berbeda dari probabilitas yang dijelaskan dalam tautan Anda, $Pr(p_B \gt p_A)$ :

Pada data Anda, prop.testmenghasilkan nilai-p 0,6291; kami menafsirkan ini berarti bahwa jika $p_A = p_B$ , kami berharap dapat melihat data ekstrem ini dalam sekitar 63% percobaan. Tapi ini tidak langsung diartikan sebagai probabilitas bahwa alternatif mengungguli kontrol. Menggunakan rumus pos tertaut, seseorang tiba di $Pr(p_B \gt p_A) \approx 0.726$ , yang secara langsung dapat ditafsirkan seperti itu. (Kode Python setelah istirahat.)

Untuk mendapatkan sedikit intuisi tentang ini, amati dua kerapatan posterior untuk $p_A, p_B$ .

Beta (56, 49946), Beta (101, 99901)

Mode dari $p_B$ jelas di sebelah kanan mode $p_A$ . Dengan kata lain, estimasi titik kami untuk $p_B$ lebih tinggi. Diharapkan, sejak $\frac{55}{50000} \gt \frac{100}{100000}$ .
Posterior untuk $p_B$ lebih tersebar. Secara intuitif memuaskan: karena kami telah mengamati A dua kali lebih banyak, kami lebih percaya diri pada posterior yang lebih sempit.
Masih ada banyak tumpang tindih — bisa dibayangkan bahwa kedua perawatan itu tidak berbeda secara bermakna.

Untuk satu bantuan intuitif terakhir, kita dapat memplot distribusi dari perbedaan posisi, dan mengamati bahwa sekitar tiga perempat area terletak di sebelah kanan. $0$ : Perbedaan distribusi beta

Untuk mengulangi, nilai-p hanya memberi tahu kita bahwa data gagal mencapai ekstremitas tempat kita yakin ada perbedaan.

Apakah yang lebih disukai?

Pertanyaan itu adalah contoh dari pilihan Bayesian v. Frequentist yang lebih luas, dan seringkali mengarah ke masalah pendapat. Secara umum, saya percaya jawabannya tergantung pada banyak faktor, termasuk aplikasi, audiens, dan preferensi analis. Berikut adalah beberapa cara untuk melihat perbedaan antara keduanya, yang diharapkan akan membantu menunjukkan kapan seseorang lebih disukai.

Satu pengantar yang bagus untuk pengujian Bayesian A / B menyatakan seperti ini:

Manakah dari dua pernyataan ini yang lebih menarik:

(1) "Kami menolak hipotesis nol bahwa A = B dengan nilai-p 0,043."

(2) "Ada kemungkinan 85% bahwa A memiliki peningkatan 5% dari B."

Pemodelan Bayesian dapat menjawab pertanyaan seperti (2) secara langsung.

Untuk pandangan lain, ahli statistik teoritis Larry Wasserman dengan baik menggambarkan dua aliran pemikiran:

Tetapi pertama-tama, saya harus mengatakan bahwa inferensi Bayesian dan Frequentist ditentukan oleh tujuan mereka, bukan metode mereka.

Tujuan Inferensi Frequentist: Buat prosedur dengan jaminan frekuensi. (Misalnya, interval kepercayaan.)

The Goal of Bayesian Inference: Mengukur dan memanipulasi tingkat kepercayaan Anda. Dengan kata lain, inferensi Bayesian adalah Analisis Keyakinan.

>>> from scipy.special import betaln as lbeta
def probability_B_beats_A(a_A, b_A, a_B, b_B):
...     total = 0.0
...     for i in range(a_B):
...         total += exp(lbeta(a_A+i, b_B+b_A) - log(b_B+i) - lbeta(1+i, b_B) - lbeta(a_A, b_A))
...     return total
>>> probability_B_beats_A(101, 100001 - 100, 56, 50001 - 55)
0.72594700264280843

— Sean Easter
sumber