Memperkirakan keberhasilan komparatif dari berbagai brosur

Masalah Dunia Nyata

Salah satu klien saya sedang bersiap untuk mengirim mailer langsung ke daftar pengguna berlangganan mereka, dan tantangan statistik ini muncul.

Tim pemasaran mereka memiliki 3 brosur berbeda, dan ingin tahu brosur mana yang mendapat tingkat respons tertinggi. Mereka juga ingin tahu apakah mengirim mailer dengan alamat tulisan tangan, pada amplop tebal, meningkatkan hasil dibandingkan dengan amplop normal.

Mari kita asumsikan sebagai berikut:

Untuk setiap brosur ( ), seseorang yang menerima brosur yang benar-benar membukanya dan membacanya akan merespons dengan probabilitas , di mana adalah tingkat respons sebenarnya untuk brosur itu $b_i$ $i = 1,2,3$ $r_i$ $r_i$
Amplop tebal, berkualitas tinggi memiliki laju terbuka sebenarnya dari sementara amplop normal memiliki laju terbuka sebesar $o_{thick}$ $o_{normal}$
Dari surat sebelumnya, kami berharap tingkat respons yang diamati aktual akan antara sekitar 1% dan 5%.

Tujuan kita

Kami ingin menemukan brosur terbaik saat mengirim surat paling sedikit. Kami juga ingin memperkirakan dua tarif terbuka.

Setelah mengumpulkan tingkat respons empiris dari pengirim surat yang sebenarnya, jika perbedaan sebenarnya antara tingkat respons lebih besar dari setengah persen, kita harus dapat mendeteksi perbedaan itu secara statistik signifikan dengan $r_i$ $p < .05$

Pikiranku sejauh ini

Kami menetapkan pengguna secara acak untuk masing-masing dari 3 brosur, sehingga pengguna menerima setiap brosur. Kami ingin tahu apa yang kami butuhkan untuk mencapai sensitivitas yang kami inginkan dalam mendeteksi perbedaan dalam tingkat respons. Dengan asumsi kasus terburuk, kita harus dapat mendeteksi perbedaan antara tingkat sebenarnya 1% dan 1,5%. SD untuk perbedaan ini adalah . Menetapkan dua kali jumlah itu (2 standar deviasi memberi kita kepercayaan 95%) sama dengan 0,005 (setengah persen yang kita inginkan) mengarah ke solusi . $N$ $N$ $\sqrt{\frac{(.01*.99) + (.015*.985)}{N}}$ $N = 3948$

Pertanyaan

Apakah ini desain yang optimal atau dapatkah kita berbuat lebih baik?
Apakah perhitungan benar? $N$

Akhirnya, apa cara terbaik untuk memperkirakan dan , atau hanya perbedaan antara keduanya? $o_{normal}$ $o_{thick}$

Gagasan saya adalah menetapkan secara acak setengah dari masing-masing kelompok brosur untuk setiap jenis amplop. Dalam setiap kelompok brosur, tingkat respons yang diamati adalah produk dari tarif terbuka dan . Ini akan mempersulit perhitungan atas, karena sebenarnya saya seharusnya menggunakan produk ini dalam perhitungan saya. $r_i$ $N$

Jawaban saya kemudian akan tergantung pada perkiraan tingkat buka rata-rata - - yang harus saya tebak. Juga, saya tidak yakin bagaimana menentukan distribusi perbedaan antara dan , karena kami sekarang memiliki tiga perkiraan perbedaan yang berbeda, yang masing-masing tergantung pada berbeda , masing-masing memiliki hanya perkiraan empiris, taksiran empiris yang bergantung pada perkiraan kami pada kurs terbuka rata-rata. $\frac{o_{normal} + o_{thick}}{2}$ $o_{normal}$ $o_{thick}$ $r_i$

Terima kasih banyak atas bantuannya.

hypothesis-testing anova statistical-significance

— Jonah
sumber

Berikut ini adalah eksperimen pemikiran untuk dipertimbangkan sebelum melangkah lebih jauh: Asumsikan dua skenario, A dan B. Dalam skenario A, setiap penerima menerima email mereka, membukanya, lalu membalik koin dengan probabilitas untuk memutuskan apakah akan merespons. Dalam Skenario B, penerima Anda melihat surat yang mereka terima, koin dengan probabilitas , dan membuka surat itu jika muncul kepala; mereka dengan bersemangat menanggapi tawaran apa pun yang terkandung dalam surat yang mereka buka dan membuang surat yang tidak mereka buka.

r_{i}

$r_i$

r_{i}

$r_i$

— kardinal

hei kardinal, pemikiran saya adalah bahwa model yang paling akurat sebenarnya adalah hibrida dari A dan B. Pikirkan bagaimana Anda sebenarnya menangani junk mail. Secara pribadi, berdasarkan pada amplop dan cap pos, saya hanya akan membuang sebagian besar dari itu belum dibuka. Tetapi jika saya membukanya, pemasaran di dalam perlu menarik perhatian saya dan meyakinkan saya. Jika kita menganggap pengirim surat kita sebagai pahlawan dalam sebuah pencarian, dia harus membunuh dua naga independen untuk menyelamatkan sang putri. Dan sebagai perancang uji, kami mencoba untuk mengukur kebugaran relatif dari pahlawan yang berbeda dengan tugas membunuh 2 naga yang berbeda ini.

— Jonah

Saya setuju bahwa orang pada umumnya tidak bertindak terlalu ekstrem, tetapi inti dari memperkenalkan skenario adalah untuk memancing beberapa pemikiran tentang apa yang bisa dan tidak dapat diperkirakan dari data Anda (tanpa memperkenalkan asumsi tambahan yang tersirat, dan berpotensi cukup kuat). Dalam satu skenario, tingkat respons yang diamati sepenuhnya berasal dari keputusan respons acak, sedangkan pada skenario kedua sepenuhnya berasal dari keputusan pembukaan surat acak!

— kardinal

Yah saya pikir model yang lebih sederhana yang menurut eksperimen Anda mengarah pada masalah yang jauh lebih mudah untuk dipecahkan. Saya hanya dapat berpikir tentang menguji 6 skenario (masing-masing amplop dengan masing-masing brosur) dan menguji perbedaan menggunakan metode yang mirip dengan yang ada di bagian "Pikiranku ...". Tetapi saya menduga hal itu akan menyebabkan pengiriman lebih banyak surat daripada solusi untuk model dua tingkat yang lebih kompleks. Masalahnya adalah saya tidak tahu distribusi apa yang ditimbulkan oleh model dua tingkat, jadi saya tidak tahu bagaimana mengujinya - karena itu posnya :)

— Jonah

Ada rumus empiris untuk menentukan ukuran sampel. Tes yang mendasarinya adalah uji t dua sampel untuk kesetaraan metrik (tingkat respons dalam kasus Anda). Dengan asumsi bahwa Anda ingin kekuatan tes menjadi 80%, salah satu rumus tersebut adalah mana adalah std dev dari metrik (tingkat respons) dan adalah jumlahnya perubahan dalam tingkat respons yang ingin Anda selesaikan dengan andal (dengan signifikansi statistik). $n= 16\sigma^2/\Delta^2$ $\sigma$ $\Delta$

Juga, ada desain faktorial fraksional yang tersedia yang memungkinkan Anda mengoptimalkan jumlah percobaan (dengan asumsi Anda tidak ingin mengukur interaksi masing-masing faktor dengan setiap faktor lainnya). Ini adalah makalah survei tentang desain eksperimental yang menjelaskan detail.

— wabbit
sumber

Misalkan Anda mengirim brosur dan untuk jumlah yang sama pelanggan , maka respon pengguna untuk brosur , dan pengguna merespon brosur , dan . Maka signifikansinya adalah $A$ $B$ $a$ $A$ $b$ $B$ $b>a$

$P = {\sum_{n=b}^{a+b} C^{a+b}_n \over 2^{a+b}}$

Tidak masalah berapa banyak pengguna menerima brosur Anda, hanya berapa banyak yang merespons.

— pengguna31264
sumber