Apakah analisis kekuatan apriori pada dasarnya tidak berguna?

Saya menghadiri pertemuan Masyarakat untuk Kepribadian dan Psikologi Sosial minggu lalu di mana saya melihat ceramah oleh Uri Simonsohn dengan premis bahwa menggunakan analisis kekuatan a priori untuk menentukan ukuran sampel pada dasarnya tidak berguna karena hasilnya sangat sensitif terhadap asumsi.

Tentu saja, klaim ini bertentangan dengan apa yang saya ajarkan di kelas metode saya dan bertentangan dengan rekomendasi dari banyak metodologi terkemuka (terutama Cohen, 1992 ), jadi Uri menyajikan beberapa bukti yang mendukung klaimnya. Saya telah mencoba untuk membuat ulang beberapa bukti di bawah ini.

Untuk kesederhanaan, mari kita bayangkan situasi di mana Anda memiliki dua kelompok pengamatan dan menebak bahwa ukuran efek (yang diukur dengan perbedaan rata-rata standar) adalah . Perhitungan daya standar (dilakukan dengan menggunakan paket di bawah) akan memberi tahu Anda akan membutuhkan pengamatan untuk mendapatkan daya 80% dengan desain ini. $.5$ Rpwr $128$

require(pwr)

size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size, 
           sig.level = .05, 
           power = .80, 
           type = "two.sample", 
           alternative = "two.sided")

Namun, biasanya, dugaan kami tentang ukuran efek yang diantisipasi adalah (setidaknya dalam ilmu sosial, yang merupakan bidang studi saya), hanya itu - tebakan yang sangat kasar. Apa yang terjadi kemudian jika tebakan kita tentang ukuran efeknya sedikit mati? Perhitungan daya cepat memberi tahu Anda bahwa jika ukuran efeknya adalah bukannya , Anda perlu pengamatan - kali jumlah yang Anda perlukan untuk memiliki daya yang memadai untuk ukuran efek sebesar . Demikian juga, jika ukuran efeknya adalah , Anda hanya perlu pengamatan, 70% dari apa yang Anda perlukan untuk memiliki kekuatan yang memadai untuk mendeteksi ukuran efek, $.4$ $.5$ $200$ $1.56$ $.5$ $.6$ $90$ $.50$ . Secara praktis, kisaran dalam pengamatan yang diestimasikan cukup besar - hingga . $90$ $200$

Salah satu respons terhadap masalah ini adalah, alih-alih membuat perkiraan murni tentang seberapa besar efek itu, Anda mengumpulkan bukti tentang ukuran efeknya, baik melalui literatur sebelumnya atau melalui uji coba pilot. Tentu saja, jika Anda melakukan uji coba, Anda ingin uji coba menjadi cukup kecil sehingga Anda tidak hanya menjalankan versi studi Anda hanya untuk menentukan ukuran sampel yang diperlukan untuk menjalankan studi (yaitu, Anda akan ingin ukuran sampel yang digunakan dalam uji coba lebih kecil dari ukuran sampel studi Anda).

Uri Simonsohn berpendapat bahwa uji coba pilot untuk tujuan menentukan ukuran efek yang digunakan dalam analisis daya Anda tidak berguna. Pertimbangkan simulasi berikut yang saya jalankan R. Simulasi ini mengasumsikan bahwa ukuran efek populasi adalah . Kemudian melakukan "uji coba" ukuran 40 dan mentabulasi direkomendasikan dari masing-masing uji coba 10.000. $.5$ $1000$ $N$

set.seed(12415)

reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)

for(i in 1:reps)
{
  x <- rep(c(-.5, .5), pilot_n_per_group)
  y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
  # Calculate the standardized mean difference
  size <- (mean(y[x == -.5]) - mean(y[x == .5])) / 
          sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)

  n <- 2 * pwr.t.test(d = size,
                      sig.level = .05, 
                      power = .80,
                      type = "two.sample", 
                      alternative = "two.sided")$n

  ns[i] <- n
}

Di bawah ini adalah plot kerapatan berdasarkan simulasi ini. Saya telah menghilangkan uji coba yang merekomendasikan sejumlah pengamatan di atas untuk membuat gambar lebih dapat ditafsirkan. Bahkan berfokus pada hasil simulasi yang kurang ekstrim, ada variasi besar dalam direkomendasikan oleh uji coba. $204$ $500$ $Ns$ $1000$

masukkan deskripsi gambar di sini

Tentu saja, saya yakin sensitivitas terhadap masalah asumsi hanya bertambah buruk karena desain seseorang menjadi lebih rumit. Sebagai contoh, dalam desain yang membutuhkan spesifikasi struktur efek acak, sifat struktur efek acak akan memiliki implikasi dramatis bagi kekuatan desain.

Jadi, apa pendapat Anda tentang argumen ini? Apakah analisis kekuatan apriori pada dasarnya tidak berguna? Jika ya, lalu bagaimana seharusnya para peneliti merencanakan ukuran studi mereka?

— Patrick S. Forscher
sumber

Ini kedengarannya seperti kecaman dari analisis kekuatan tanpa pikiran , bukan dari analisis kekuatan itu sendiri. Pertanyaan yang lebih besar adalah apakah ini serangan terhadap seorang pria jerami atau jika memang ada banyak orang yang melakukan analisis kekuatan mereka (atau analisis lainnya) tanpa memperhatikan sensitivitas mereka terhadap asumsi. Jika yang terakhir itu benar, adalah baik untuk menerangi mereka, tetapi saya berharap mereka tidak menjadi putus asa untuk meninggalkan semua upaya untuk merencanakan eksperimen mereka!

— whuber

Mengingatkan saya pada stats.stackexchange.com/q/2492/32036 , dan bukan hanya karena kesamaan sintaksis dalam pengungkapan pertanyaan judul. Tampak pertanyaan tentang bagaimana memahami asumsi. Poin utama dari keduanya adalah untuk memahami sensitivitas analisis ini terhadap bias daripada membuat penilaian menyeluruh atau tidak sama sekali bahwa asumsi mereka adalah (a) sangat penting atau (b) benar-benar dapat diabaikan. Ini adalah kunci untuk kesimpulan yang berguna dan tidak berbahaya secara umum. Saya khawatir itu bukan manusia jerami; orang terlalu sering berpikir absolut ketika mereka tidak atau tidak tahu atau peduli.

— Nick Stauner

Saya tidak ingin menambahkan ini dalam pertanyaan karena saya tertarik pada rekomendasi yang dibuat orang lain, tetapi rekomendasi Uri Simonsohn di akhir pembicaraan adalah untuk menguatkan studi Anda untuk mendeteksi efek terkecil yang Anda pedulikan.

— Patrick S. Forscher

@ PatrickS.Forscher: Jadi setelah semua dikatakan dan dilakukan, dia benar-benar percaya pada analisis kekuatan a priori. Dia hanya berpikir ukuran efek harus dipilih dengan bijak: bukan tebakan seperti apa kemungkinannya , tetapi nilai minimal yang Anda pedulikan. Kedengarannya mirip dengan deskripsi buku teks tentang analisis daya: memastikan bahwa Anda memiliki cukup data sehingga apa yang Anda yakini sebagai perbedaan praktis yang signifikan akan muncul sebagai perbedaan yang signifikan secara statistik.

— Wayne

Cara Uri membingkai pembicaraan, saya pikir dia percaya bahwa analisis kekuatan apriori tidak berguna karena biasanya dilakukan dalam ilmu sosial, tetapi mungkin tidak seperti yang diajarkan di tempat lain. Memang, saya diajarkan untuk mendasarkan analisis kekuatan saya pada perkiraan yang masuk akal tentang ukuran efek yang saya cari, bukan pada efek apa yang akan saya pedulikan dalam hal praktis.

— Patrick S. Forscher

Masalah mendasar di sini adalah benar dan cukup terkenal dalam statistik. Namun, interpretasi / klaimnya ekstrem. Ada beberapa masalah yang akan dibahas:

$N$ $\sqrt N$ $N$ $50\%$ $80\%$ $d$ $d$ $d = .5$ $N = 128$ $\approx 7.9\%$ $\approx 5.5\%$ $.1$ $\approx 16.9\%$ $.1$ $\approx 12.6\%$

masukkan deskripsi gambar di sini

$d$

$80\%$

Kedua, mengenai klaim yang lebih luas bahwa analisis kekuasaan (a-priori atau lainnya) mengandalkan asumsi, tidak jelas apa yang harus dibuat dari argumen itu. Tentu saja mereka lakukan. Begitu juga yang lainnya. Tidak menjalankan analisis daya, tetapi hanya mengumpulkan sejumlah data berdasarkan jumlah yang Anda pilih, dan kemudian menganalisis data Anda, tidak akan memperbaiki situasi. Selain itu, analisis Anda yang dihasilkan masih akan bergantung pada asumsi, sama seperti semua analisis (kekuasaan atau yang lain) selalu lakukan. Jika sebaliknya Anda memutuskan bahwa Anda akan terus mengumpulkan data dan menganalisis kembali sampai Anda mendapatkan gambar yang Anda sukai atau bosan, itu akan menjadi jauh kurang valid (dan masih akan memerlukan asumsi yang mungkin tidak terlihat oleh pembicara, tetapi tetap ada). Sederhananya,tidak ada jalan keluar pada kenyataan bahwa asumsi sedang dibuat dalam penelitian dan analisis data .

Anda mungkin menemukan sumber daya yang menarik ini:

Kraemer, HC, Mintz, J., Noda, A., Tinklenberg, J., & Yesavage, JA (2006). Perhatian tentang penggunaan studi percontohan untuk memandu perhitungan daya untuk proposal studi , Archives of General Psychiatry, 63 , 5, hlm. 484-489.
Uebersax, JA (2007). Analisis Daya Tanpa Syarat Bayesian. http://www.john-uebersax.com/stat/bpower.htm

— gung - Reinstate Monica
sumber

Saya pikir argumen Uri Simonsohn bukanlah bahwa asumsi itu buruk, tetapi analisis daya pada umumnya sangat sensitif terhadap asumsi sehingga tidak berguna untuk merencanakan ukuran sampel. Namun, poin Anda sangat bagus, seperti referensi yang Anda berikan (+1).

— Patrick S. Forscher

Suntingan Anda terus meningkatkan jawaban yang sudah luar biasa ini. :)

— Patrick S. Forscher

Saya setuju ini adalah jawaban yang bagus, dan saya hanya ingin memberi tahu Anda (dan orang lain) bahwa saya mengutip Anda dalam posting blog baru-baru ini yang saya tulis tentang topik ini: jakewestfall.org/blog/index.php/2015/06/ 16 / ...

— Jake Westfall

@JakeWestfall, pos yang bagus! Pada catatan berbeda, ketika Anda mempelajari kue, apakah Anda melakukannya terutama dengan memakannya? Apakah Anda memerlukan konsultan statistik untuk proyek-proyek ini?

— gung - Reinstate Monica