Pertanyaan yang sangat menarik, inilah pendapat saya.
Ini semua tentang penyandian informasi, lalu putar engkol Bayesian. Tampaknya terlalu bagus untuk menjadi kenyataan - tetapi keduanya lebih sulit daripada yang terlihat.
Saya mulai dengan mengajukan pertanyaan
Informasi apa yang digunakan ketika kita khawatir tentang banyak perbandingan?
Saya dapat memikirkan beberapa - yang pertama adalah "pengerukan data" - uji "segalanya" sampai Anda mendapatkan cukup melewati / gagal (saya akan berpikir hampir setiap statistik orang terlatih akan terkena masalah ini). Anda juga memiliki lebih sedikit seram, tetapi pada dasarnya sama "Saya memiliki begitu banyak tes untuk dijalankan - pasti semua tidak bisa benar".
Setelah memikirkan hal ini, satu hal yang saya perhatikan adalah Anda tidak cenderung mendengar banyak tentang hipotesis spesifik atau perbandingan tertentu. Ini semua tentang "koleksi" - ini memicu pemikiran saya terhadap pertukaran - hipotesa yang dibandingkan adalah "mirip" satu sama lain dalam beberapa cara. Dan bagaimana Anda menyandikan nilai tukar ke dalam analisis bayesian? - hiper-prior, model campuran, efek acak, dll !!!
Tetapi pertukaran hanya membuat Anda menjadi bagian dari perjalanan ke sana. Apakah semuanya bisa ditukar? Atau apakah Anda memiliki "sparsity" - seperti hanya beberapa koefisien regresi tidak nol dengan kumpulan kandidat yang besar. Model campuran dan efek acak yang didistribusikan secara normal tidak berfungsi di sini. Mereka mendapatkan "terjebak" di antara kebisingan squashing dan meninggalkan sinyal tidak tersentuh (misalnya dalam contoh Anda menjaga parameter locationB dan locationC sama ", dan mengatur parameter locationA" true "sewenang-wenang besar atau kecil, dan menyaksikan model campuran linear standar gagal.) . Tapi itu bisa diperbaiki - misalnya dengan priors "spike and slab" atau priors "horse shoes".
Jadi itu benar-benar lebih banyak tentang menggambarkan apa jenis hipotesis yang Anda bicarakan dan mendapatkan banyak fitur yang dikenal tercermin dalam sebelumnya dan kemungkinan. Pendekatan Andrew Gelman hanyalah cara untuk menangani kelas yang luas dari berbagai perbandingan secara implisit. Sama seperti kuadrat terkecil dan distribusi normal cenderung berfungsi dengan baik dalam banyak kasus (tetapi tidak semua).
Dalam hal bagaimana hal ini dilakukan, Anda bisa memikirkan seseorang yang beralasan sebagai berikut - grup A dan grup B mungkin memiliki rata-rata yang sama - Saya melihat data, dan artinya "dekat" - Oleh karena itu, untuk mendapatkan perkiraan yang lebih baik untuk keduanya, saya harus mengumpulkan data, karena pemikiran awal saya adalah mereka memiliki rata-rata yang sama. - Jika tidak sama, data memberikan bukti bahwa mereka "dekat", jadi menyatukan "sedikit" tidak akan menyakiti saya terlalu buruk jika hipotesis saya salah (semua model salah, beberapa berguna)
Perhatikan bahwa semua hal di atas bergantung pada premis awal "mereka mungkin sama". Singkirkan itu, dan tidak ada pembenaran untuk pengumpulan. Anda mungkin juga dapat melihat cara berpikir "distribusi normal" tentang tes. "Nol kemungkinan besar", "jika bukan nol, maka mendekati nol adalah kemungkinan berikutnya", "nilai ekstrim tidak mungkin". Pertimbangkan alternatif ini:
- kelompok A dan kelompok B berarti mungkin sama, tetapi mereka juga bisa sangat berbeda
Maka argumen tentang mengumpulkan "sedikit" adalah ide yang sangat buruk. Anda lebih baik memilih total pooling atau zero pooling. Jauh lebih seperti Cauchy, spike & slab, jenis situasi (banyak massa sekitar nol, dan banyak massa untuk nilai ekstrim)
Seluruh perbandingan ganda tidak perlu ditangani, karena pendekatan Bayesian memasukkan informasi yang membuat kita khawatir ke dalam kemungkinan sebelumnya dan / atau kemungkinan . Dalam arti itu lebih merupakan pengingat untuk berpikir dengan benar tentang informasi apa yang tersedia untuk Anda, dan memastikan Anda telah memasukkannya dalam analisis Anda.