Semuanya ada di keluarga; tetapi apakah kita juga memasukkan mertua?

Misalkan saya melakukan percobaan dengan dua faktor atau lebih. Keseluruhan ANOVA dibangun, dan kemudian kami menindaklanjuti dengan dua set atau lebih tes post hoc , katakanlah beberapa perbandingan. Pertanyaan saya adalah tentang seberapa besar --- dan berapa banyak --- keluarga harus digunakan sebagai dasar untuk penyesuaian multiplisitas dari tes post hoc ini .

Contohnya adalah dataset warp-breaks dari buku Tukey tentang EDA. Ada dua faktor: wool(pada dua level) dan tension(pada tiga level). Tabel ANOVA adalah:

Source       Df Sum Sq Mean Sq F value    Pr(>F)    
wool          1  450.7  450.67  3.7653 0.0582130
tension       2 2034.3 1017.13  8.4980 0.0006926
wool:tension  2 1002.8  501.39  4.1891 0.0210442
Residuals    48 5745.1  119.69

Jelas, interaksi diperlukan dalam model. Jadi kami memutuskan untuk melakukan perbandingan tingkat masing-masing faktor, mempertahankan faktor lainnya tetap. Hasilnya di bawah ini, dengan beberapa penjelasan yang akan dirujuk kemudian:

*** Pairwise comparisons of tension for each wool ***
*** All combined: Family T ***

wool = A:   *** Family T|A ***
 contrast   estimate       SE df t.ratio
 L - M    20.5555556 5.157299 48   3.986
 L - H    20.0000000 5.157299 48   3.878
 M - H    -0.5555556 5.157299 48  -0.108

wool = B:   *** Family T|B ***
 contrast   estimate       SE df t.ratio
 L - M    -0.5555556 5.157299 48  -0.108
 L - H     9.4444444 5.157299 48   1.831
 M - H    10.0000000 5.157299 48   1.939


*** Comparison of wool for each tension ***
*** All combined: Family W ***

tension = L:   *** Family W|L ***
 contrast  estimate       SE df t.ratio
 A - B    16.333333 5.157299 48   3.167

tension = M:   *** Family W|M ***
 contrast  estimate       SE df t.ratio
 A - B    -4.777778 5.157299 48  -0.926

tension = H:   *** Family W|H ***
 contrast  estimate       SE df t.ratio
 A - B     5.777778 5.157299 48   1.120

Saya pikir ada praktik yang berbeda di luar sana, dan saya ingin tahu mana yang paling umum, dan argumen apa yang akan dibuat orang untuk atau menentang setiap pendekatan. Dalam menghitung nilai disesuaikan , sebaiknya kita melakukan penyesuaian ... $P$

masing-masing dari lima keluarga terkecil (T | A, T | B, ..., W | H) secara terpisah? (Catatan - 3 keluarga terakhir hanya memiliki satu tes sehingga tidak akan ada penyesuaian multiplisitas untuk mereka)
masing-masing keluarga besar (T, dengan 6 tes dan W, dengan 3 tes) secara terpisah?
semua tes dianggap sebagai satu keluarga besar? $6+3=9$

Saya tertarik pada apa yang biasanya dilakukan orang (bahkan jika mereka belum banyak memikirkannya) dan mengapa (jika mereka punya). Beberapa hal yang mungkin saya sebutkan adalah:

Ada 3 tes dalam tabel ANOVA. Saya tidak ingat melihat ada yang mempertimbangkan penyesuaian multiplisitas pada tes ANOVA. Jika itu masalahnya, dan Anda merekomendasikan opsi (3), apakah Anda tidak konsisten? $F$
Jika kami telah melakukan percobaan yang agak lebih kecil di mana semua tes kurang kuat, mungkin saja interaksi tidak akan signifikan, yang mengarah ke jumlah yang jauh lebih kecil dari perbandingan post-hoc dari sarana marginal saja. Selain itu, rata-rata marginal bisa memiliki SE lebih kecil dari rata-rata sel dalam percobaan yang lebih besar. Selain itu, jika penyesuaian multiplisitas kurang konservatif, kami dapat memiliki hasil yang lebih "signifikan" dengan data yang lebih sedikit daripada yang kami miliki dengan lebih banyak data.

Tertarik melihat apa yang dikatakan orang ...

multiple-comparisons post-hoc

— Russ Lenth
sumber

Belum ada yang menjawab, jadi saya akan membahas ini.

Menurut pendapat saya (dan saya ingin mendengar pendapat orang lain) bahwa Anda harus menyesuaikan diri untuk 9 tes penuh dalam kasus ini. Dengan asumsi kami menggunakan koreksi tingkat kesalahan berdasarkan keluarga,

Kami secara bersamaan menggambar kesimpulan dari semua 9 tes sekaligus. Yaitu memindai daftar dan melihat untuk menemukan sesuatu yang signifikan.
Untuk dapat melakukan ini, kami mempertimbangkan tingkat kesalahan keluarga-bijaksana keseluruhan 5%. Alternatifnya adalah dengan memperbaiki masing-masing kelompok menjadi 5% FWER. Ini berarti bahwa ketika menafsirkan, kita tidak dapat menginterpretasikan tes bersama, dan lebih suka harus melihat 6 tes pertama dan berpikir bahwa ada kemungkinan 5% dari hasil positif palsu, kemudian memeriksa masing-masing tes lebih lanjut pada gilirannya mengetahui bahwa ada peluang 5% dari hasil positif palsu untuk setiap kelompok . IMO utilitas dari beberapa pengujian koreksi adalah kita dapat secara bersamaan menarik kesimpulan dari beberapa pengujian sekaligus. Tampaknya lebih logis bahwa kita harus melihat semua 9 tes dan tahu ada peluang 5% dari hasil positif palsu, daripada harus memeriksanya secara terpisah, seperti tidak mengoreksi sama sekali.
Masalah penyesuaian untuk tiga uji- di ANOVA menarik, tetapi menurut saya hanya relevan jika Anda berencana untuk melakukan beberapa pemilihan model di mana Anda hanya menerima prediktor yang signifikan. Ini mungkin bacaan yang bagus, khususnya kesimpulannya adalah bacaan yang sangat ringkas dan bagus. Saya mencuri tautan itu dari pertanyaan ini . $F$
Poin Anda tentang dimasukkannya efek interaksi menarik, dan saya pikir Anda bisa mendefinisikannya sebagai pemilihan model. Apakah Anda akan memasukkan efek interaksi jika efeknya signifikan? Dalam hal ini mungkin statistik dalam ANOVA asli harus disesuaikan untuk memfasilitasi pemilihan prediktor yang signifikan. $F$

Secara keseluruhan saya berpikir bahwa jika Anda menggambar inferensi simultan dari suatu kelompok, Anda harus mempertimbangkan setiap tes dalam kelompok itu untuk koreksi. Kalau tidak, pemahaman standar tingkat kesalahan kelompok terkontrol tidak bertahan, dan cukup sulit untuk secara konseptual melacak apa yang telah disesuaikan dan apa yang belum. Jauh lebih baik, menurut saya, untuk membuat semua tes bertanggung jawab dan menahan tingkat kesalahan keluarga-bijaksana pada batas tertentu.

Jika Anda memiliki bantahan, saya akan senang mendengarnya, dan saya yakin beberapa orang akan tidak setuju dengan beberapa hal di sini. Sangat tertarik mendengar pikiran orang lain.

— Chris C
sumber

Terima kasih. Dipikirkan dengan matang. Pertanyaan sampingan: apakah mungkin untuk membuat SAS melakukan ini? Saya tidak berpikir begitu tetapi ada banyak hal yang tidak saya ketahui tentang SAS. Ini relevan karena saya pikir jenis penyesuaian ini jarang digunakan dalam praktik.

— Russ Lenth

Sayangnya saya tidak tahu banyak tentang SAS, maaf @rvl. Mungkin orang lain akan melihat ini dan membantu. Saya harap Anda mendapatkan lebih banyak orang yang ikut membahas masalah ini, ini adalah pertanyaan yang sangat bagus sehingga orang tidak terlalu sering memikirkannya.

— Chris C

tidak apa-apa - Saya hanya memikirkan apa yang sebenarnya mungkin dilakukan dengan mudah dengan perangkat lunak yang ada. Jika konsensus turun ke opsi 3, kita memerlukan dukungan perangkat lunak untuk itu!

— Russ Lenth

... tapi sekarang bisa dilakukan di R. Lihat jawaban baru yang saya posting di pertanyaan terkait, stats.stackexchange.com/questions/165125/… . Pertanyaan itu yang membuat saya berpikir tentang ini.

— Russ Lenth

Sangat keren! Apakah Anda pengelola lsmeans? Itu banyak pekerjaan untuk pertanyaan itu!

— Chris C