Bisakah ANOVA menjadi signifikan ketika tidak ada uji-t berpasangan?


29

Apakah mungkin untuk ANOVA satu arah (dengan grup, atau "level") melaporkan perbedaan yang signifikan ketika tidak ada uji-t berpasangan berpasangan?N>2N(N-1)/2

Dalam jawaban ini @whuber menulis:

Telah diketahui secara umum bahwa uji F ANOVA global dapat mendeteksi perbedaan rata-rata bahkan dalam kasus-kasus di mana tidak ada uji t individu [yang tidak disesuaikan berpasangan] dari pasangan cara akan menghasilkan hasil yang signifikan.

jadi sepertinya itu mungkin, tapi saya tidak mengerti caranya. Kapan itu terjadi dan apa intuisi di balik kasus seperti itu? Mungkin seseorang dapat memberikan contoh mainan sederhana dari situasi seperti itu?

Beberapa komentar lebih lanjut:

  1. Kebalikannya jelas dimungkinkan: keseluruhan ANOVA dapat menjadi tidak signifikan sementara beberapa uji-t berpasangan secara keliru melaporkan perbedaan yang signifikan (yaitu hal itu akan menjadi false positive).

  2. Pertanyaan saya adalah tentang standar, tidak disesuaikan untuk beberapa t-test perbandingan. Jika tes yang disesuaikan digunakan (seperti misalnya prosedur HSD Tukey), maka ada kemungkinan bahwa tidak ada yang berubah menjadi signifikan walaupun ANOVA keseluruhannya. Ini dibahas di sini dalam beberapa pertanyaan, misalnya Bagaimana saya bisa mendapatkan ANOVA keseluruhan yang signifikan tetapi tidak ada perbedaan berpasangan yang signifikan dengan prosedur Tukey? dan interaksi ANOVA Signifikan tetapi perbandingan berpasangan tidak signifikan .

  3. Memperbarui. Pertanyaan saya awalnya merujuk pada uji-t berpasangan dua sampel biasa . Namun, seperti yang ditunjukkan @whuber dalam komentar, dalam konteks ANOVA, t-tes biasanya dipahami sebagai kontras post hoc menggunakan estimasi ANOVA dari varian dalam-kelompok, yang dikumpulkan di semua kelompok (yang tidak terjadi pada dua kelompok). -sampel t-test). Jadi sebenarnya ada dua versi pertanyaan saya yang berbeda, dan jawaban keduanya ternyata positif. Lihat di bawah.


3
Pertanyaan Anda tercakup dalam banyak utas: coba cari situs kami pada regresi yang signifikan . (ANOVA adalah aplikasi regresi kuadrat terkecil.) Misalnya, stats.stackexchange.com/questions/14500/… memberikan contoh eksplisit dan beberapa intuisi. Silakan teliti ini dan edit pertanyaan Anda, jika mungkin, untuk membedakannya dari utas sebelumnya.
whuber

Terima kasih, saya belum pernah melihatnya sebelumnya. Namun, saya benar-benar kesulitan menerjemahkan penjelasan ini tentang regresi berganda ke dalam bahasa perbandingan ANOVA. Ini tentu saja masalah saya sendiri, tetapi saya akan menebak bahwa saya tidak sendirian, jadi mungkin jawaban untuk pertanyaan saya masih akan berguna bagi masyarakat. Inilah kebingungan saya: seseorang memberi contoh berat badan yang mundur ke ukuran sepatu kiri / kanan (dua infus berkorelasi kuat) => F menandakan, t tidak. Sangat baik. Sekarang dalam regresi ANOVA dengan 3 kelompok ada 2 dummy IV; mereka dummy => selalu sangat antikorelasi ... Dan jadi apa?
Amuba kata Reinstate Monica

Saya khawatir saya tidak mengikuti komentar terakhir itu. Pertama, masalah ini tidak selalu terkait dengan korelasi kuat dalam matriks desain. Kedua, boneka bukan "benar-benar anti-berkorelasi": jika mereka, perangkat lunak harus tetap salah satu dari mereka. Anda mungkin merujuk masalah yang lebih subtil dalam model ANOVA yang lebih kompleks .
whuber

@amoeba: variabel dummy Anda berkorelasi negatif.
Michael M

3
Saya mengambil pengecualian untuk "komentar lebih lanjut" Anda tidak. 1. Hanya karena Anda memiliki perbandingan berpasangan yang sangat signifikan dan F tidak signifikan tidak menyiratkan bahwa hasil yang signifikan tersebut adalah positif palsu. Untuk mengetahui dengan pasti bahwa ada sesuatu yang salah positif, Anda harus tahu bahwa tidak ada perbedaan dalam cara yang sebenarnya, mu. Statistik F tidak sakral. Bahkan, itu bahkan tidak wajib. Ini paling berguna untuk pemilihan model, tetapi di luar itu hampir tidak informatif tentang apa yang terjadi di data Anda.
rvl

Jawaban:


18

Catatan: Ada yang salah dengan contoh asli saya. Dengan bodohnya aku terperangkap oleh daur ulang argumen bisu R. Contoh baru saya sangat mirip dengan contoh lama saya. Semoga semuanya ada sekarang.

Berikut adalah contoh yang saya buat yang memiliki ANOVA signifikan pada level 5% tetapi tidak satupun dari 6 perbandingan berpasangan yang signifikan, bahkan pada level 5% .

Berikut datanya:

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

masukkan deskripsi gambar di sini

Inilah ANOVA:

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

Inilah dua nilai-nilai p-test t (asumsi varians sama):

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

Dengan sedikit lebih mengutak-atik nilai kelompok atau poin individu, perbedaan signifikansi dapat dibuat lebih mencolok (dalam hal itu saya bisa membuat nilai-p pertama lebih kecil dan terendah dari set enam nilai-p untuk uji-t lebih tinggi ).

-

Sunting: Berikut adalah contoh tambahan yang pada awalnya dibuat dengan noise tentang suatu tren, yang menunjukkan seberapa baik Anda dapat melakukannya jika Anda memindahkan sedikit poin:

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

F memiliki nilai p di bawah 3% dan tidak ada t yang memiliki nilai p di bawah 8%. (Untuk contoh 3 grup - tetapi dengan nilai p agak lebih besar pada F - hilangkan grup kedua)

Dan inilah contoh yang sangat sederhana, jika lebih tiruan, dengan 3 kelompok:

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(Dalam hal ini, varians terbesar adalah pada kelompok menengah - tetapi karena ukuran sampel yang lebih besar di sana, kesalahan standar rata-rata grup masih lebih kecil)


Beberapa uji t perbandingan

Whuber menyarankan saya mempertimbangkan beberapa kasus perbandingan. Itu terbukti sangat menarik.

Kasus untuk beberapa perbandingan (semua dilakukan pada tingkat signifikansi asli - yaitu tanpa menyesuaikan alpha untuk beberapa perbandingan) agak lebih sulit untuk dicapai, karena bermain-main dengan varian yang lebih besar dan lebih kecil atau lebih banyak dan lebih sedikit dalam kelompok yang berbeda tidak membantu dengan cara yang sama seperti yang mereka lakukan dengan uji-t dua sampel biasa.

Namun, kami masih memiliki alat untuk memanipulasi jumlah kelompok dan tingkat signifikansi; jika kita memilih lebih banyak kelompok dan tingkat signifikansi yang lebih kecil, maka akan menjadi mudah untuk mengidentifikasi kasus. Ini dia:

nsaya=2α=0,0025

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

Namun nilai p terkecil pada perbandingan berpasangan tidak signifikan pada tingkat itu:

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none 

2
Uji dua sampel tidak sama dengan uji berpasangan dalam regresi. Perbedaannya terletak pada estimasi varian residual. Jadi contoh Anda sebenarnya bukan contoh dari paradoks yang lebih kuat, yaitu bahwa dalam satu dan analisis regresi yang sama , uji-F dapat menjadi signifikan sementara tidak ada perbandingan berpasangan yang signifikan. Saya percaya paradoks ini tidak harus muncul dari heteroskedastisitas, baik: ia dapat muncul bahkan ketika semua varian kelompok sama.
Whuber

4
Yang lebih menarik mungkin adalah untuk mengatasi ketika dimungkinkan untuk uji-F untuk menolak nol tetapi tidak ada uji-t berpasangan untuk menolaknya pada tingkat signifikansi yang sama (menggunakan estimasi varians kesalahan yang sama dengan uji-F). Misalnya untuk 3 kelompok dengan ukuran sampel yang sama, penyatuan wilayah penolakan 5% untuk uji-t berpasangan berisi wilayah penolakan 5% untuk uji F ANOVAR bahkan ketika ukuran sampel menjadi sangat besar.
Scortchi

4
0,005F

4
Amoeba, kebingungan muncul dari fakta bahwa "uji-t berpasangan" dapat berarti dua hal. Dalam konteks ANOVA, biasanya dipahami sebagai kontras post hoc menggunakan estimasi ANOVA. Seperti yang telah ditunjukkan orang lain, ini tidak sama dengan melakukan uji-t yang biasa pada pasangan kelompok, karena versi ANOVA didasarkan pada perkiraan varians dalam-kelompok yang berasal dari semua kelompok.
whuber

2
Saya pikir Anda telah membuat ringkasan yang bagus. Saya menyebut paradoks sebagai "lebih kuat" dalam arti bahwa ketika semua tes dilakukan dalam kerangka analisis ANOVA tunggal, orang akan (secara naif) mengharapkannya konsisten secara internal. (Ketika Anda melakukan dua set tes yang tidak terkait secara inheren, seharusnya tidak terlalu mengejutkan ketika mereka memberikan hasil yang bertentangan: ini sering terjadi.) Kita harus menerima bahwa itu konsisten secara logis dan secara statistik valid untuk menyimpulkan kelompok itu berarti sangat bervariasi sementara tidak menemukan perbedaan antara pasangan kelompok tertentu.
whuber

4

Ringkasan: Saya percaya ini mungkin, tapi sangat, sangat tidak mungkin. Perbedaannya akan kecil, dan jika itu terjadi, itu karena asumsi telah dilanggar (seperti homoscedasticity of variance).

Inilah beberapa kode yang mencari kemungkinan seperti itu. Perhatikan bahwa ia menambah benih dengan 1 setiap kali berjalan, sehingga benih disimpan (dan pencarian melalui biji sistematis).

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

Mencari R2 yang signifikan dan tidak ada t-tes yang tidak signifikan, saya belum menemukan apa pun hingga 18.000. Mencari nilai p lebih rendah dari R2 daripada dari uji-t, saya mendapatkan hasil pada seed = 323, tetapi perbedaannya sangat, sangat kecil. Ada kemungkinan bahwa mengubah parameter (menambah jumlah grup?) Dapat membantu. Alasan bahwa nilai p R2 bisa lebih kecil adalah bahwa ketika kesalahan standar dihitung untuk parameter dalam regresi, semua kelompok digabungkan, sehingga kesalahan standar perbedaan berpotensi lebih kecil daripada dalam uji-t.

Saya bertanya-tanya apakah melanggar heteroskedastisitas dapat membantu (seolah-olah). Itu benar. Jika saya gunakan

y <- (rnorm(600) + x * 0.01) * x * 5

Untuk menghasilkan y, maka saya menemukan hasil yang sesuai pada seed = 1889, di mana nilai p minimum dari uji-t adalah 0,061 dan nilai p yang terkait dengan R-kuadrat adalah 0,046.

Jika saya memvariasikan ukuran grup (yang meningkatkan efek pelanggaran heteroskedastisitas), dengan mengganti x sampling dengan:

x <- sample(c(0:5), 100, replace=TRUE)

Saya mendapatkan hasil yang signifikan pada seed = 531, dengan t-test p-value minimum pada 0,063 dan p-value untuk R2 pada 0,046.

Jika saya berhenti mengoreksi heteroskedastisitas dalam uji-t, dengan menggunakan:

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

Kesimpulan saya adalah bahwa ini sangat tidak mungkin terjadi, dan perbedaannya mungkin sangat kecil, kecuali jika Anda telah melanggar asumsi homoseksualitas dalam regresi. Coba jalankan analisis Anda dengan kuat / sandwich / apa pun yang Anda ingin koreksi itu.


Anda sepertinya memiliki kalimat yang belum selesai, dimulai dengan "Jika saya berhenti mengoreksi heteroskedastisitas dalam uji-t". Terlepas dari itu, terima kasih banyak! Silakan lihat pembaruan saya untuk pertanyaan. Perhatikan juga komentar pertama @ whuber di sini; jika saya mengerti dengan benar, dia bersikeras bahwa situasi seperti itu dapat dengan mudah (?) terjadi (dan menyebutnya "terkenal"). Mungkin ada beberapa kesalahpahaman di sini, tetapi apa itu?
Amuba mengatakan Reinstate Monica

Saya pikir @whuber berbicara tentang parameter yang tidak signifikan dalam model, bukan t-tes yang tidak signifikan.
Jeremy Miles

Bukan, bukan dia. Jika itu diketahui dengan baik, saya tidak mengetahuinya dan saya sudah mencoba memberikan contoh, dan tidak bisa.
Jeremy Miles

1
Saya senang, bahwa @Glen_b menghasilkan contoh sederhana. Intuisi adalah bahwa tes keseluruhan menilai apakah ada bukti bahwa penyebaran dalam kelompok berarti tidak dapat dijelaskan dengan hanya oleh varians residual saja. Tes berpasangan, yang hanya melibatkan dua cara pada satu waktu, harus jauh lebih konservatif dalam mengevaluasi bukti yang sama. Oleh karena itu, bahkan membandingkan dua mean kelompok ekstrim dapat gagal mengungkap perbedaan yang signifikan ketika distribusi keseluruhan semua sarana signifikan. Ini kadang-kadang terjadi dalam praktik, terutama dengan sejumlah besar kelompok.
whuber

3
BTW, alasan untuk menyebut ini "terkenal" berasal dari ingatan saya akan diperingatkan tentang hal itu dalam manual perangkat lunak Systat c. 1989. Itu adalah manual yang sangat instruktif (sebagian besar ditulis secara pribadi oleh Leland Wilkinson , pengembang) dan mungkin masih. Manual ini online, tetapi Anda harus mendaftar di situs Systat untuk dapat mengunduhnya.
whuber

2

Sangat mungkin:

  • Satu atau lebih uji-t berpasangan adalah signifikan tetapi uji F keseluruhan tidak
  • Keseluruhan uji-F adalah signifikan tetapi tidak ada uji-t berpasangan

Tes F keseluruhan menguji semua kontras secara bersamaan . Dengan demikian, itu harus kurang sensitif (kekuatan statistik kurang) untuk kontras individu (mis: tes berpasangan) Kedua tes ini terkait erat satu sama lain tetapi mereka tidak melaporkan hal yang persis sama.

Seperti yang dapat Anda lihat, rekomendasi buku teks untuk tidak melakukan perbandingan yang direncanakan kecuali keseluruhan uji-F signifikan tidak selalu benar. Bahkan, rekomendasi dapat mencegah kita dari menemukan perbedaan yang signifikan karena uji F keseluruhan memiliki kekuatan lebih kecil dari perbandingan yang direncanakan untuk menguji perbedaan spesifik.


Saya tidak yakin saya mengikuti logika jawaban Anda. Apakah Anda mengatakan bahwa penolakan H0 oleh uji-F menyiratkan bahwa setidaknya ada satu kontras yang tidak nol, tetapi kontras ini mungkin tidak sesuai dengan perbandingan berpasangan? Jika demikian, apakah ini berarti bahwa jika uji-F menolak H0, maka setidaknya satu dari tes berpasangan di semua kemungkinan kontras akan mengarah pada penolakan juga?
Amuba mengatakan Reinstate Monica

@amoeba saya sudah mengedit jawaban saya.
SmallChess
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.