Mengapa asumsi ANOVA (persamaan varian, normalitas residual) penting?

15

Saat menjalankan ANOVA kami diberitahu bahwa asumsi tertentu dari tes harus ada agar dapat diterapkan pada data. Saya tidak pernah mengerti alasan mengapa asumsi berikut diperlukan agar tes berfungsi:

Varian dari variabel dependen Anda (residual) harus sama di setiap sel desain
Variabel dependen Anda (residu) harus kira-kira terdistribusi secara normal untuk setiap sel desain

Saya mengerti bahwa ada sedikit area abu-abu mengenai apakah asumsi-asumsi ini perlu dipenuhi, tetapi demi argumen, jika asumsi-asumsi ini sama sekali tidak terpenuhi dalam set data yang diberikan, apa yang akan menjadi masalah dengan menggunakan ANOVA ?

hypothesis-testing anova assumptions

— PaperRockBazooka
sumber

apa tujuan studi anda?

— Subhash C. Davar

8

Asumsi penting sejauh mereka mempengaruhi sifat-sifat tes hipotesis (dan interval) yang dapat Anda gunakan yang sifat distribusi di bawah nol dihitung dengan mengandalkan asumsi-asumsi tersebut.

Khususnya, untuk pengujian hipotesis, hal-hal yang mungkin kita pedulikan adalah seberapa jauh tingkat signifikansi sebenarnya dari apa yang kita inginkan, dan apakah kekuatan terhadap alternatif minat itu baik.

Sehubungan dengan asumsi Anda bertanya tentang:

1. Kesetaraan varian

Varian dari variabel dependen Anda (residual) harus sama di setiap sel desain

Ini tentu saja dapat berdampak pada tingkat signifikansi, setidaknya ketika ukuran sampel tidak sama.

(Sunting :) An-statistik F adalah rasio dua estimasi varians (partisi dan perbandingan varians mengapa disebut analisis varians). Penyebut adalah perkiraan varians kesalahan yang seharusnya umum untuk semua sel (dihitung dari residual), sedangkan pembilang, berdasarkan variasi dalam kelompok berarti, akan memiliki dua komponen, satu dari variasi dalam rata-rata populasi dan satu karena varians kesalahan. Jika nol adalah benar, dua varians yang sedang diperkirakan akan sama (dua estimasi varians kesalahan umum); nilai umum tetapi tidak dikenal ini dibatalkan (karena kami mengambil rasio), meninggalkan statistik F yang hanya bergantung pada distribusi kesalahan (yang berdasarkan asumsi kami dapat menunjukkan memiliki distribusi F. (Komentar serupa berlaku untuk t- Tes yang saya gunakan untuk ilustrasi.)

[Ada sedikit lebih detail tentang beberapa informasi itu dalam jawaban saya di sini ]

Namun, di sini dua varian populasi berbeda di dua sampel berukuran berbeda. Pertimbangkan penyebutnya (dari statistik-F di ANOVA dan statistik-t dalam uji-t) - ini terdiri dari dua perkiraan varian yang berbeda, bukan satu, sehingga tidak akan memiliki distribusi "benar" (skala diskalakan). -square untuk F dan akar kuadratnya dalam kasus at - baik bentuk dan skala adalah masalah).

Akibatnya, statistik F atau statistik t tidak akan lagi memiliki distribusi F atau t, tetapi cara pengaruhnya berbeda tergantung pada apakah sampel besar atau kecil diambil dari populasi dengan varians yang lebih besar. Ini pada gilirannya mempengaruhi distribusi nilai-p.

Di bawah nol (yaitu ketika mean populasi sama), distribusi nilai-p harus didistribusikan secara seragam. Namun, jika varians dan ukuran sampel tidak sama tetapi berarti sama (jadi kami tidak ingin menolak nol), nilai-p tidak terdistribusi secara seragam. Saya melakukan simulasi kecil untuk menunjukkan kepada Anda apa yang terjadi. Dalam hal ini, saya hanya menggunakan 2 kelompok sehingga ANOVA setara dengan uji dua sampel dengan asumsi varian yang sama. Jadi saya mensimulasikan sampel dari dua distribusi normal satu dengan standar deviasi sepuluh kali lebih besar dari yang lain, tetapi berarti sama.

Untuk plot sisi kiri, standar deviasi yang lebih besar ( populasi ) adalah untuk n = 5 dan standar deviasi yang lebih kecil adalah untuk n = 30. Untuk plot sisi kanan, deviasi standar yang lebih besar digunakan dengan n = 30 dan yang lebih kecil dengan n = 5. Saya mensimulasikan masing-masing 10.000 kali dan menemukan nilai-p setiap kali. Dalam setiap kasus Anda ingin histogram sepenuhnya datar (persegi panjang), karena ini berarti semua tes dilakukan pada tingkat signifikansi dengan benar-benar mendapatkan tingkat kesalahan tipe I itu. Terutama yang paling penting adalah bagian paling kiri histogram untuk tetap dekat dengan garis abu-abu: $\alpha$

Seperti yang kita lihat, plot sisi kiri (varians yang lebih besar dalam sampel yang lebih kecil) nilai-p cenderung sangat kecil - kita akan menolak hipotesis nol sangat sering (hampir separuh waktu dalam contoh ini) meskipun nol benar . Artinya, tingkat signifikansi kami jauh lebih besar daripada yang kami minta. Di plot sebelah kanan kita melihat nilai-p sebagian besar (dan tingkat signifikansi kita jauh lebih kecil daripada yang kita minta) - pada kenyataannya tidak sekali dalam sepuluh ribu simulasi kita tolak pada level 5% (yang terkecil p-value di sini adalah 0,055). [Ini mungkin kedengarannya bukan hal yang buruk, sampai kita ingat bahwa kita juga akan memiliki kekuatan yang sangat rendah untuk pergi dengan tingkat signifikansi kita yang sangat rendah.]

Itu konsekuensi yang cukup. Inilah sebabnya mengapa sebaiknya menggunakan uji-t Welch-Satterthwaite atau ANOVA ketika kita tidak memiliki alasan yang baik untuk mengasumsikan bahwa variansnya akan mendekati sama - dengan perbandingan itu hampir tidak terpengaruh dalam situasi ini (I mensimulasikan kasus ini juga; dua distribusi nilai p-simulasi - yang saya belum tunjukkan di sini - keluar cukup dekat dengan datar).

2. Distribusi respon bersyarat (DV)

Variabel dependen Anda (residu) harus kira-kira terdistribusi secara normal untuk setiap sel desain

Ini agak kurang langsung kritis - untuk penyimpangan moderat dari normalitas, tingkat signifikansi tidak begitu banyak terpengaruh dalam sampel yang lebih besar (meskipun kekuatannya bisa!).

Inilah salah satu contoh, di mana nilai-nilai didistribusikan secara eksponensial (dengan distribusi dan ukuran sampel yang identik), di mana kita dapat melihat masalah tingkat signifikansi ini menjadi substansial pada kecil tetapi berkurang dengan besar . $n$ $n$

Kita melihat bahwa pada n = 5 secara substansial terlalu sedikit nilai-p (tingkat signifikansi untuk tes 5% adalah sekitar setengah dari yang seharusnya), tetapi pada n = 50 masalahnya berkurang - untuk 5% Tes dalam hal ini tingkat signifikansi sebenarnya adalah sekitar 4,5%.

Jadi kita mungkin tergoda untuk mengatakan "baik, itu baik-baik saja, jika n cukup besar untuk mendapatkan tingkat signifikansi menjadi cukup dekat", tetapi kita mungkin juga melempar banyak kekuatan. Secara khusus, diketahui bahwa efisiensi relatif asimptotik dari uji-t relatif terhadap alternatif yang banyak digunakan dapat mencapai 0. Ini berarti bahwa pilihan tes yang lebih baik bisa mendapatkan kekuatan yang sama dengan sebagian kecil dari ukuran sampel yang diperlukan untuk mendapatkannya dengan uji-t. Anda tidak perlu sesuatu yang luar biasa untuk membutuhkan lebih dari mengatakan data dua kali lebih banyak untuk memiliki kekuatan yang sama dengan t seperti yang Anda perlukan dengan tes alternatif - cukup berat - daripada ekor normal dalam distribusi populasi dan sampel yang cukup besar bisa cukup untuk melakukannya.

(Pilihan distribusi lain mungkin membuat tingkat signifikansi lebih tinggi dari seharusnya, atau jauh lebih rendah dari yang kita lihat di sini.)

— Glen_b -Reinstate Monica
sumber

Terima kasih Glen atas tanggapan terperinci. Saya ingin tahu mengapa kesalahan yang telah Anda uraikan akan terjadi jika asumsi tidak terpenuhi. Dalam hal persamaan varians, apakah saya benar dalam mengambil dari tulisan Anda yang berikut ?: Masalah yang timbul karena memiliki kelompok ukuran sampel yang lebih kecil memiliki varians yang lebih besar adalah (serta jumlah titik data yang kecil pada umumnya yaitu n = 5) bahwa varians yang lebih besar yang diamati dalam sampel yang lebih kecil sedang dihitung sebagai perwakilan dari varians di tingkat populasi.

— PaperRockBazooka

(bagian 2) Ini pada dasarnya perbandingan yang tidak adil antara sampel yang representatif dan sampel yang kurang representatif (secara relatif) yang dapat menyebabkan kesalahan tipe 1 karena cara ANOVA diproses.

— PaperRockBazooka

@ Kertas Saya tidak berpikir itu masalahnya di sini. Ini bukan keterwakilan varians sampel dalam sampel yang lebih kecil (misalnya jika kedua sampel sama-sama kecil, Anda akan memiliki dua kali masalah dengan keterwakilan, tetapi masalah ini tidak ada). Saya telah menambahkan beberapa paragraf ke jawaban saya untuk menjelaskan bagaimana masalah muncul secara lebih rinci.

— Glen_b -Reinstate Monica

4

Singkatnya, ANOVA menambahkan , mengkuadratkan dan rata - rata residu . Residual memberi tahu Anda seberapa baik model Anda cocok dengan data. Untuk contoh ini, saya menggunakan PlantGrowthdataset di R:

Hasil dari percobaan untuk membandingkan hasil (diukur dengan berat kering tanaman) yang diperoleh di bawah kontrol dan dua kondisi perlakuan yang berbeda.

Plot pertama ini menunjukkan kepada Anda mean rata-rata di ketiga tingkat perawatan:

Garis merah adalah residunya . Sekarang dengan mengkuadratkan dan menambahkan panjang dari masing-masing garis tersebut, Anda akan mendapatkan nilai yang memberi tahu Anda seberapa baik rata-rata (model kami) menggambarkan data. Sejumlah kecil, memberi tahu Anda rata-rata menggambarkan poin data Anda dengan baik, angka lebih besar memberi tahu Anda rata-rata menggambarkan data Anda tidak begitu baik. Jumlah ini disebut Total Jumlah Kotak :

$SS_{total}=\sum(x_i-\bar{x}_{grand})^2$ $x_{i}$ $\bar{x}_{grand}$

Sekarang Anda melakukan hal yang sama untuk residu dalam perawatan Anda ( Residual Sums of Squares , yang juga dikenal sebagai kebisingan di tingkat perawatan):

Dan rumusnya:

$SS_{residuals}=\sum(x_{ik}-\bar{x}_{k})^2$ $x_{ik}$ $i$ $k$ $\bar{x}_{k}$

Terakhir, kita perlu menentukan sinyal dalam data, yang dikenal sebagai Model Sums of Squares , yang nantinya akan digunakan untuk menghitung apakah cara perlakuan berbeda dari rata-rata besar:

Dan rumusnya:

$SS_{model}=\sum n_{k}(\bar{x}_k-\bar{x}_{grand})^2$ $n_{k}$ $n$ $k$ $\bar{x}_k$ $\bar{x}_{grand}$

Sekarang kerugian dengan jumlah kuadrat adalah bahwa mereka menjadi lebih besar dengan meningkatnya ukuran sampel. Untuk mengekspresikan jumlah kuadrat tersebut relatif terhadap jumlah pengamatan dalam kumpulan data, Anda membaginya dengan derajat kebebasannya mengubahnya menjadi varian. Jadi setelah mengkuadratkan dan menambahkan titik data Anda, Anda sekarang rata - rata menggunakan tingkat kebebasannya:

$df_{total}=(n-1)$

$df_{residual}=(n-k)$

$df_{model}=(k-1)$

$n$ $k$

Ini menghasilkan Model Mean Square dan Residual Mean Square (keduanya varians), atau rasio sinyal terhadap noise, yang dikenal sebagai nilai-F:

$MS_{model}=\frac{SS_{model}}{df_{model}}$

$MS_{residual}=\frac{SS_{residual}}{df_{residual}}$

$F=\frac{MS_{model}}{MS_{residual}}$

Nilai-F menggambarkan rasio sinyal terhadap noise, atau apakah rata-rata perlakuan berbeda dari mean rata-rata. Nilai-F sekarang digunakan untuk menghitung nilai-p dan mereka akan memutuskan apakah setidaknya satu dari rata-rata perlakuan akan berbeda secara signifikan dari nilai tengah atau tidak.

Sekarang saya harap Anda dapat melihat bahwa asumsi didasarkan pada perhitungan dengan residu dan mengapa itu penting. Karena kita menambahkan , mengkuadratkan dan rata - rata residu, kita harus memastikan bahwa sebelum kita melakukan ini, data dalam kelompok perlakuan tersebut berperilaku serupa , atau nilai F dapat dibiaskan pada tingkat tertentu dan kesimpulan yang diambil dari nilai-F ini dapat tidak valid

Sunting: Saya menambahkan dua paragraf untuk menjawab pertanyaan OP 2 dan 1 secara lebih spesifik .

Asumsi normalitas : Nilai tengah (atau nilai yang diharapkan) sering digunakan dalam statistik untuk menggambarkan pusat distribusi, namun tidak terlalu kuat dan mudah dipengaruhi oleh outlier. Rerata adalah model paling sederhana yang dapat kita masukkan ke data. Karena dalam ANOVA kita menggunakan rata-rata untuk menghitung residu dan jumlah kuadrat (lihat rumus di atas), data harus didistribusikan secara normal (asumsi normalitas). Jika ini bukan masalahnya, mean mungkin bukan model yang tepat untuk data karena tidak akan memberi kami lokasi yang benar dari pusat distribusi sampel. Sebagai gantinya satu kali dapat menggunakan median misalnya (lihat prosedur pengujian non parametrik).

Homogenitas asumsi varians : Nanti ketika kita menghitung kuadrat rata-rata (model dan residual), kita mengumpulkan jumlah kuadrat individu dari tingkat pengobatan dan rata-rata (lihat rumus di atas). Dengan mengumpulkan dan membuat rata-rata, kita kehilangan informasi dari varian tingkat perawatan individual dan kontribusinya terhadap kuadrat rata-rata. Oleh karena itu, kita harus memiliki varians yang kira-kira sama di antara semua tingkat pengobatan sehingga kontribusi terhadap kuadrat rata-rata sama. Jika varians antara level-level perlakuan itu berbeda, maka kuadrat rata-rata yang dihasilkan dan nilai-F akan menjadi bias dan akan mempengaruhi perhitungan inferensi nilai-p yang diambil dari nilai-p ini dipertanyakan (lihat juga komentar @whuber dan @Glen_b menjawab).

Ini adalah bagaimana saya melihatnya sendiri. Mungkin tidak 100% akurat (saya bukan ahli statistik) tetapi ini membantu saya memahami mengapa memuaskan asumsi untuk ANOVA itu penting.

— Stefan
sumber

F

$F$

F

$F$

F

$F$

F

$F$

F

$F$

F

$F$

F

$F$

Stefan terima kasih. Saya ingin melihat apakah saya memahami Anda dengan benar. ANOVA pada dasarnya menciptakan mean rata-rata dari semua titik data set dan membandingkan seberapa jauh masing-masing kelompok berbeda dari mean rata-rata ini untuk memahami apakah perbedaan mereka signifikan secara statistik di antara mereka. Jika asumsi yang dibahas tidak terpenuhi, mean grand tidak terlalu mencerminkan kelompok yang dibandingkan dan itu mengarah pada kesulitan perbandingan

— PaperRockBazooka

S S_{t o t a l}

$SS_{total}$

S S_{r e s i d u a l}

$SS_{residual}$

S S_{m o d e l}

$SS_{model}$ ) untuk menentukan rasio sinyal terhadap noise. Cobalah untuk menghitung ANOVA Satu Arah sederhana dengan tangan. Itu membantu saya untuk memahaminya dengan lebih baik.

— Stefan

0

ANOVA itu hanya metode, menghitung uji-F dari sampel Anda dan membandingkannya dengan distribusi-F. Anda perlu beberapa asumsi untuk memutuskan apa yang ingin Anda bandingkan dan untuk menghitung nilai-p.

Jika Anda tidak memenuhi asumsi itu, Anda dapat menghitung hal-hal lain tetapi itu tidak akan menjadi ANOVA.

Distribusi yang paling berguna adalah yang normal (karena CLT), itu sebabnya ini yang paling umum digunakan. Jika data Anda tidak terdistribusi secara normal, Anda setidaknya perlu tahu apa distribusinya untuk menghitung sesuatu.

Homoscedasticity adalah asumsi umum juga dalam analisis regresi, itu hanya membuat semuanya lebih mudah. Kami perlu beberapa asumsi untuk memulai.

Jika Anda tidak memiliki homoseksualitas, Anda dapat mencoba mengubah data Anda untuk mencapainya.

ANOVA F-test diketahui hampir optimal dalam arti meminimalkan kesalahan negatif palsu untuk tingkat kesalahan positif palsu yang diperbaiki.

— skan
sumber

"ANOVA" mengacu pada proses penguraian jumlah kuadrat menjadi komponen yang dapat ditafsirkan. Terlepas dari asumsi distribusi, maka, ANOVA adalah ANOVA.

— whuber