Apa hubungan antara ANOVA untuk membandingkan cara beberapa kelompok dan ANOVA untuk membandingkan model bersarang?

11

Sejauh ini saya telah melihat ANOVA digunakan dalam dua cara:

Pertama , dalam teks statistik pengantar saya, ANOVA diperkenalkan sebagai cara untuk membandingkan rata-rata tiga kelompok atau lebih, sebagai peningkatan dibandingkan perbandingan berpasangan, untuk menentukan apakah salah satu cara memiliki perbedaan yang signifikan secara statistik.

Kedua , dalam teks pembelajaran statistik saya, saya telah melihat ANOVA digunakan untuk membandingkan dua (atau lebih) model bersarang untuk menentukan apakah Model 1, yang menggunakan subset prediktor Model 2, cocok dengan data sama baiknya, atau jika penuh Model 2 lebih unggul.

Sekarang saya berasumsi bahwa dalam beberapa cara kedua hal ini sebenarnya sangat mirip karena mereka berdua menggunakan tes ANOVA, tetapi di permukaan mereka tampak sangat berbeda bagi saya. Untuk satu, penggunaan pertama membandingkan tiga kelompok atau lebih, sedangkan metode kedua dapat digunakan untuk membandingkan hanya dua model. Akankah seseorang tolong menjelaskan hubungan antara kedua kegunaan ini?

— Austin
sumber

2

Secara singkat, saya pikir "anova" kedua bukanlah ANOVA sama sekali (jika Anda membaca en.wikipedia.org/wiki/Analysis_of_variance Anda tidak akan melihat penyebutan perbandingan model bersarang). Ini adalah en.wikipedia.org/wiki/F-test dan diimplementasikan dalam anova()fungsi R , karena ANOVA pertama, nyata, juga menggunakan uji-F. Ini menyebabkan kebingungan terminologi.

— Amoeba berkata Reinstate Monica

Terima kasih, saya pikir Anda memukul paku di kepala! Saya tidak mempertimbangkan bahwa anova()fungsi tersebut dapat melakukan lebih dari sekedar ANOVA. Posting ini mendukung kesimpulan Anda: stackoverflow.com/questions/20128781/f-test-for-two-models-in-r

— Austin

1

Saya diajari oleh seorang ahli statistik lulusan bahwa ANOVA sebagai tes multisampel adalah hal yang sama dengan ANOVA sebagai tes supremasi model bersarang. Hal yang sama berarti, menurut pemahaman saya, bahwa kami membandingkan jumlah (atau rata-rata) residu yang dihasilkan dari tidak ada model atau model yang lebih sederhana dengan residu yang dihasilkan dari suatu model, dan uji-F berlaku untuk kedua situasi tersebut karena asumsi dipenuhi. Jawaban yang saya coba benar-benar tentang itu. Saya sendiri akan tertarik untuk memahami hubungan antara setidaknya satu koefisien lm berbeda dari nol (satu-model F-statistik) dan jumlah residu.

— Alexey Burnakov

11

Dalam pemahaman saya, intuisi abstrak ANOVA adalah sebagai berikut: Seseorang menguraikan sumber varians dari variabel yang diamati dalam berbagai arah dan menyelidiki kontribusi masing-masing. Untuk lebih tepatnya, seseorang menguraikan peta identitas menjadi sejumlah proyeksi dan menyelidiki proyeksi / arah mana yang memberikan kontribusi penting untuk menjelaskan perbedaan dan mana yang tidak. Basis teoretisnya adalah teorema Cochran .

Agar kurang abstrak, saya memasukkan bentuk kedua yang disebutkan oleh OP ke dalam kerangka yang baru saja dijelaskan. Selanjutnya, saya menafsirkan bentuk pertama sebagai kasus khusus yang kedua.

Mari kita pertimbangkan model regresi dengan variabel penjelas (model lengkap) dan membandingkannya dengan model terbatas dengan variabel . WLOG, variabel terakhir dari model lengkap tidak termasuk dalam model terbatas. Pertanyaan yang dijawab oleh ANOVA adalah $K$ $K-J$ $J$

"Bisakah kita jelaskan lebih banyak variasi dalam variabel yang diamati jika kita memasukkan variabel tambahan " $J$ ?

Pertanyaan ini dijawab dengan membandingkan kontribusi varian dari variabel pertama , variabel berikutnya , dan sisanya / bagian yang tidak dijelaskan (jumlah residu kuadrat). Dekomposisi ini (diperoleh misalnya dari teorema Cochran) digunakan untuk menyusun uji-F. Dengan demikian, satu menganalisis pengurangan (dengan memasukkan lebih banyak variabel) dalam jumlah residual kuadrat dari model terbatas (sesuai dengan semua koefisien yang berkaitan dengan variabel terakhir adalah nol ) dengan memasukkan lebih banyak variabel dan memperoleh F-statistik Jika nilainya cukup besar, maka varians dijelaskan oleh tambahan $K-J$ $J$ $H_0:$ $J$

\frac{\frac{R S S_{r e s t r} - R S S_{f u l l}}{J}}{\frac{R S S_{f u l l}}{N - K}}

$\frac{ \frac{RSS_{restr} - RSS_{full}}{J} }{ \frac{RSS_{full}}{N-K} }$

J

$J$ variabel signifikan.

Sekarang, bentuk pertama yang disebutkan oleh OP ditafsirkan sebagai kasus khusus dari bentuk kedua . Pertimbangkan tiga grup A, B, dan C yang berbeda dengan sarana , , dan . The diuji dengan membandingkan varians dijelaskan oleh regresi pada intercept (model terbatas) dengan varians dijelaskan oleh model penuh berisi intercept, dummy untuk kelompok A, dan boneka untuk grup B. F-statistik yang dihasilkan setara dengan ANOVA- tes di Wikipedia $\mu_A$ $\mu_B$ $\mu_C$ $H_0: \mu_A = \mu_B = \mu_C$

\frac{\frac{R S S_{i n t e r c e p t} - R S S_{d u m m i e s}}{2}}{\frac{R S S_{d u m m i e s}}{N - 3}}

$\frac{ \frac{RSS_{intercept} - RSS_{dummies}}{2} }{ \frac{RSS_{dummies}}{N-3} }$ . Penyebut sama dengan variasi dalam kelompok, pembilang sama dengan variasi di antara kelompok. Jika variasi antara kelompok lebih besar daripada variasi dalam kelompok, orang menolak hipotesis bahwa semua sarana sama.

— bmbb
sumber

+1. Saya ingin tahu apakah Anda akan setuju dengan komentar saya tentang terminologi dalam komentar di sini: stats.stackexchange.com/questions/315979/#comment602611_315979 .

— Amuba mengatakan Reinstate Monica

Saya pasti setuju bahwa ada banyak kebingungan dalam terminologi ;-). Bahasa sehari-hari, saya mengasosiasikan ANOVA hanya dengan bentuk pertama OP. Saya baru saja melihat buku Scheffé "The Analysis of Variance" di mana "desain bersarang" disebutkan.

— bmbb

@ bbbb, saya akan menambahkan komentar terakhir Anda ini: kasus sederhana di mana kami membandingkan model bersarang lm, salah satunya adalah mencegat saja. Fakta yang telah menjelaskan kepada saya tentang model dengan intersep adalah ketika kita merujuk pada residualnya, kita memang merujuk pada variansnya, karena residual dihitung relatif terhadap rata-rata variabel (yang mencegat model), dan mereka adalah penyimpangan dari mean sampel. Jadi kami masih melakukan analisis varians dalam kasus model bersarang, bahkan jika kami secara formal menganalisis residu.

— Alexey Burnakov

6

Jika Anda melakukan ANOVA satu arah untuk menguji apakah ada perbedaan yang signifikan antara kelompok, maka secara implisit Anda membandingkan dua model bersarang (jadi hanya ada satu tingkat bersarang, tetapi masih bersarang).

Kedua model tersebut adalah:

Model 0: Nilai-nilai (dengan jumlah sampel dan jumlah kelompok) dimodelkan dengan estimasi rata-rata, dari seluruh sampel. $y_{ij}$ $i$ $j$ $\hat{\beta}_0$ $y_{i j} = {\hat{β}}_{0} + ϵ_{i}$ $y_{ij} = \hat{\beta}_0 + \epsilon_i$
Model 1: Nilai-nilai dimodelkan dengan cara perkiraan kelompok.

(dan jika kami mewakili model dengan variasi grup antara, , maka model 0 bersarang di dalam model 1) $\hat{\beta_j}$

$y_{i} = {\hat{β}}_{0} + {\hat{β}}_{j} + ϵ_{i}$ $y_i = \hat{\beta}_0 + \hat{\beta}_j + \epsilon_i$

Contoh membandingkan cara dan ekivalensi dengan model bersarang: mari kita ambil panjang sepal (cm) dari set data iris (jika kita menggunakan keempat variabel kita sebenarnya bisa melakukan LDA atau MANOVA seperti yang dilakukan Fisher pada tahun 1936)

Total yang diamati dan rata-rata kelompok adalah:

\begin{matrix} μ_{t o t a l} & = 5.83 \\ μ_{s e t o s a} & = 5.01 \\ μ_{v e r s i c o l o r} & = 5.94 \\ μ_{v i r g i n i c a} & = 6.59 \end{matrix}

$\begin{array} \\ \mu_{total} &= 5.83\\ \mu_{setosa} &= 5.01\\ \mu_{versicolor} &= 5.94\\ \mu_{virginica} &= 6.59\\ \end{array}$

Yang ada dalam bentuk model:

\begin{matrix} model 1: & y_{i j} = 5.83 + ϵ_{i} \\ model 2: & y_{i j} = 5.01 + {[\begin{matrix} 0 \\ 0.93 \\ 1.58 \end{matrix}]}_{j} + ϵ_{i} \end{matrix}

$\begin{array}\\ \text{model 1: }& y_{ij} = 5.83 + \epsilon_i\\ \text{model 2: }& y_{ij} = 5.01 + \begin{bmatrix} 0 \\ 0.93 \\ 1.58 \end{bmatrix}_j + \epsilon_i\\ \end{array}$

The dalam model 1 merupakan jumlah total dari kotak . $\sum{\epsilon_i^2} = 102.1683$

The dalam model 2 merupakan dalam kelompok jumlah kuadrat . $\sum{\epsilon_i^2} = 38.9562$

Dan tabel ANOVA akan seperti (dan secara implisit menghitung selisih antara jumlah kelompok kuadrat yang merupakan 63,212 dalam tabel dengan 2 derajat kebebasan):

> model1 <- lm(Sepal.Length ~ 1 + Species, data=iris)
> model0 <- lm(Sepal.Length ~ 1, data=iris)
> anova(model0, model1)
Analysis of Variance Table

Model 1: Sepal.Length ~ 1
Model 2: Sepal.Length ~ 1 + Species
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1    149 102.168                                  
2    147  38.956  2    63.212 119.26 < 2.2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

dengan

F = \frac{\frac{R S S_{d i f f e r e n c e}}{D F_{d i f f e r e n c e}}}{\frac{R S S_{n e w}}{D F_{n e w}}} = \frac{\frac{63.212}{2}}{\frac{38.956}{147}} = 119.26

$F = \frac{\frac{RSS_{difference}}{DF_{difference}}}{\frac{RSS_{new}}{DF_{new}}} = \frac{\frac{63.212}{2}}{\frac{38.956}{147}} = 119.26$

set data yang digunakan dalam contoh:

panjang kelopak (cm) untuk tiga spesies bunga Iris yang berbeda

Iris setosa            Iris versicolor      Iris virginica
5.1                    7.0                    6.3
4.9                    6.4                    5.8
4.7                    6.9                    7.1
4.6                    5.5                    6.3
5.0                    6.5                    6.5
5.4                    5.7                    7.6
4.6                    6.3                    4.9
5.0                    4.9                    7.3
4.4                    6.6                    6.7
4.9                    5.2                    7.2
5.4                    5.0                    6.5
4.8                    5.9                    6.4
4.8                    6.0                    6.8
4.3                    6.1                    5.7
5.8                    5.6                    5.8
5.7                    6.7                    6.4
5.4                    5.6                    6.5
5.1                    5.8                    7.7
5.7                    6.2                    7.7
5.1                    5.6                    6.0
5.4                    5.9                    6.9
5.1                    6.1                    5.6
4.6                    6.3                    7.7
5.1                    6.1                    6.3
4.8                    6.4                    6.7
5.0                    6.6                    7.2
5.0                    6.8                    6.2
5.2                    6.7                    6.1
5.2                    6.0                    6.4
4.7                    5.7                    7.2
4.8                    5.5                    7.4
5.4                    5.5                    7.9
5.2                    5.8                    6.4
5.5                    6.0                    6.3
4.9                    5.4                    6.1
5.0                    6.0                    7.7
5.5                    6.7                    6.3
4.9                    6.3                    6.4
4.4                    5.6                    6.0
5.1                    5.5                    6.9
5.0                    5.5                    6.7
4.5                    6.1                    6.9
4.4                    5.8                    5.8
5.0                    5.0                    6.8
5.1                    5.6                    6.7
4.8                    5.7                    6.7
5.1                    5.7                    6.3
4.6                    6.2                    6.5
5.3                    5.1                    6.2
5.0                    5.7                    5.9

— Sextus Empiricus
sumber

1

+1 tetapi memformat tabel data sebagai tabel lateks adalah praktik yang sangat buruk !! Seseorang tidak dapat menyalin-menempelkannya di mana saja! Jika Anda benar-benar ingin memasukkan data, mengapa tidak memformatnya sebagai blok kode? Tetapi dalam hal ini Anda juga dapat menautkan ke artikel Wikipedia Fisher Iris yang berisi data.

— Amoeba berkata Reinstate Monica

Selain itu, apa pendapat Anda tentang masalah terminologi yang saya sebutkan di komentar ini stats.stackexchange.com/questions/315979/#comment602611_315979 ?

— Amuba mengatakan Reinstate Monica

1

Saya tidak percaya bahwa terminologi fuzzy adalah masalah besar. Dalam benak saya, saya sebenarnya tidak pernah menganggap ANOVA sebagai perbandingan varians di dalam dan di antara kelompok-kelompok dan selalu membuat proyeksi mental dengan perbandingan dua model. Saya tidak percaya itu adalah masalah besar karena distribusi-f, rasio dua variabel terdistribusi chi-kuadrat, dalam arti tertentu, rasio variasi. Menerapkan uji-f untuk mempelajari model bersarang adalah semacam membandingkan variasi, menganalisis variasi, maka ANOVA tampaknya tidak masalah bagi saya (saya saat ini mencoba mencari beberapa referensi sejarah).

— Sextus Empiricus

Saya tidak mengatakan ini masalah. Tapi saya bertanya-tanya apakah istilah "ANOVA" mengacu pada uji-F yang membandingkan model bersarang hanya dalam R (seperti yang saya sarankan dalam komentar terkait saya) atau apakah itu istilah yang lebih luas diterima. Saya tidak memeriksa buku teks, jadi bukti saya hanya berasal dari Wikipedia.

— Amuba mengatakan Reinstate Monica

Dalam Fisher, 1925, Metode Statistik untuk Pekerja Penelitian, ketika ia menjelaskan 'analisis varians' ia memasukkan contoh-contoh yang menerapkan teknik tersebut ke garis regresi (tetapi tidak ada model bersarang).

— Sextus Empiricus

1

Penggunaan ANOVA dalam perbandingan antara beberapa model berarti untuk menguji apakah setidaknya satu dari koefisien yang digunakan dalam model dengan orde yang lebih tinggi (dan tidak ada dalam model dengan orde yang lebih rendah) secara signifikan berbeda dari nol.

Itu sama dengan mengatakan bahwa jumlah residu untuk model orde tinggi secara signifikan lebih kecil daripada jumlah model orde bawah.

Ini adalah tentang dua model karena persamaan dasar yang digunakan adalah

MSM/MSE

Di mana MSM adalah rata-rata residu kuadrat dari model orde bawah (di mana orde terendah adalah rata-rata variabel target, yaitu intersep).

( http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm )

Anda dapat membaca topik serupa di CV, seperti

Bagaimana cara menggunakan anova untuk perbandingan dua model?

— Alexey Burnakov
sumber

IMHO ini tidak menjawab pertanyaan.

— Amoeba berkata Reinstate Monica

1

Dari apa yang saya pelajari,

Anda dapat menggunakan tabel ANOVA untuk menentukan apakah variabel penjelas Anda benar-benar memiliki pengaruh signifikan terhadap variabel respons, dan dengan demikian sesuai dengan model yang sesuai.

$x_1$ $x_2$ $x_2$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + ϵ

$y=\beta_0 + \beta_1x_1 + \beta_2x_2 + \epsilon$

y = β_{0} + β_{1} x_{1} + ϵ

$y=\beta_0 + \beta_1x_1 + \epsilon$

$x_1$

Berikut ini adalah contoh keluaran ANOVA untuk proyek yang saya kerjakan di R, di mana saya menguji dua model (satu dengan Hari Variabel, dan satu tanpa Hari Variabel):

Seperti yang Anda lihat, nilai-p yang sesuai dari uji-F adalah 0,13, yang lebih besar dari 0,05. Jadi, kita tidak bisa menolak hipotesis nol bahwa Days tidak berpengaruh pada Y. Jadi, saya memilih model 1 daripada model 2.

— JPMSpoof
sumber

IMHO ini tidak menjawab pertanyaan.

— Amoeba berkata Reinstate Monica