Bagaimana menafsirkan tipe I, tipe II, dan tipe III ANOVA dan MANOVA?

Pertanyaan utama saya adalah bagaimana menginterpretasikan output (koefisien, F, P) saat melakukan ANOVA Tipe I (berurutan)?

Masalah penelitian spesifik saya sedikit lebih kompleks, jadi saya akan memecah contoh saya menjadi beberapa bagian. Pertama, jika saya tertarik pada efek kepadatan laba-laba (X1) pada pertumbuhan tanaman (Y1) dan saya menanam bibit di kandang dan memanipulasi kepadatan laba-laba, maka saya dapat menganalisis data dengan ANOVA sederhana atau regresi linier. Maka tidak masalah jika saya menggunakan Tipe I, II, atau III Jumlah Kuadrat (SS) untuk ANOVA saya. Dalam kasus saya, saya memiliki 4 ulangan dari 5 tingkat kerapatan, jadi saya dapat menggunakan kerapatan sebagai faktor atau sebagai variabel kontinu. Dalam hal ini, saya lebih suka menafsirkannya sebagai variabel independen (prediktor) yang berkelanjutan. Di RI dapat menjalankan yang berikut:

lm1 <- lm(y1 ~ density, data = Ena)
summary(lm1)
anova(lm1)

Menjalankan fungsi anova akan masuk akal untuk perbandingan nanti, harap abaikan saja keanehannya di sini. Outputnya adalah:

Response: y1
          Df  Sum Sq Mean Sq F value  Pr(>F)  
density    1 0.48357 0.48357  3.4279 0.08058 .
Residuals 18 2.53920 0.14107

Sekarang, katakanlah saya menduga bahwa tingkat awal nitrogen anorganik dalam tanah, yang tidak dapat saya kendalikan, mungkin juga secara signifikan mempengaruhi pertumbuhan tanaman. Saya tidak terlalu tertarik dengan efek ini tetapi ingin memperhitungkan variasi yang disebabkannya. Sungguh, minat utama saya adalah pada efek kepadatan laba-laba (hipotesis: peningkatan kepadatan laba-laba menyebabkan peningkatan pertumbuhan tanaman - mungkin melalui pengurangan serangga herbivora tapi saya hanya menguji efeknya bukan mekanismenya). Saya bisa menambahkan efek N anorganik ke dalam analisis saya.

Demi pertanyaan saya, mari kita berpura-pura bahwa saya menguji kepadatan interaksi * anorganikN dan itu tidak signifikan sehingga saya menghapusnya dari analisis dan menjalankan efek utama berikut:

> lm2 <- lm(y1 ~ density + inorganicN, data = Ena)
> anova(lm2)
Analysis of Variance Table

Response: y1
           Df  Sum Sq Mean Sq F value  Pr(>F)  
density     1 0.48357 0.48357  3.4113 0.08223 .
inorganicN  1 0.12936 0.12936  0.9126 0.35282  
Residuals  17 2.40983 0.14175

Sekarang, ada bedanya apakah saya menggunakan Tipe I atau Tipe II SS (saya tahu beberapa orang keberatan dengan istilah Tipe I & II dll. Tetapi mengingat SAS yang populer itu mudah saja). R anova {stats} menggunakan Tipe I secara default. Saya dapat menghitung tipe II SS, F, dan P untuk kepadatan dengan membalik urutan efek utama saya atau saya dapat menggunakan paket "mobil" Dr. John Fox (pendamping regresi terapan). Saya lebih suka metode yang terakhir karena lebih mudah untuk masalah yang lebih kompleks.

library(car)
Anova(lm2)
            Sum Sq Df F value  Pr(>F)  
density    0.58425  1  4.1216 0.05829 .
inorganicN 0.12936  1  0.9126 0.35282  
Residuals  2.40983 17

Pemahaman saya adalah bahwa hipotesis tipe II adalah, "Tidak ada efek linear dari x1 pada y1 diberikan efek (memegang konstan?) X2" dan sama untuk x2 diberikan x1. Saya kira di sinilah saya bingung. Apa hipotesis yang diuji oleh ANOVA menggunakan metode tipe I (berurutan) di atas dibandingkan dengan hipotesis menggunakan metode tipe II?

Pada kenyataannya, data saya sedikit lebih kompleks karena saya mengukur banyak metrik pertumbuhan tanaman serta dinamika nutrisi dan dekomposisi serasah. Analisis saya yang sebenarnya adalah sesuatu seperti:

Y <- cbind(y1 + y2 + y3 + y4 + y5)
# Type II
mlm1 <- lm(Y ~ density + nitrate + Npred, data = Ena)
Manova(mlm1)

Type II MANOVA Tests: Pillai test statistic
        Df test stat approx F num Df den Df  Pr(>F)    
density  1   0.34397        1      5     12 0.34269    
nitrate  1   0.99994    40337      5     12 < 2e-16 ***
Npred    1   0.65582        5      5     12 0.01445 * 


# Type I
maov1 <- manova(Y ~ density + nitrate + Npred, data = Ena)
summary(maov1)

          Df  Pillai approx F num Df den Df  Pr(>F)    
density    1 0.99950     4762      5     12 < 2e-16 ***
nitrate    1 0.99995    46248      5     12 < 2e-16 ***
Npred      1 0.65582        5      5     12 0.01445 *  
Residuals 16

— djhocking
sumber

Apa yang Anda panggil tipe II SS, saya akan memanggil tipe III SS. Mari kita bayangkan bahwa hanya ada dua faktor A dan B (dan kita akan melemparkan interaksi A * B nanti untuk membedakan tipe II SS). Lebih jauh, mari kita bayangkan bahwa ada perbedaan dalam empat sel (misalnya, = 11, = 9, = 9, dan = 11). Sekarang dua faktor Anda saling berkorelasi. (Coba ini sendiri, buat 2 kolom 1 dan 0 dan korelasikan, ; nb tidak masalah jika 'signifikan', ini adalah seluruh populasi yang Anda sayangi). Masalah dengan faktor-faktor Anda yang berkorelasi adalah bahwa ada jumlah kuadrat yang terkait dengan keduanya $n$ $n_{11}$ $n_{12}$ $n_{21}$ $n_{22}$ $r=.1$ $r$ A dan B. Saat menghitung ANOVA (atau regresi linier lainnya), kami ingin mempartisi jumlah kuadrat. Partisi menempatkan semua jumlah kuadrat menjadi satu dan hanya satudari beberapa himpunan bagian. (Misalnya, kami mungkin ingin membagi SS menjadi A, B dan kesalahan.) Namun, karena faktor Anda (masih hanya A dan B di sini) tidak ortogonal, tidak ada partisi unik dari SS ini. Bahkan, mungkin ada sangat banyak partisi, dan jika Anda bersedia untuk mengiris SS Anda menjadi pecahan (misalnya, "Saya akan menempatkan 0,5 ke dalam bin ini dan 0,5 ke dalam yang itu"), ada partisi yang tak terbatas. Cara untuk memvisualisasikan ini adalah dengan membayangkan simbol MasterCard: Persegi panjang mewakili total SS, dan masing-masing lingkaran mewakili SS yang disebabkan oleh faktor itu, tetapi perhatikan tumpang tindih antara lingkaran di tengah, SS tersebut dapat diberikan untuk kedua lingkaran.

masukkan deskripsi gambar di sini

Pertanyaannya adalah: Bagaimana kita memilih partisi 'benar' dari semua kemungkinan ini? Mari kita bawa kembali interaksi dan diskusikan beberapa kemungkinan:

Tipe I SS:

SS (A)
SS (B | A)
SS (A * B | A, B)

Tipe II SS:

SS (A | B)
SS (B | A)
SS (A * B | A, B)

Tipe III SS:

SS (A | B, A * B)
SS (B | A, A * B)
SS (A * B | A, B)

Perhatikan bagaimana berbagai kemungkinan ini bekerja. Hanya tipe I SS yang benar-benar menggunakan SS tersebut di bagian yang tumpang tindih di antara lingkaran dalam simbol MasterCard. Artinya, SS yang dapat dikaitkan dengan baik A atau B, yang benar-benar dikaitkan dengan salah satu dari mereka ketika Anda menggunakan tipe I SS (khusus, yang Anda masukkan ke dalam model yang pertama). Dalam kedua pendekatan lainnya, SS yang tumpang tindih tidak digunakan sama sekali . Jadi, tipe I SS memberikan A semua SS yang dikaitkan dengan A (termasuk yang bisa juga dikaitkan di tempat lain), kemudian memberikan kepada B semua SS yang tersisa yang disebabkan oleh B, kemudian memberikan ke interaksi A * B semua dari yang tersisaSS yang disebabkan oleh A * B, dan meninggalkan overs-kiri yang tidak dapat dikaitkan dengan apa pun dengan istilah kesalahan.

Tipe III SS hanya memberikan A SS yang secara unik dikaitkan dengan A, demikian juga hanya memberikan B dan interaksi SS yang secara unik dikaitkan dengan mereka. Istilah kesalahan hanya mendapatkan SS yang tidak dapat dikaitkan dengan salah satu faktor. Dengan demikian, SS 'ambigu' yang dapat dikaitkan dengan 2 atau lebih kemungkinan tidak digunakan. Jika Anda menjumlahkan tipe III SS dalam tabel ANOVA, Anda akan melihat bahwa mereka tidak sama dengan total SS. Dengan kata lain, analisis ini pasti salah, tetapi keliru dengan cara yang konservatif secara epistemik. Banyak ahli statistik berpendapat bahwa pendekatan ini mengerikan, tetapi agen pendanaan pemerintah (saya percaya FDA) membutuhkan penggunaannya.

Pendekatan tipe II dimaksudkan untuk menangkap apa yang mungkin berharga tentang ide di balik tipe III, tetapi mengurangi terhadap kelebihannya. Secara khusus, itu hanya menyesuaikan SS untuk A dan B untuk satu sama lain, bukan interaksi. Namun, dalam praktiknya tipe II SS pada dasarnya tidak pernah digunakan. Anda perlu tahu tentang semua ini dan cukup paham dengan perangkat lunak Anda untuk mendapatkan perkiraan ini, dan para analis yang biasanya berpikir ini adalah bunk.

Ada lebih banyak jenis SS (saya percaya IV dan V). Mereka disarankan di akhir 60-an untuk menghadapi situasi tertentu, tetapi belakangan terbukti bahwa mereka tidak melakukan apa yang dipikirkan. Jadi, pada titik ini mereka hanya catatan kaki sejarah.

Adapun pertanyaan apa yang dijawab, pada dasarnya Anda sudah memiliki hak itu dalam pertanyaan Anda:

Diperkirakan menggunakan tipe I SS memberitahu Anda berapa banyak variabilitas dalam Y dapat dijelaskan oleh A, berapa banyak variabilitas residual dapat dijelaskan oleh B, berapa banyak sisa variabilitas yang tersisa dapat dijelaskan oleh interaksi, dan sebagainya, dalam urutan .
Perkiraan berdasarkan tipe III SS memberi tahu Anda seberapa besar variabilitas residual dalam Y dapat dipertanggungjawabkan oleh A setelah memperhitungkan semua yang lain, dan berapa banyak variabilitas residual dalam Y dapat dipertanggungjawabkan oleh B setelah memperhitungkan semua yang lain juga, dan seterusnya. (Perhatikan bahwa keduanya berjalan pertama dan terakhir secara bersamaan; jika ini masuk akal bagi Anda, dan secara akurat mencerminkan pertanyaan penelitian Anda, maka gunakan tipe III SS.)

— gung - Reinstate Monica
sumber

terima kasih atas jawaban yang sangat membantu. Satu area lain di mana saya menjadi bingung adalah bahwa jika "Perkiraan menggunakan tipe I SS memberitahu Anda berapa banyak variabilitas dalam Y dapat dijelaskan oleh A, berapa banyak variabilitas residual dapat dijelaskan oleh B, berapa banyak sisa residu variabilitas dapat dijelaskan oleh interaksi, dan seterusnya, secara berurutan, "lalu mengapa statistik dikaitkan dengan A berubah ketika variabel tambahan ditambahkan? Apakah karena tes didasarkan pada SS (A) / SS (kesalahan) dan kesalahan adalah fungsi dari semua istilah dalam model? Apakah saya memikirkan ini dengan benar?

— djhocking

Dengan "statistik yang terkait dengan A", saya menafsirkan Anda untuk berarti nilai F dan p untuk efek utama A. Nilai F untuk A adalah rasio Mean Square untuk A (yaitu, SSA / dfA) dengan Kesalahan MS. Ketika Anda menambahkan lebih banyak faktor, SS diambil dari istilah kesalahan dan diberikan kepada faktor-faktor tersebut. Secara umum, ini berarti bahwa kesalahan MS turun, dan dengan demikian rasio naik. Akibatnya, nilai-F untuk A menjadi lebih besar dan nilai-p semakin kecil. Karena derajat kebebasan juga berubah, ini bisa lebih rumit dari ini, tetapi itulah intinya.

— gung - Reinstate Monica

Ups, yang saya maksud adalah MS (A) / MSE untuk statistik F. Bagaimanapun, jawaban Anda sempurna, terima kasih lagi atas semua bantuan Anda!

— djhocking

Saya ingin tahu, tentang perincian interpretasi ketika menggunakan tipe I. Dalam kasus saya, kepadatan adalah satu-satunya variabel yang saya minati dan satu-satunya yang saya manipulasi secara eksperimental. Namun disayangkan, kepadatan tidak signifikan pada itu sendiri atau setelah memperhitungkan dua variabel lain yang saya minati (Npredator, anorganikN dalam tipe II atau III). Tetapi karena anorganikN jelas menjelaskan banyak variasi dalam beberapa variabel dependen ketika saya menambahkannya sebagai variabel ke-3 itu membuat 2 lainnya sangat signifikan. Karena itu, apakah kepadatan benar-benar memiliki pengaruh signifikan terhadap Y? Apakah ini masuk akal?

— djhocking

@JonBonJovi, analogi MasterCard hanya memiliki 2 faktor. Jika Anda menginginkan 2 faktor plus interaksi, maka Anda akan membutuhkan 3 area yang saling tumpang tindih. Tentunya dimungkinkan untuk menggambar diagram Euler dengan 3 area, tetapi saya hanya menggunakan simbol MasterCard untuk kesederhanaan. Untuk interaksi, bayangkan lingkaran ke-3 yang tumpang tindih dengan 2 pertama (misalnya, itu bisa dipusatkan dari kanan ke kiri, tetapi sebagian besar di atas yang lain); maka semua lingkaran A (SS) akan menuju ke A, semua yang ada di B yang tidak tumpang tindih A pergi ke B, & semua yang ada di A B yang tidak tumpang tindih * baik A atau B pergi ke interaksi.

— gung - Reinstate Monica