Pertanyaan ini jelas berasal dari penelitian dengan desain dua arah yang tidak seimbang, dianalisis dalam R dengan aov()
fungsi; halaman ini memberikan contoh yang lebih baru dan terperinci tentang masalah ini.
Jawaban umum untuk pertanyaan ini, seperti halnya bagi banyak orang, adalah: "Itu tergantung." Di sini tergantung pada apakah desainnya seimbang dan, jika tidak, rasa ANOVA mana yang dipilih.
Pertama, itu tergantung pada apakah desainnya seimbang. Dalam yang terbaik dari semua dunia yang mungkin, dengan jumlah kasus yang sama di semua sel dari desain faktorial, tidak akan ada perbedaan karena urutan memasukkan faktor ke dalam model, terlepas dari bagaimana ANOVA dilakukan. * Kasus-kasus yang ada , jelas dari kohort klinis retrospektif, tampaknya berasal dari dunia nyata di mana keseimbangan seperti itu tidak ditemukan. Jadi urutannya mungkin penting.
Kedua, itu tergantung pada bagaimana ANOVA dilakukan, yang merupakan masalah yang agak kontroversial. Jenis-jenis ANOVA untuk desain yang tidak seimbang berbeda dalam urutan mengevaluasi efek dan interaksi utama. Mengevaluasi interaksi merupakan hal mendasar untuk ANOVA dua arah dan tingkat tinggi, sehingga ada perselisihan tentang cara terbaik untuk melanjutkan. Lihat halaman Cross Validated ini untuk satu penjelasan dan diskusi. Lihat Detail dan Peringatan untuk fungsi Anova()
(dengan huruf besar "A") dalam manual untuk car
paket untuk tampilan yang berbeda.
Urutan faktor tidak masalah dalam desain yang tidak seimbang di bawah standar aov()
dalam R, yang menggunakan apa yang disebut tes tipe-I. Ini adalah atribusi berurutan varians dengan faktor-faktor dalam urutan masuk ke dalam model, seperti pertanyaan yang dibayangkan. Urutan tidak masalah dengan tes tipe-II atau tipe-III yang disediakan oleh Anova()
fungsi dalam car
paket dalam R. Namun, alternatif-alternatif ini memiliki potensi kerugiannya sendiri sebagaimana tercantum dalam tautan di atas.
Akhirnya, pertimbangkan hubungan dengan regresi linier berganda seperti lm()
pada R, yang pada dasarnya adalah tipe model yang sama jika Anda memasukkan istilah interaksi. Urutan masuknya variabel lm()
tidak menjadi masalah dalam hal koefisien regresi dan nilai p yang dilaporkan oleh summary(lm())
, di mana faktor kategori tingkat-k dikodekan sebagai (k-1) variabel dummy biner dan koefisien regresi dilaporkan untuk setiap dummy .
Namun demikian, dimungkinkan untuk membungkus lm()
output dengan anova()
(huruf kecil "a," dari stats
paket R ) atau Anova()
untuk merangkum pengaruh masing-masing faktor terhadap semua levelnya, seperti yang diharapkan dalam ANOVA klasik. Kemudian urutan faktor akan peduli dengan anova()
seperti untuk aov()
, dan tidak akan peduli dengan Anova()
. Demikian pula, perselisihan tentang jenis ANOVA mana yang akan digunakan akan kembali. Jadi tidak aman untuk mengasumsikan keteraturan-masuknya faktor dengan semua penggunaan lm()
model hilir .
* Memiliki jumlah pengamatan yang sama di semua sel sudah cukup tetapi, seperti yang saya mengerti, tidak perlu urutan faktor menjadi tidak relevan. Jenis-jenis keseimbangan yang kurang menuntut mungkin memungkinkan independensi pesanan.