Dalam istilah sederhana, bagaimana Anda menjelaskan (mungkin dengan contoh sederhana) perbedaan antara model efek tetap, efek acak dan campuran?
Dalam istilah sederhana, bagaimana Anda menjelaskan (mungkin dengan contoh sederhana) perbedaan antara model efek tetap, efek acak dan campuran?
Jawaban:
Ahli statistik Andrew Gelman mengatakan bahwa istilah 'efek tetap' dan 'efek acak' memiliki makna variabel tergantung pada siapa yang menggunakannya. Mungkin Anda dapat memilih salah satu dari 5 definisi yang berlaku untuk kasus Anda. Secara umum mungkin lebih baik mencari persamaan yang menggambarkan model probabilitas yang penulis gunakan (saat membaca) atau menuliskan model probabilitas penuh yang ingin Anda gunakan (saat menulis).
Di sini kita menguraikan lima definisi yang telah kita lihat:
Efek tetap konstan di antara individu, dan efek acak bervariasi. Misalnya, dalam studi pertumbuhan, model dengan intersepsi acak dan kemiringan tetap sesuai dengan garis paralel untuk individu yang berbeda , atau model . Kreft dan De Leeuw (1998) dengan demikian membedakan antara koefisien tetap dan acak. b i y i t = a i + b t
Efeknya tetap jika mereka menarik dalam dirinya sendiri atau acak jika ada minat pada populasi yang mendasarinya. Searle, Casella, dan McCulloch (1992, Bagian 1.4) mengeksplorasi perbedaan ini secara mendalam.
“Ketika sampel menguras populasi, variabel terkait diperbaiki; ketika sampel adalah bagian kecil (yaitu, dapat diabaikan) dari populasi variabel yang sesuai adalah acak. "(Green dan Tukey, 1960)
"Jika suatu efek diasumsikan sebagai nilai realisasi dari variabel acak, itu disebut efek acak." (LaMotte, 1983)
Efek tetap diperkirakan menggunakan kuadrat terkecil (atau, lebih umum, kemungkinan maksimum) dan efek acak diperkirakan dengan penyusutan ("prediksi linear tidak memihak" dalam terminologi Robinson, 1991). Definisi ini adalah standar dalam literatur pemodelan bertingkat (lihat, misalnya, Snijders dan Bosker, 1999, Bagian 4.2) dan dalam ekonometrika.
[ Gelman, 2004, Analisis varian — mengapa itu lebih penting dari sebelumnya. The Annals of Statistics. ]
(4) “If an effect is assumed to be a realized value of a random variable, it is called a random effect.” (LaMotte, 1983)
Ada buku bagus tentang ini seperti Gelman dan Hill . Berikut ini adalah ringkasan dari perspektif mereka.
Pertama-tama, Anda jangan terlalu terjebak dalam terminologi. Dalam statistik, jargon tidak boleh digunakan sebagai pengganti pemahaman matematis dari model itu sendiri. Itu terutama berlaku untuk model efek acak dan campuran. "Campur" hanya berarti model memiliki efek tetap dan acak, jadi mari kita fokus pada perbedaan antara tetap dan acak.
Katakanlah Anda memiliki model dengan prediktor kategoris, yang membagi pengamatan Anda menjadi beberapa kelompok sesuai dengan nilai-nilai kategori. * Koefisien model, atau "efek", yang terkait dengan prediktor itu dapat tetap atau acak. Perbedaan praktis yang paling penting antara keduanya adalah ini:
Efek acak diperkirakan dengan pooling parsial, sedangkan efek tetap tidak.
Pengumpulan sebagian berarti bahwa, jika Anda memiliki beberapa titik data dalam suatu kelompok, perkiraan efek grup akan didasarkan sebagian pada data yang lebih berlimpah dari kelompok lain. Ini bisa menjadi kompromi yang bagus antara memperkirakan efek dengan menyatukan semua grup, yang menutupi variasi level grup, dan memperkirakan efek untuk semua grup secara terpisah, yang dapat memberikan estimasi buruk untuk grup sampel rendah.
Efek acak hanyalah perpanjangan dari teknik pengumpulan parsial sebagai model statistik tujuan umum. Hal ini memungkinkan aplikasi ide untuk berbagai situasi, termasuk beberapa prediktor, variabel kontinyu dan variabel campuran, dan struktur korelasi yang kompleks. (Tetapi dengan kekuatan besar muncul tanggung jawab besar: kompleksitas pemodelan dan inferensi secara substansial meningkat, dan dapat memunculkan bias halus yang membutuhkan kecanggihan yang harus dihindari.)
Untuk memotivasi model efek acak, tanyakan pada diri Anda: mengapa Anda mengumpulkan sebagian? Mungkin karena Anda pikir subkelompok kecil adalah bagian dari kelompok yang lebih besar dengan efek rata-rata yang sama. Subkelompok berarti dapat menyimpang sedikit dari mean kelompok besar, tetapi tidak dengan jumlah yang sewenang-wenang. Untuk memformalkan ide itu, kami berpendapat bahwa penyimpangan mengikuti distribusi, biasanya Gaussian. Di situlah "acak" dalam efek acak masuk: kami mengasumsikan penyimpangan dari subkelompok dari orangtua mengikuti distribusi variabel acak. Setelah Anda memiliki ide ini dalam pikiran, persamaan model efek campuran mengikuti secara alami.
Sayangnya, pengguna model efek campuran sering memiliki prasangka salah tentang apa efek acak dan bagaimana mereka berbeda dari efek tetap. Orang-orang mendengar "acak" dan berpikir itu berarti sesuatu yang sangat istimewa tentang sistem yang dimodelkan, seperti efek tetap harus digunakan ketika ada sesuatu yang "diperbaiki" sedangkan efek acak harus digunakan ketika sesuatu "sampel acak". Tetapi tidak ada yang terlalu acak tentang asumsi bahwa koefisien model berasal dari distribusi; itu hanya kendala lembut, mirip dengan penalti diterapkan pada koefisien model dalam regresi ridge. Ada banyak situasi di mana Anda mungkin atau mungkin tidak ingin menggunakan efek acak, dan mereka tidak harus banyak terkait dengan perbedaan antara "tetap" dan "acak"
Sayangnya, kebingungan konsep yang disebabkan oleh istilah-istilah ini telah menyebabkan banyak definisi yang saling bertentangan . Dari lima definisi pada tautan ini, hanya # 4 yang sepenuhnya benar dalam kasus umum, tetapi juga sepenuhnya tidak informatif. Anda harus membaca seluruh makalah dan buku (atau gagal, posting ini) untuk memahami apa arti definisi itu dalam kerja praktek.
Mari kita lihat kasus di mana pemodelan efek acak mungkin berguna. Misalkan Anda ingin memperkirakan pendapatan rumah tangga AS rata-rata dengan kode ZIP. Anda memiliki set data besar yang berisi pengamatan pendapatan rumah tangga dan kode ZIP. Beberapa kode ZIP terwakili dengan baik dalam dataset, tetapi yang lain hanya memiliki beberapa rumah tangga.
Untuk model awal Anda, Anda kemungkinan besar akan mengambil pendapatan rata-rata di setiap ZIP. Ini akan bekerja dengan baik ketika Anda memiliki banyak data untuk ZIP, tetapi perkiraan untuk ZIP yang sampelnya kurang akan menderita varian yang tinggi. Anda dapat mengurangi ini dengan menggunakan estimator penyusutan (alias pooling parsial), yang akan mendorong nilai ekstrim terhadap pendapatan rata-rata di semua kode ZIP.
Tetapi berapa banyak penyusutan / penyatuan yang harus Anda lakukan untuk ZIP tertentu? Secara intuitif, itu harus tergantung pada yang berikut:
Jika Anda memodelkan kode ZIP sebagai efek acak, estimasi pendapatan rata-rata dalam semua kode ZIP akan mengalami penyusutan yang secara statistik kuat, dengan mempertimbangkan semua faktor di atas.
Bagian terbaiknya adalah bahwa model efek acak dan campuran secara otomatis menangani (4), estimasi variabilitas, untuk semua efek acak dalam model. Ini lebih sulit daripada yang terlihat pada pandangan pertama: Anda bisa mencoba varians mean sampel untuk setiap ZIP, tetapi ini akan menjadi bias tinggi, karena beberapa varians antara perkiraan untuk ZIP yang berbeda hanyalah varians sampel. Dalam model efek acak, proses inferensi menyumbang varians sampling dan menyusut estimasi varians sesuai.
Setelah memperhitungkan (1) - (4), model efek acak / campuran mampu menentukan penyusutan yang sesuai untuk kelompok sampel rendah. Itu juga dapat menangani model yang jauh lebih rumit dengan banyak prediktor yang berbeda.
Jika ini kedengarannya seperti pemodelan Bayesian hierarkis bagi Anda, Anda benar - itu adalah kerabat dekat tetapi tidak identik. Model efek campuran bersifat hierarkis karena menempatkan distribusi untuk parameter laten dan tidak teramati, tetapi mereka biasanya tidak sepenuhnya Bayesian karena hiperparameter tingkat atas tidak akan diberikan prioritas yang tepat. Sebagai contoh, dalam contoh di atas kita kemungkinan besar akan memperlakukan pendapatan rata-rata dalam ZIP yang diberikan sebagai sampel dari distribusi normal, dengan rata-rata dan sigma yang tidak diketahui diperkirakan dengan proses pemasangan efek campuran. Namun, model efek campuran (non-Bayesian) biasanya tidak memiliki prior pada mean dan sigma yang tidak diketahui, sehingga tidak sepenuhnya Bayesian. Yang mengatakan, dengan set data berukuran layak, model efek campuran standar dan varian Bayesian penuh akan sering memberikan hasil yang sangat mirip.
* Sementara banyak perawatan dari topik ini fokus pada definisi sempit "kelompok", konsep ini sebenarnya sangat fleksibel: itu hanya seperangkat pengamatan yang memiliki kesamaan properti. Suatu kelompok dapat terdiri dari beberapa pengamatan dari satu orang, atau beberapa orang di sekolah, atau beberapa sekolah di suatu kabupaten, atau beberapa varietas dari satu jenis buah, atau beberapa jenis sayuran dari panen yang sama, atau beberapa panen dari jenis sayuran yang sama, dll. Setiap variabel kategori dapat digunakan sebagai variabel pengelompokan.
Saya telah menulis tentang ini dalam bab buku tentang model campuran (bab 13 dalam Fox, Negrete-Yankelevich, dan Sosa 2014 ); halaman yang relevan (hlm. 311-315) tersedia di Google Buku . Saya pikir pertanyaannya berkurang menjadi "apa definisi dari efek tetap dan acak?" ("model campuran" hanyalah model yang mengandung keduanya). Diskusi saya mengatakan sedikit tentang definisi formal mereka (yang saya akan tanyakan pada makalah Gelman yang ditautkan oleh jawaban @ JohnSalvatier di atas) dan lebih lanjut tentang sifat praktis dan kegunaannya. Berikut beberapa kutipannya:
Pandangan tradisional tentang efek acak adalah sebagai cara untuk melakukan tes statistik yang benar ketika beberapa pengamatan berkorelasi.
Kita juga dapat memikirkan efek acak sebagai cara untuk menggabungkan informasi dari berbagai tingkat dalam variabel pengelompokan.
Efek acak sangat berguna ketika kita memiliki (1) banyak level (mis., Banyak spesies atau blok), (2) data yang relatif sedikit pada setiap level (walaupun kita membutuhkan banyak sampel dari sebagian besar level), dan (3) tidak merata pengambilan sampel lintas level (kotak 13.1).
Frequentists dan Bayesian mendefinisikan efek acak agak berbeda, yang mempengaruhi cara mereka menggunakannya. Frequentists mendefinisikan efek acak sebagai variabel kategori yang levelnya dipilih secara acak dari populasi yang lebih besar, misalnya, spesies yang dipilih secara acak dari daftar spesies endemik. Bayesian mendefinisikan efek acak sebagai set variabel yang parameternya diambil dari distribusi [yang sama]. Definisi frequentist secara filosofis koheren, dan Anda akan bertemu dengan para peneliti (termasuk pengulas dan pengawas) yang bersikeras, tetapi secara praktis bisa bermasalah. Misalnya, ini menyiratkan bahwa Anda tidak dapat menggunakan spesies sebagai efek acak ketika Anda telah mengamati semua spesies di lokasi lapangan Anda - karena daftar spesies bukan sampel dari populasi yang lebih besar - atau menggunakan tahun sebagai efek acak, karena para peneliti jarang melakukan percobaan dalam tahun-tahun sampel acak — mereka biasanya menggunakan serangkaian tahun berturut-turut, atau tahun-tahun serampangan ketika mereka bisa masuk ke lapangan.
Efek acak juga dapat digambarkan sebagai variabel prediktor di mana Anda tertarik untuk membuat kesimpulan tentang distribusi nilai (yaitu, varians di antara nilai-nilai respons pada level yang berbeda) daripada dalam menguji perbedaan nilai antara level tertentu.
Orang-orang kadang mengatakan bahwa efek acak adalah "faktor yang Anda tidak tertarik." Ini tidak selalu benar. Meskipun sering terjadi dalam percobaan ekologis (di mana variasi di antara situs biasanya hanya gangguan), kadang-kadang sangat menarik, misalnya dalam studi evolusi di mana variasi di antara genotipe adalah bahan baku untuk seleksi alam, atau dalam studi demografi di mana variasi antar-tahun menurunkan tingkat pertumbuhan jangka panjang. Dalam beberapa kasus efek tetap juga digunakan untuk mengontrol variasi yang tidak menarik, misalnya, menggunakan massa sebagai kovariat untuk mengendalikan efek ukuran tubuh.
Anda juga akan mendengar bahwa "Anda tidak dapat mengatakan apa-apa tentang nilai (perkiraan) dari mode bersyarat." Ini juga tidak benar — Anda tidak dapat secara resmi menguji hipotesis nol bahwa nilainya sama dengan nol, atau bahwa nilai dari dua level yang berbeda adalah sama, tetapi masih masuk akal untuk melihat nilai yang diprediksi, dan bahkan untuk menghitung kesalahan standar dari nilai yang diprediksi (misalnya, lihat bilah kesalahan di sekitar mode bersyarat pada gambar 13.1).
Kerangka kerja Bayesian memiliki definisi efek acak yang lebih sederhana. Di bawah pendekatan Bayesian, efek tetap adalah efek di mana kami memperkirakan setiap parameter (misalnya, rata-rata untuk setiap spesies dalam genus) secara independen (dengan prior yang ditentukan secara independen), sedangkan untuk efek acak, parameter untuk setiap level dimodelkan sebagai gambar yang diambil. dari distribusi (biasanya Normal); dalam notasi statistik standar, .
Saya katakan di atas bahwa efek acak paling berguna ketika variabel pengelompokan memiliki banyak level yang diukur. Sebaliknya, efek acak umumnya tidak efektif ketika variabel pengelompokan memiliki level terlalu sedikit. Anda biasanya tidak dapat menggunakan efek acak ketika variabel pengelompokan memiliki kurang dari lima level, dan perkiraan varians efek acak tidak stabil dengan kurang dari delapan level, karena Anda mencoba memperkirakan varians dari sampel yang sangat kecil.
Memperbaiki efek: Sesuatu yang langsung dimanipulasi oleh eksperimen dan sering diulang, misalnya, pemberian obat - satu kelompok mendapat obat, satu kelompok mendapat plasebo.
Efek acak: Sumber variasi acak / unit eksperimental misalnya, individu yang diambil (secara acak) dari suatu populasi untuk uji klinis. Efek acak memperkirakan variabilitas
Efek campuran: Mencakup keduanya, efek tetap dalam kasus-kasus ini memperkirakan koefisien tingkat populasi, sedangkan efek acak dapat menjelaskan perbedaan individu dalam menanggapi efek, misalnya, setiap orang menerima obat dan plasebo pada kesempatan yang berbeda, Efek memperkirakan efek obat, istilah efek acak akan memungkinkan setiap orang untuk merespons obat secara berbeda.
Kategori umum dari efek campuran - tindakan berulang, longitudinal, hierarkis, plot terpisah.
Saya datang ke pertanyaan ini dari sini , kemungkinan duplikat.
Sudah ada beberapa jawaban yang luar biasa, tetapi seperti yang dinyatakan dalam jawaban yang diterima, ada banyak kegunaan yang berbeda (tetapi terkait) dari istilah tersebut, jadi mungkin berharga untuk memberikan perspektif seperti yang digunakan dalam ekonometrik, yang tampaknya belum sepenuhnya dibahas di sini. .
m
Berikut ini adalah kode yang menghasilkan data dan yang menghasilkan estimasi RE positif dan estimasi FE negatif "benar". (Yang mengatakan, perkiraan RE juga akan sering negatif untuk benih lain, lihat di atas.)
library(Jmisc)
library(plm)
library(RColorBrewer)
# FE illustration
set.seed(324)
m = 8
n = 12
step = 5
alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))
beta = -1
y = X = matrix(NA,nrow=m,ncol=n)
for (i in 1:n) {
X[,i] = runif(m,i,i+1)
X[,i] = rnorm(m,i)
y[,i] = alpha[i] + X[,i]*beta + rnorm(m,sd=.75)
}
stackX = as.vector(X)
stackY = as.vector(y)
darkcols <- brewer.pal(12, "Paired")
plot(stackX,stackY,col=rep(darkcols,each=m),pch=19)
unit = rep(1:n,each=m)
# first two columns are for plm to understand the panel structure
paneldata = data.frame(unit,rep(1:m,n),stackY,stackX)
fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")
Hasil:
> fe
Model Formula: stackY ~ stackX
Coefficients:
stackX
-1.0451
> re
Model Formula: stackY ~ stackX
Coefficients:
(Intercept) stackX
18.34586 0.77031
Perbedaannya hanya bermakna dalam konteks statistik non-Bayesian. Dalam statistik Bayesian, semua parameter model "acak".
Dalam ekonometrik, istilah tersebut biasanya diterapkan dalam model linier umum, di mana model tersebut berbentuk
Efek acak: Ketika ,
Dalam model linier , keberadaan efek acak tidak menghasilkan inkonsistensi penaksir OLS. Namun, menggunakan estimator efek acak (seperti kuadrat terkecil yang layak) akan menghasilkan estimator yang lebih efisien .
Dalam model non-linear , seperti probit, tobit, ..., keberadaan efek acak akan, secara umum, menghasilkan estimator yang tidak konsisten. Menggunakan estimator efek acak kemudian akan mengembalikan konsistensi.
Untuk model linier dan non-linier, efek tetap menghasilkan bias. Namun, dalam model linier ada transformasi yang dapat digunakan (seperti perbedaan pertama atau merendahkan), di mana OLS pada data yang diubah akan menghasilkan estimasi yang konsisten. Untuk model non-linear, ada beberapa pengecualian di mana transformasi ada, efek tetap logit menjadi salah satu contoh.
Contoh: Kemungkinan efek acak. Seharusnya
dan hasil yang diamati adalah
The Pooled kemungkinan estimator maksimum meminimalkan sampel rata-rata
Tentu saja, di sini log dan produk disederhanakan, tetapi untuk alasan pedagogis, ini membuat persamaan lebih sebanding dengan pengukur efek acak, yang memiliki bentuk
Bukan definisi formal, tapi saya suka slide berikut: Model campuran dan mengapa sosiolinguis harus menggunakannya ( mirror ), dari Daniel Ezra Johnson. Rekap singkat 'ditawarkan pada slide 4. Meskipun sebagian besar berfokus pada studi psikolinguistik, ini sangat berguna sebagai langkah pertama.
Perspektif lain yang sangat praktis pada model efek acak dan tetap berasal dari ekonometrik ketika melakukan regresi linier pada data panel . Jika Anda memperkirakan hubungan antara variabel penjelas dan variabel hasil dalam dataset dengan banyak sampel per individu / grup, ini adalah kerangka kerja yang ingin Anda gunakan.
Contoh data panel yang baik adalah pengukuran tahunan dari sekumpulan individu:
Jika kami mencoba memahami hubungan antara olahraga dan perubahan berat badan, kami akan menyiapkan regresi berikut:
Jadi, pertanyaan kuncinya adalah menentukan model mana yang sesuai. Jawabannya adalah Tes Hausman . Untuk menggunakannya, kami melakukan regresi efek tetap dan acak, dan kemudian menerapkan Tes Hausman untuk melihat apakah estimasi koefisien mereka berbeda secara signifikan. Jika mereka berbeda, endogenitas berperan dan model efek tetap adalah pilihan terbaik. Kalau tidak, kita akan pergi dengan efek acak.