Saran untuk menjelaskan heterogenitas / heteroskedastisitas


8

Saya mencari bantuan, saran, atau tip bagaimana menjelaskan heterogenitas / heteroskedastisitas kepada ahli biologi di departemen saya. Secara khusus saya ingin menjelaskan mengapa penting untuk mencarinya dan menanganinya jika ada, saya mencari pendapat tentang pertanyaan-pertanyaan berikut.

  1. Apakah heterogenitas mempengaruhi reliabilitas estimasi efek acak? Saya cukup yakin, tetapi saya tidak dapat menemukan kertas.
  2. Seberapa serius masalah itu heterogenitas? Saya telah menemukan pandangan yang bertentangan mengenai hal ini, sementara beberapa orang mengatakan bahwa kesalahan standar model dll tidak akan dapat diandalkan, saya juga membaca bahwa itu hanya masalah jika heterogenitasnya parah. Seberapa parah parah?
  3. Nasihat tentang pemodelan heterogenitas. Saat ini, saya sebagian besar fokus pada paket nlme di R dan penggunaan varians covariates, ini cukup sederhana dan kebanyakan orang di sini menggunakan R sehingga memberikan skrip berguna. Saya juga menggunakan paket MCMCglmm, tetapi saran lain dipersilahkan, terutama untuk data yang tidak normal.
  4. Saran lain dipersilahkan.

1
@ user3136, mohon jelaskan adalah perhatian utama Anda, heterogenitas (spesies berbeda dengan atribut unik, mungkin diambil dari distribusi yang diketahui) atau heteroskedastisitas (properti proses acak memiliki variasi waktu yang bervariasi), karena kedua konsep ini jelas berbeda. Kedua masalah ini menarik meskipun, yang pertama mengarah ke model efek campuran atau model koefisien acak, yang terakhir memiliki banyak obat untuk ditangani (tetapi kurang penting, karena tidak efisien, tetapi perkiraannya tidak bias). OLS
Dmitrij Celov

Hai, maaf soal itu. Kekhawatiran saya sebenarnya adalah tentang heteroskedastisitas. Satu masalah yang saya miliki adalah bahwa kedua istilah ini (heteroskedastisitas dan heterogenitas) digunakan hampir secara bergantian. Dalam konteks ini, keduanya seharusnya merujuk pada situasi ketika kesalahan dalam residual tidak konstan
user3136

4
Tidak juga, sumber heterogenitas banyak: perbedaan parameter (misalnya parameter acak), variabel (hal regresi biasa), residual (bagian istimewa yang mungkin dimiliki oleh distribusi yang berbeda, atau parameter distribusi mungkin berbeda, heteroskedastisitas termasuk di sini, dengan demikian ini adalah kasus heterogenitas terpisah), perbedaan dalam bentuk fungsional. Jadi saya akan meninggalkan istilah yang lebih khusus - heteroskedastisitas.
Dmitrij Celov

Terima kasih Dimitrij, satu pertanyaan yang ingin saya tanyakan adalah tentang terminologi yang benar di bidang ini.
user3136

Jawaban:


6

Allometry akan menjadi tempat yang baik untuk memulai yang akrab bagi ahli biologi. Transformasi logaritmik sering digunakan dalam alometri karena data memiliki bentuk hukum kekuatan, tetapi juga karena proses kebisingan heteroskedastik (karena variabilitasnya proporsional dengan ukuran). Untuk contoh di mana ini telah menyebabkan masalah parah, lihat "Persamaan alometrik untuk memprediksi massa tubuh dinosaurus" , di mana kesimpulan bahwa dinosaurus hanya setengah ukuran sebelumnya meskipun salah karena asumsi yang tidak valid dari homoseksualitas dibuat (lihat korespondensi untuk detail).


6

Salah satu opsi adalah menggunakan simulasi. Jadi siapkan sebuah model di mana Anda secara spesifik menentukan heterogenitas misalkan sebagai . Kemudian hasilkan data Anda dari model ini, dengan mengambil intersepsi acak sebagai contoh sederhana.var(αi)=X¯i2σu2

αi=X¯iuiuiN(0,σu2)

Yij=αi+βXij+eijeijN(0,σe2)

(Semoga notasi ini masuk akal). Saya percaya bermain-main dengan set-up seperti ini akan membantu Anda menjawab pertanyaan 2). Jadi, Anda akan cocok dengan model ini menggunakan intersep acak, padahal sebenarnya itu seharusnya merupakan kemiringan acak (yang memberi Anda jawaban parsial untuk pertanyaan 3 - intersep acak dapat menjelaskan "mengipasi" ke tingkat tertentu - ini adalah "mengipasi tingkat 2") ). Gagasan di atas adalah berusaha sekeras yang Anda bisa untuk memecahkan metode pemodelan Anda - cobalah kondisi ekstrim yang konsisten dengan apa yang Anda ketahui tentang data, dan lihat apa yang terjadi. Jika Anda kesulitan menemukan kondisi ini, maka jangan khawatir.

Saya melakukan pemeriksaan cepat pada heteroskedastisitas untuk OLS, dan sepertinya tidak terlalu mempengaruhi perkiraan beta. Bagi saya sepertinya heteroskedastisitas akan terjadi di beberapa tempat dengan memberikan perkiraan kesalahan yang keliru, dan di tempat lain akan memberikan perkiraan kesalahan yang keliru (dalam istilah prediktif). Lihat di bawah:

menunggu sebidang data di sini, pengguna saat ini frustrasi dengan komputer

Dan satu hal yang selalu saya anggap lucu adalah "non-normalitas data" yang dikhawatirkan orang. Data tidak perlu didistribusikan secara normal, tetapi istilah kesalahan tidak. Jika ini tidak benar, maka GLM tidak akan berfungsi - GLM menggunakan perkiraan normal untuk fungsi kemungkinan untuk memperkirakan parameter, seperti halnya GLMM.

Jadi saya akan mengatakan jika memperkirakan parameter efek tetap adalah tujuan utama maka tidak banyak yang perlu dikhawatirkan, tetapi Anda mungkin mendapatkan hasil yang lebih baik untuk prediksi dengan memperhitungkan heteroskedastisitas.


1
HI, terima kasih atas sarannya. Saat ini saya sedang mengerjakan beberapa simulasi jadi saya berharap mereka berhasil. Sejauh yang saya tahu heteroscedasticty tidak memengaruhi estimasi koefisien regresi, tetapi itu bisa melebih-lebihkan atau di bawah perkiraan kesalahan standar dari estimasi ini.
user3136

Ini benar-benar melakukan keduanya (perkiraan di atas dan di bawah) jika ada heteroskedastisitas - dengan cara yang sama bahwa "rata-rata" dari data biasa akan melebihi dan di bawah perkiraan nilai aktual. Untuk kemiringan, Anda akan memiliki tingkat akurasi yang berbeda pada titik yang berbeda di telepon.
probabilityislogic

Dalam bidang khusus saya ada juga ketergantungan besar pada pengujian signifikansi dan karena itu nilai-p juga. Jadi saya pikir fakta bahwa SE bisa over-dan under-estimasi dapat menyebabkan beberapa masalah jika Anda mendasarkan semua inferensi pada nilai-p Anda.
user3136

Saya akan mengatakan Anda memiliki masalah lebih besar daripada kesalahan standar jika semua kesimpulan didasarkan pada nilai-p dan pengujian signifikansi. Hal-hal seperti ini mendorong "statistik tanpa pikiran".
probabilityislogic

Saya sangat setuju, saya pikir sebagian besar orang yang saya ajak bicara tahu bahwa pendekatan semacam itu mencurigakan, tetapi sulit untuk menghentikan mereka untuk hanya berfokus pada nilai-p, seringkali dengan mengorbankan yang lainnya.
user3136

0

Sumber daya online GRATIS terbaik yang saya tahu untuk belajar tentang heteroskedastisitas adalah kuliah ECON 421 dari Prof. Thoma dari tahun 2011. Khususnya kuliah 1 - 7. Kuliahnya sangat teratur dan mudah diikuti terlepas dari disiplin Anda.

Inilah kuliah pertama. Anda dapat menemukan sisa kuliah dari semester Musim Dingin 2011 di sini juga. http://www.youtube.com/watch?v=WK03XgoVsPM

Juga, situs web yang sesuai untuk kursus Econ 421 Prof. Thoma memiliki Masalah Pekerjaan Rumah dan juga solusinya. Untuk solusi yang memerlukan perangkat lunak, solusinya dirinci langkah-demi-langkah menggunakan kombinasi teks, formula, dan tangkapan layar dari Eviews.

Meskipun langkah-langkah yang digunakan untuk memecahkan masalah pekerjaan rumah dirinci menggunakan tangkapan layar dari E-views, solusi dengan mudah diterjemahkan dengan baik ke dalam paket statistik lainnya seperti STATA atau statistik R.

Tidak ada Solusi yang terdaftar untuk Pekerjaan Rumah dari semester 2011, yang merupakan semester rekaman video terakhir Prof. Thoma. Namun ada pekerjaan rumah yang tersedia untuk semester Musim Dingin 2012 -nya .

Berikut ini tautan ke bagian Solusi pekerjaan rumah di kelas Prof. Thomas Winter 2012 421. Secara khusus di sini adalah Solusi untuk Pekerjaan Rumah 3 di mana heteroskedastisitas diperkenalkan ke set pekerjaan rumah. http://economistsview.typepad.com/economics421/2012/02/solution-to-homework-3.html


1
Terima kasih atas referensi ini, James. Namun, di sini si penanya meminta penjelasan dan saran. Agar jawaban Anda relevan, dapatkah Anda mengutip "bantuan, saran, atau tip" khusus dalam referensi ini?
whuber
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.