Bagaimana cara menggabungkan model regresi?


8

Katakanlah saya memiliki tiga set data ukuran n setiap:

y1 = ketinggian orang dari AS saja

y2 = ketinggian pria dari seluruh dunia

y3 = Tinggi wanita dari seluruh dunia

Dan saya membangun model linier untuk masing-masing faktor xi, i=1,...,k:

y^j=β0+β1x1+β2x2+ϵj

dengan ϵmemiliki properti biasa untuk OLS. Dan saya dapat menggunakan faktorxi dalam lebih dari satu regresi.


Pertanyaan saya adalah: Bagaimana saya bisa menggabungkan regresi sehingga saya bisa mendapatkan taksiran untuk:

y12 = tinggi pria hanya dari AS

y13 = tinggi wanita hanya dari AS

untuk yang saya tidak punya data


Saya mungkin memikirkan semacam beban:

y^12=w1y^1+(1w1)y^2

tapi kemudian saya tidak tahu untuk apa menggunakannya w1.


1
Saya tidak memiliki sesuatu yang cukup solid untuk menjadi jawaban, tetapi sebagai komentar: hal pertama yang terlintas dalam pikiran saya adalah menggunakan regresi hirarki tunggal (campuran). Tapi saya benar-benar tidak tahu apa yang akan menjadi efek acak, jadi mungkin itu tidak akan berhasil. Kupikir aku akan membuang idenya di luar sana.
Wayne

Terima kasih untuk sarannya. Ya, akan terlihat bahwa untuk model hierarkis Anda perlu melakukannya diy12data, bukan?
J4y

Pikiran awal saya tertuju pada penyadapan berdasarkan jenis kelamin - sesuatu seperti height ~ f1 + f2 + f3 + (1 | sex)dalam paket Rlmer
Wayne

Jawaban:


1

Tidak jelas apakah Anda menginginkan perkiraan tinggi badan untuk setiap pria dan wanita (lebih dari masalah klasifikasi) atau untuk mengkarakterisasi distribusi ketinggian masing-masing jenis kelamin. Saya akan menganggap yang terakhir. Anda juga tidak menentukan informasi tambahan apa yang Anda gunakan dalam model Anda, jadi saya akan membatasi diri untuk menangani kasus di mana Anda hanya memiliki data ketinggian (dan data jenis kelamin, dalam kasus warga non-AS).

Saya sarankan hanya menyesuaikan campuran distribusi dengan data ketinggian hanya dari AS , karena distribusi tinggi pada pria dan wanita cukup berbeda. Ini akan memperkirakan parameter dari dua distribusi yang bila dijumlahkan bersama-sama menggambarkan variasi dalam data. Parameter distribusi ini (mean dan varians, karena distribusi Gaussian akan berfungsi dengan baik) memberi Anda informasi yang Anda cari. Paket R mixtoolsdan mixdistmembiarkan Anda melakukan ini; Saya yakin masih banyak lagi.

Solusi ini mungkin tampak aneh, karena tidak menyertakan semua informasi yang Anda miliki dari luar AS, tempat Anda mengetahui jenis kelamin dan ketinggian masing-masing individu. Tapi saya pikir itu dibenarkan karena:

1) Kami memiliki harapan sebelumnya yang sangat kuat bahwa pria rata-rata lebih tinggi daripada wanita. Daftar Wikipedia rata-rata tinggi manusia di seluruh dunia menunjukkan bahkan tidak satu negara atau wilayah di mana wanita lebih tinggi daripada pria. Jadi identitas distribusi dengan tinggi rata-rata yang lebih besar tidak benar-benar diragukan.

2) Mengintegrasikan informasi yang lebih spesifik dari data non-AS kemungkinan akan melibatkan membuat asumsi bahwa kovarians antara jenis kelamin dan tinggi adalah sama di luar AS seperti di dalam. Tetapi ini tidak sepenuhnya benar - daftar Wikipedia yang sama menunjukkan bahwa rasio tinggi badan laki-laki dan perempuan bervariasi antara sekitar 1,04 dan 1,13.

3) Data internasional Anda mungkin jauh lebih rumit untuk dianalisis karena orang-orang di berbagai negara memiliki variasi dalam distribusi ketinggian juga. Karena itu, Anda mungkin perlu mempertimbangkan untuk memodelkan campuran campuran. Ini mungkin juga benar di AS, tetapi kemungkinan akan lebih sedikit masalah daripada dataset yang mencakup Belanda (tinggi rata-rata: 184 cm) dan orang Indonesia (tinggi rata-rata: 158 cm). Dan itu adalah rata-rata tingkat negara; subpopulasi berbeda hingga taraf genap.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.