Kapan model linier yang tidak tepat menjadi sangat cantik?

Pertanyaan:

Apakah model linier yang tidak tepat digunakan dalam praktik atau apakah mereka semacam keingintahuan dijelaskan dari waktu ke waktu dalam jurnal ilmiah? Jika demikian, di bidang apa mereka digunakan?
Apakah ada contoh model lainnya?
Akhirnya, apakah kesalahan standar, -values, dll. Diambil dari OLS untuk model seperti itu benar, atau haruskah mereka diperbaiki entah bagaimana? $p$ $R^2$

Latar Belakang: Model linier yang tidak tepat dijelaskan dari waktu ke waktu dalam literatur. Secara umum, model tersebut dapat digambarkan sebagai

y = a + b \sum_{i} w_{i} x_{i} + ε

$y = a + b \sum_i w_i x_i + \varepsilon$

apa yang membuat mereka berbeda dari regresi adalah bahwa s' yang tidak koefisien diperkirakan dalam model, tetapi bobot yang $w_j$

sama untuk setiap variabel ( regresi unit-weighted ), $w_i = 1$
berdasarkan korelasi (Dana dan Dawes, 2004), $w_i = \rho(y, x_i)$
dipilih secara acak (Dawes, 1979),
$-1$ untuk variabel yang berhubungan negatif dengan , untuk variabel yang berhubungan positif dengan (Wainer, 1976). $y$ $1$ $y$

Juga umum untuk menggunakan semacam penskalaan fitur, seperti mengubah variabel menjadi skor- . Jadi, model semacam ini dapat disederhanakan untuk regresi linier univariat $Z$

y = a + b v + ε

$y = a + b v + \varepsilon$

di mana , dan dapat diperkirakan dengan menggunakan regresi OLS. $v = \sum w_i x$

Referensi:
Dawes, Robyn M. (1979). Keindahan yang kuat dari model linier yang tidak tepat dalam pengambilan keputusan . Psikolog Amerika, 34, 571-582.

Graefe, A. (2015). Meningkatkan prakiraan menggunakan prediktor yang sama bobotnya . Jurnal Penelitian Bisnis, 68 (8), 1792-1799.

Wainer, Howard (1976). Estimasi koefisien dalam model linier: Itu tidak membuat tidak pernah lupakan . Buletin Psikologis 83 (2), 213.

Dana, J. dan Dawes, RM (2004). Keunggulan Alternatif Sederhana untuk Regresi untuk Prediksi Ilmu Sosial . Jurnal Statistik Pendidikan dan Perilaku, 29 (3), 317-331.

— Tim
sumber

Dalam hal apa statistik yang berasal dari model-model ini "tidak benar"?

— whuber

Ketika s pra-ditentukan & diperkirakan, ini adalah reduksi data hanya dilakukan pada prediktor - cukup umum dalam berbagai bentuk (lihat misalnya Glasgow Coma Scale & the Charlson Co-morbiditas Index) - yang tidak akan mempengaruhi validitas inferensi dalam kerangka kerja OLS yang biasa. Ketika digunakan untuk menentukan , kesalahan standar & c. akan keluar, ke arah optimis saya akan berpikir.

w_{i}

$w_i$

b

$b$

y

$y$

w_{i}

$w_i$

— Scortchi

Itu bukan komentar yang diinformasikan - koran masih ada di tumpukan "untuk membaca" saya. Saya hanya bertanya-tanya: - "mengapa 'tidak pantas'?". Bukan hal yang aneh bagi seorang prediktor untuk menjadi kombinasi linear dari variabel-variabel lain - rata-rata beberapa pengukuran, skor komponen utama, prediksi dari regresi lain, level dari deret waktu yang dihaluskan secara eksponensial, atau nilai yang dihitung dari suatu yang sudah mapan. atau indeks ad hoc. Tidak mengestimasi bobot dari respons, memberikan derajat kebebasan yang tinggi, membantu menghindari pemasangan berlebihan dengan ukuran sampel yang lebih kecil.

— Scortchi

Dalam eg Beddhu (2000), "Skala komorbiditas sederhana memprediksi hasil klinis dan biaya pada pasien dialisis" Am. J. Med., 108 , 8 model persamaan memiliki bentuk yang sama seperti milik Anda di mana didefinisikan sebagai variabel indikator untuk diabetes, limfoma, & c., & ditentukan sebelumnya. Saya kira apa yang saya katakan adalah bahwa perbedaan antara model regresi "tidak tepat" & "tepat" tampaknya bertumpu pada gagasan seperangkat diberikan Tuhan , untuk masing-masing model "tepat" akan memperkirakan koefisien .

x_{i}

$x_i$

w_{i}

$w_i$

x_{i}

$x_i$

— Scortchi

Ketika , & jika diestimasikan dari data yang sama dengan model yang cocok, itu akan menjadi ketel ikan yang sangat berbeda.

w_{i} = ρ (y, x_{i})

$w_i = \rho(y, x_i)$

ρ

$\rho$

— Scortchi

Akibatnya, menurut saya ini adalah bermacam-macam struktur kovarian yang diasumsikan. Dengan kata lain, ini adalah jenis pemodelan Bayesian sebelumnya.

Ini memperoleh ketahanan dari prosedur MLR biasa karena jumlah parameter ( df) berkurang, dan memperkenalkan ketidakakuratan karena bias variabel yang dihilangkan , OVB. Karena OVB, lereng diratakan,, koefisien determinasi dikurangi . $\downarrow$ $|\hat\beta|<|\beta|$ $\hat{R}^2<R^2$

Pengalaman pribadi saya adalah bahwa keunggulan pendekatan Bayesian adalah menggunakan pemodelan yang lebih baik; mengubah parameter, menggunakan norma lain, dan / atau menggunakan metode nonlinier. Yaitu, begitu fisika masalah dan metodenya dieksplorasi dan dikoordinasikan dengan benar, statistik F, koefisien determinasi, dll. Lebih baik meningkatkan daripada menurunkan.

— Carl
sumber