Garis lurus paralel pada plot sisa vs pas

Saya memiliki masalah regresi berganda, yang saya coba selesaikan menggunakan regresi berganda sederhana:

model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)

Ini sepertinya menjelaskan 85% varian (menurut R-squared) yang tampaknya cukup bagus.

Namun yang membuat saya khawatir adalah plot aneh yang tampak Residual vs Dipasang, lihat di bawah:

masukkan deskripsi gambar di sini

Saya menduga alasan mengapa kita memiliki garis paralel tersebut adalah karena nilai Y hanya memiliki 10 nilai unik yang sesuai dengan sekitar 160 nilai X.

Mungkin saya harus menggunakan jenis regresi yang berbeda dalam kasus ini?

Sunting : Saya telah melihat dalam makalah berikut perilaku yang serupa. Perhatikan itu hanya kertas satu halaman, jadi ketika Anda melihat pratinjau, Anda dapat membaca semuanya. Saya pikir ini menjelaskan dengan baik mengapa saya mengamati perilaku ini tetapi saya masih tidak yakin apakah ada regresi lain yang akan bekerja lebih baik di sini?

Sunting2: Contoh paling dekat dengan kasus kami yang dapat saya pikirkan adalah perubahan suku bunga. FED mengumumkan suku bunga baru setiap beberapa bulan (kami tidak tahu kapan dan seberapa sering). Sementara itu kami mengumpulkan variabel independen kami setiap hari (seperti tingkat inflasi harian, data pasar saham, dll.). Akibatnya kita akan memiliki situasi di mana kita dapat memiliki banyak pengukuran untuk satu suku bunga.

r regression multiple-regression

— Datageek
sumber

Anda hampir pasti membutuhkan beberapa bentuk regresi lainnya. Jika data Y adalah ordinal (yang saya duga) maka Anda mungkin ingin regresi logistik ordinal. Satu Rpaket yang melakukan ini adalah ordinal, tetapi ada yang lain juga

— Peter Flom

Sebenarnya Y adalah harga yang kami coba prediksi, yang berubah setiap beberapa bulan. Kami memiliki variabel perekam-mingguan (X) untuk harga yang sesuai (Y) yang berubah setiap beberapa bulan. Apakah regresi logistik akan berhasil jika kita tidak tahu harga di masa depan?

— Datageek

Anda benar tentang penjelasannya; referensi Anda berhasil. Tetapi situasi Anda terlihat tidak biasa: tampaknya Anda hanya memiliki sepuluh atau lebih tanggapan independen (yang terletak pada skala kontinu, bukan yang terpisah) tetapi Anda menggunakan beberapa variabel penjelas yang bervariasi dari waktu ke waktu. Ini bukan situasi yang direnungkan oleh sebagian besar teknik regresi. Informasi lebih lanjut tentang apa arti variabel-variabel ini dan bagaimana mereka diukur dapat membantu kami mengidentifikasi pendekatan analitik yang baik.

— Whuber

Salah satu model yang mungkin adalah salah satu variabel "bulat" atau "disensor": let $y_1,\ldots y_{10}$ menjadi 10 nilai yang Anda amati. Orang bisa berasumsi bahwa ada variabel laten $Z$ mewakili harga "nyata", yang belum Anda ketahui sepenuhnya. Namun, Anda bisa menulis $Y_i=y_j\Rightarrow{}y_{j-1}\leq{}Z_i\leq{}y_{j+1}$ (dengan $y_0=-\infty, y_{11}=+\infty$ , jika Anda memaafkan penyalahgunaan notasi ini). Jika Anda bersedia mengambil risiko pernyataan tentang distribusi Z di setiap interval ini, regresi Bayes menjadi sepele; estimasi kemungkinan maksimum membutuhkan kerja lebih banyak (tapi tidak banyak, sejauh yang saya tahu). Analoginya dengan masalah ini ditangani oleh Gelman & Hill (2007).

— Emmanuel Charpentier
sumber

Ini ide yang bagus. Ini menangani fenomena tersebut tetapi saya bertanya-tanya apakah ini akan kehilangan masalah yang lebih besar: bahkan jika harga dapat dianggap disensor, mereka kemungkinan besar sangat berkorelasi seri.

— Whuber

Saya sudah mencoba paket censReg R tetapi tidak dapat membuatnya berfungsi. Mungkin saja aku tidak mengerti idemu. Masalahnya adalah kita tahu semua variabel dependen sehingga kita tidak memiliki situasi di mana Y = 0 (disensor), hanya saja Y tetap stabil selama beberapa bulan. Saya baru saja mengedit lagi jadi semoga ini menjelaskan lebih baik kasus penggunaan kami.

— Datageek

Radek, saya pikir idenya adalah ini: misalkan harganya

Y (t)

$Y(t)$ tergantung pada waktu tetapi hanya berubah pada waktu yang berbeda

t_{1}, t_{2}, \dots

$t_1,t_2,\ldots$ . Kami menganggap ini sebagai manifestasi dari beberapa variabel mendasar yang tidak teramati ("harga riil")

Z (t)

$Z(t)$ dan kami berharap itu di antara waktu

t_{i}

$t_i$ dan

t_{i + 1}

$t_{i+1}$

Z (t)

$Z(t)$ akan selalu ada di antara

Y (t_{i})

$Y(t_i)$ dan

Y (t_{i + 1})

$Y(t_{i+1})$ . Akibatnya, kami melihat harga yang diamati setiap saat

t

$t$ dalam interval ini sebagai

Z (t)

$Z(t)$ sebagai disensor baik di sebelah kiri dan kanan oleh

Y (t_{i})

$Y(t_i)$ dan

Y (t_{i + 1})

$Y(t_{i+1})$ . (Saya harus menekankan "harapan": inilah "pernyataan berisiko" yang dimaksud.)

— whuber

whuber: kamu benar Posting asli tidak menyinggung seri waktu, jadi saya mengabaikannya. Saya pikir bahwa untuk menjawab pertanyaan, kita harus mengambil risiko dua pernyataan: satu tentang distribusi

Z

$Z$ dalam interval

(y_{j - 1}, y_{j + 1}

$(y_{j-1}, y_{j+1}$ , dan satu tentang bentuk model temporal, yaitu fungsi f mengikat

Z (t)

$Z(t)$ untuk

f (Z (1), Z (2, \dots, Z (t - 1))

$f(Z(1), Z(2,\ldots,Z(t-1))$ . Dalam model BUGS, kedua aspek ini akan dinyatakan dalam pernyataan tentang

Z

$Z$ . Tidak lagi sesederhana itu ...

— Emmanuel Charpentier