Mengapa model regresi nol-intersep memprediksi lebih baik daripada model dengan intersep?


8

Banyak buku dan makalah mengatakan bahwa intersepsi tidak boleh ditekan. Baru-baru ini, saya menggunakan dataset pelatihan untuk membangun model regresi linier dengan atau tanpa intersep. Saya terkejut menemukan bahwa model tanpa intersep memprediksi lebih baik dari itu dengan intersep dalam hal rmse dalam dataset validasi independen. Apakah akurasi prediksi salah satu alasan mengapa saya harus menggunakan model zero-intercept?


Seberapa besar ukuran sampel pelatihan dan validasi? Mungkin model tanpa intersep lebih baik hanya karena kebetulan.
mark999

Ukuran sampel pelatihan adalah 289 sedangkan ukuran sampel validasi adalah 406. Ngomong-ngomong, bagaimana menentukan pelatihan terbaik dan ukuran sampel validasi?
KuJ

Jawaban:


3

Perhatikan baik-baik bagaimana rmse atau statistik lainnya dihitung ketika membandingkan model tanpa-penyadapan dengan model penyadapan. Kadang-kadang asumsi dan perhitungan berbeda antara kedua model dan satu mungkin lebih buruk, tetapi terlihat lebih baik karena dibagi oleh sesuatu yang jauh lebih besar.

Tanpa contoh yang dapat direproduksi, sulit untuk mengatakan apa yang berkontribusi.


Rmse dihitung sesuai dengan rumus (digunakan untuk membandingkan perbedaan antara dua hal yang mungkin berbeda, tidak ada yang diterima sebagai "standar") yang diberikan dalam: en.wikipedia.org/wiki/Root-mean-square_deviation Jadi asumsi dan perhitungannya sama antara 2 penduga model yang diturunkan.
KuJ

1
Seberapa mirip pelatihan dan validasi Anda? Anda dapat mempertimbangkan untuk melakukan validasi silang 10 kali lipat: pisahkan data menjadi 10 bagian yang sama (atau sama dengan yang Anda dapatkan) secara acak, kemudian gunakan 9 dari mereka untuk melatih model dan yang ke 10 sebagai bagian validasi, kemudian ulangi dengan masing-masing 9 buah lainnya menjadi set validasi. Kemudian ulangi seluruh proses itu (dimulai dengan split acak baru) 10 kali atau lebih.
Greg Snow

Variabel Y dan variabel X berbeda (P = 0,01) antara pelatihan dan set validasi. Namun, rmse masih lebih rendah dengan model tanpa intersep ketika saya menggunakan MatchIt paket R untuk mencocokkan set pelatihan dan validasi. Sebaliknya, rmse menjadi serupa ketika saya menggunakan paket DAAG (cv.lm) dengan 10 kali lipat cross-validate dataset gabungan. Apakah ini berarti bahwa validasi silang 10 kali lipat lebih baik daripada set pelatihan sederhana dan set validasi?
KuJ

2
Ya validasi silang cenderung lebih baik. Lihat untuk melihat apakah ada cara lain bahwa model Anda lebih dari yang ditentukan, sangat tidak biasa untuk model non-intersep agar lebih cocok.
Greg Snow

1
Dalam "Untuk Menjelaskan atau Memprediksi?" projecteuclid.org/... Profesor Galit Shmueli mengatakan bahwa kadang-kadang model yang kurang benar dapat memprediksi lebih baik daripada model yang lebih benar. Saya pikir ini mungkin salah satu alasan dari kasus ini.
KuJ

9

Saya tidak berpikir Anda harus memilih model hanya karena mereka bekerja lebih baik dalam sampel tertentu, meskipun itu baik bahwa Anda menggunakan sampel pelatihan dan validasi.

Sebaliknya, lihat apa yang dikatakan model tentang situasi Anda. Dalam beberapa kasus, model zero-intercept masuk akal. Jika DV seharusnya 0 ketika semua IV adalah 0, maka gunakan model zero-intercept. Kalau tidak, jangan.

Pengetahuan substantif harus memandu statistik, bukan sebaliknya


2
Alasan yang diberikan dalam paragraf kedua Anda, meskipun intuitif, seringkali tidak cukup kuat untuk menekan intersepsi dalam banyak situasi seperti itu. Poin ini dibahas lebih lengkap dalam beberapa pertanyaan lain di situs ini.
kardinal

4
Dalam studi perbandingan metode (atau instrumen) (misalnya perbandingan oximeter A dan oximeter B), DV (level oksigen) seharusnya 0 ketika semua IV (level oksigen) adalah 0. Namun, intersep tidak boleh diabaikan jika Saya ingin mengkalibrasi (atau menukar) oximeter A dengan oximter B.
KuJ

5

Model tanpa potong mungkin masuk akal jika dua kondisi terpenuhi. Pertama, harus ada harapan pengetahuan materi pelajaran yang wajar untuk mencegat menjadi nol. Kedua, harus ada ekspektasi pengetahuan materi pelajaran yang wajar untuk garis regresi agar tetap menjadi garis lurus saat Anda mendekati nol. Bahkan jika kedua kondisi terpenuhi, adalah bijaksana untuk menjalankan analisis dengan istilah intersep dan memverifikasi bahwa intersep tidak berbeda secara signifikan dari nol.

(Saya berasumsi bahwa Anda berbicara tentang Y terus menerus dan X terus menerus.)


4

Ini bisa dimengerti jika intersep yang Anda dapatkan hanyalah noise - bukan sig. berbeda dari nol. (Apakah saya benar bahwa koefisien regresi terstandarisasi hampir sama di kedua model?) Jika demikian saya tidak berpikir Anda harus menggeneralisasi dari contoh ini. Ketika penyadapan adalah sig. dan substansial, mereka menambahkan sesuatu yang bermakna untuk akurasi prediksi.


1. Koefisien regresi terstandarisasi tidak sama (0,91 dan 1,02) untuk model dengan dan tanpa intersep). 2. Pencegatan adalah 9,5 (se 1,7, p <0,001). 3. Sejauh yang saya tahu, banyak makalah menyarankan untuk tidak menekan intersep bahkan jika intersep tidak signifikan dari nol.
KuJ

Jika ada variabel dummy dalam regresi, bukankah intersep mewakili nilai jika semua boneka diberi kode 0 untuk pengamatan itu? Tidak yakin apakah ini berlaku di sini.
Michelle

Tidak, tidak ada variabel dummy.
KuJ

2

Dalam regresi linier, Anda sepatutnya:

y=f(β,X)=β0+β1x1+β2x2+

Anda cocok β diberikan data pelatihan (X,Y) Misalkan Anda menjatuhkan β0 dan sesuai dengan model, apakah kesalahan dalam pemasangan:

i(yif(β,Xi))2

lebih besar daripada jika Anda memasukkannya? Dalam semua (non-degenerate) kasus Anda dapat membuktikan bahwa kesalahannya akan sama atau lebih rendah (pada data pelatihan) saat Anda memasukkanβ0karena model bebas menggunakan parameter ini untuk mengurangi kesalahan jika ada dan membantu, dan akan menetapkannya ke nol jika tidak membantu. Selanjutnya, misalkan Anda menambahkan konstanta besar ke y (anggap output Anda perlu+10000 daripada di data pelatihan asli Anda), dan perbaiki model, lalu β0 jelas menjadi sangat penting.

Mungkin Anda mengacu pada model yang diatur ketika Anda mengatakan "ditekan". L1 dan L2 diatur, metode ini lebih suka untuk menjaga koefisien mendekati nol (dan Anda seharusnya sudah berarti dan varians menormalkan AndaXsebelumnya untuk membuat langkah ini masuk akal. Dalam regularisasi, Anda kemudian memiliki pilihan apakah akan memasukkan istilah intersep (sebaiknya kita juga memilih yang kecilβ0?). Sekali lagi, dalam kebanyakan kasus (semua kasus?), Anda lebih baik tidak mengaturβ0, karena tidak mungkin untuk mengurangi overfitting dan menyusut ruang fungsi yang dapat diwakili (dengan mengecualikan mereka yang tinggi β0) mengarah ke kesalahan yang lebih tinggi.

Catatan sisi: regresi logistik scikit mengatur intersep secara default. Adakah yang tahu mengapa: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html ? Saya pikir itu bukan ide yang bagus .


Pelajari kembali pengaturan intersep: itu hanya masalah jika menggunakan pemecah liblinear dan mereka secara eksplisit mencatat bahwa itu buruk ( scikit-learn.org/stable/modules/… ). Saya kira parameter intercept_scaling termasuk dalam LogisticRegression untuk mengurangi ini.
erobertc

Penskalaan tidak membantu jika Anda berencana menafsirkan parameter sebagai odds-rasio.
user48956

Saya senang mereka memperbarui dokumen. Banyak jam hilang di sini.
user48956
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.