Mengapa seseorang menekan intersepsi dalam regresi linier?


20

Dalam sejumlah paket statistik termasuk SAS, SPSS dan mungkin lebih, ada opsi untuk "menekan intersep". Mengapa Anda ingin melakukan itu?

Jawaban:


16

Jika karena alasan tertentu Anda mengetahui intersep (terutama jika nol), Anda dapat menghindari pemborosan varians dalam data Anda untuk memperkirakan sesuatu yang sudah Anda ketahui, dan lebih percaya pada nilai yang harus Anda perkirakan.

Contoh yang agak disederhanakan adalah jika Anda sudah tahu (dari pengetahuan domain) bahwa satu variabel adalah (rata-rata) kelipatan dari yang lain, dan Anda mencoba untuk menemukan kelipatan itu.


Saya tidak sepenuhnya memahaminya, tetapi dalam model yang saya buat di R, saya memiliki sesuatu seperti lm (a ~ b / c - 1) yang menciptakan interaksi antara b dan c, dan dengan menekan intersep ("- 1" di R), saya mendapatkan jawaban yang lebih mudah ditafsirkan yang pada dasarnya sama seperti jika saya tidak menekan intersep. Entah bagaimana, interaksi memungkinkan ini terjadi.
Wayne

Jawaban yang lebih mudah ditafsirkan yang pada dasarnya sama? Itu tampaknya merupakan kontradiksi. Mungkin Anda harus memperkenalkan ini sebagai pertanyaan baru?
Nick Sabbe

Jika saya melihat koefisien, dengan intersep ada (intersep) dan tempwarmer (salah satu variabel saya adalah temp yang bisa lebih hangat atau lebih dingin ). Untuk menafsirkan koefisien, saya harus tahu bahwa (mencegat) secara langsung sesuai dengan tempcooler dan tempwarmer + (mencegat) adalah tempwarmer yang langsung ditafsirkan . Jika saya menekan intersep, saya melihat tempcooler dan tempwarmer secara langsung. Mungkin kekhasan rumus R dan pemodelan linier, tapi ...
Wayne

12

Pertimbangkan kasus kovariat kategori 3 tingkat. Jika seseorang memiliki intersep, itu akan membutuhkan 2 variabel indikator. Menggunakan pengkodean biasa untuk variabel indikator, koefisien untuk kedua variabel indikator adalah perbedaan rata-rata dibandingkan dengan kelompok referensi. Dengan menekan intersep, Anda akan memiliki 3 variabel yang mewakili kovariat kategoris, bukan hanya 2. Koefisien kemudian estimasi rata-rata untuk grup itu. Contoh yang lebih konkret tentang di mana harus melakukan ini adalah dalam ilmu politik di mana orang dapat mempelajari 50 negara bagian Amerika Serikat. Alih-alih memiliki intersep dan 49 variabel indikator untuk status, seringkali lebih baik untuk menekan intersep dan sebaliknya memiliki 50 variabel.


Jauh lebih mudah untuk menafsirkan koefisien seperti itu
probabilityislogic

1
Ya, tetapi rusak dengan dua atau lebih variabel kategori!
kjetil b halvorsen

2

Untuk mengilustrasikan poin @Nick Sabbe dengan contoh spesifik.

Saya pernah melihat seorang peneliti mempresentasikan model usia pohon sebagai fungsi dari lebarnya. Dapat diasumsikan bahwa ketika pohon itu pada usia nol, secara efektif memiliki lebar nol. Jadi, intersep tidak diperlukan.


8
Kebijaksanaan atau ketiadaannya tergantung pada kisaran variabel dependen yang menarik. Pertimbangkan data pengereman mobil di mana Anda memiliki kecepatan dan jarak berhenti. Anda dapat menyesuaikan model kuadratik dengan atau tanpa intersep. Kecepatan bunga biasanya mulai sekitar 50 km / jam dan naik ke, katakanlah, 130 km / jam. Menyesuaikan kuadrat dengan intersep dalam kasus ini lebih masuk akal, saya pikir, karena memaksa intersep ke nol dapat menimbulkan (secara praktis) masalah ketidakcocokan yang signifikan. Fakta bahwa "jarak pengereman" dari mobil yang berhenti adalah nol tidak terlalu relevan untuk masalah pemodelan yang ada.
kardinal

@ kardinal ya saya bertanya-tanya apakah saya harus membuat poin yang sama. Saya telah menemukan dalam beberapa konteks pemodelan regresi nonlinear ada minat yang lebih besar dalam memiliki model yang menyediakan model yang masuk akal secara teoritis yang memprediksi secara akurat di luar kisaran data (misalnya, dalam pembelajaran kecepatan data kurva, model tidak boleh memprediksi kecepatan di bawah 0 detik ). Dalam kasus seperti itu membatasi intersep ke nol mungkin lebih tepat bahkan jika itu menghasilkan penurunan prediksi untuk data.
Jeromy Anglim

@ cardinal Saya setuju model polinomial jarang memprediksi secara masuk akal di luar kisaran data, dan dengan demikian membatasi intersep ke 0 dalam model seperti itu jarang merupakan ide yang bagus.
Jeromy Anglim

Terima kasih atas komentar anda Komentar saya tidak begitu banyak ditujukan pada model polinomial. Pilihan kuadrat hanya didasarkan pada motivasi fisik yang sebenarnya (yaitu, mekanika klasik). Poin yang saya coba jelaskan adalah bahwa seseorang harus mempertimbangkan masalah pemodelan yang menarik; terkadang melakukan sesuatu yang (atau tampaknya) "secara teoretis tidak dapat dibenarkan" sebenarnya lebih tepat secara statistik.
kardinal
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.