Dapatkah saya mengabaikan koefisien untuk level faktor yang tidak signifikan dalam model linier?


15

Setelah mencari klarifikasi tentang koefisien model linier di sini saya punya pertanyaan lanjutan tentang non-signfikan (nilai p tinggi) untuk koefisien tingkat faktor.

Contoh: Jika model linier saya menyertakan faktor dengan 10 level, dan hanya 3 level tersebut yang memiliki nilai p signifikan yang terkait dengannya, ketika menggunakan model untuk memprediksi Y, saya dapat memilih untuk tidak menyertakan istilah koefisien jika subjeknya termasuk dalam salah satu tingkat yang tidak signifikan?

Lebih drastis, akankah salah jika menggabungkan 7 level yang tidak signifikan menjadi satu level dan menganalisis kembali?


2
Nah, Anda bisa mendapatkan inferensi bias dengan melakukan itu - misalnya, jika Anda membuat interval prediksi, probabilitas cakupan mungkin akan salah untuk individu di salah satu dari 7 level yang tidak signifikan.
Makro

1
Anda mendapatkan beberapa jawaban bagus di sini, tetapi Anda mungkin juga tertarik mengapa tidak tepat untuk menjatuhkan faktor dengan nilai p tinggi. Perlu ditunjukkan bahwa ini secara logis setara dengan prosedur pemilihan model otomatis, meskipun Anda melakukannya sendiri, alih-alih komputer melakukannya untuk Anda. Membaca pertanyaan ini & jawaban yang ditawarkan dapat membantu memahami mengapa hal ini benar.
gung - Reinstate Monica

1
Q ini memiliki duplikat yang tepat dari November 2012: stats.stackexchange.com/questions/18745/… . Ada juga sedikit info yang memancing pemikiran di sana.
rolando2

2
Ini adalah pertanyaan yang sangat penting, namun tidak ada jawaban yang mendukung argumen dengan teori. Seperti berdiri, mereka hanya pendapat. Bahkan buku yang terhubung dalam salah satu jawaban (yang kesimpulannya berbeda dari jawaban yang lain) memberikan referensi. Karena ini berdiri, saya tidak mempercayai mereka, dan dengan demikian lebih suka tidak melakukan apa-apa (yaitu menyimpan semua kategori / faktor).
luchonacho

Jawaban:


13

Jika Anda memasukkan variabel prediktor dengan beberapa level, Anda memasukkan variabel atau tidak, Anda tidak dapat memilih dan memilih level. Anda mungkin ingin menyusun kembali level variabel prediktor Anda untuk mengurangi jumlah level (jika itu masuk akal dalam konteks analisis Anda.) Namun, saya tidak yakin apakah ini akan menyebabkan beberapa jenis pembatalan statistik jika Anda tingkat runtuh karena Anda melihat mereka tidak signifikan.

Juga, hanya sebuah catatan, Anda mengatakan nilai- kecil tidak signifikan. Saya berasumsi bahwa yang Anda maksud p -value kecil adalah signifikan, yaitu: p -value .0001 adalah signifikan dan karena itu Anda menolak nol (dengan asumsi tingkat α > .0001 ?). pppα>.0001


(Mengoreksi kesalahan nilai p saya.) Poin bagus di sini. Jadi level yang runtuh, asalkan didasarkan pada beberapa dunia nyata dan alasan logis yang dapat dibenarkan dalam konteks penelitian (yang mungkin juga terjadi untuk menguraikannya selama jeda signifikansi) adalah masuk akal, tetapi tidak hanya mengelompokkannya secara sewenang-wenang berdasarkan signifikansinya . Mengerti.
Trees4theForest

15

@ Tanggapan Ellie bagus.

Jika Anda memasukkan variabel dengan sejumlah level, Anda perlu mempertahankan semua level tersebut dalam analisis Anda. Memilih dan memilih berdasarkan tingkat signifikansi akan membiasakan hasil Anda dan melakukan hal-hal yang sangat aneh pada kesimpulan Anda, bahkan jika oleh beberapa keajaiban perkiraan Anda berhasil tetap sama, karena Anda akan memiliki lubang menganga dalam perkiraan efek Anda pada tingkat yang berbeda dari variabel.

Saya akan mempertimbangkan untuk melihat perkiraan Anda untuk setiap tingkat prediktor secara grafis. Apakah Anda melihat tren ketika Anda naik level, atau itu tidak menentu?

Secara umum, saya juga menentang pengodean ulang variabel berdasarkan tes statistik - atau murni berdasarkan momen statistik. Pembagian dalam variabel Anda harus didasarkan pada sesuatu yang lebih tegas - titik potong yang bermakna secara logis, minat bidang pada titik transisi tertentu, dll.


8

Memperluas dua jawaban bagus yang sudah Anda dapatkan, mari kita lihat ini secara substantif. Misalkan variabel dependen Anda adalah (katakanlah) pendapatan dan variabel independen Anda adalah (katakanlah) etnis, dengan level, per definisi sensus (Putih, Hitam / Afr.Am., Am. Indian / Alaska Asli, Asia, Asli Hawaii / Pac Islander, lainnya dan multiras). Katakanlah Anda kode tiruan dengan Putih menjadi kategori referensi dan Anda dapatkan

sayancHaime=b0+b1BSEBUAHSEBUAH+b2SEBUAHsayaSEBUAHN+b3SEBUAHS+b4NHPsaya+b5HAI+b6M.R

Jika Anda melakukan studi ini di New York City, Anda mungkin akan mendapatkan sangat sedikit penduduk asli Hawaii / Kepulauan Pasifik. Anda mungkin memutuskan untuk memasukkan mereka (jika ada) dengan yang lain. Namun, Anda tidak dapat menggunakan persamaan lengkap dan tidak termasuk koefisien itu. Maka intersep akan salah, dan demikian juga nilai prediksi untuk pendapatan.

Tetapi bagaimana Anda menggabungkan kategori?

Seperti yang dikatakan orang lain, itu harus masuk akal .


4

Untuk memberikan pendapat yang berbeda: mengapa tidak memasukkannya sebagai efek acak? Itu harus menghukum level tersebut dengan dukungan lemah dan memastikan ukuran efeknya minimal. Dengan begitu Anda bisa menyimpan semuanya tanpa khawatir mendapat prediksi konyol.

Dan ya, ini lebih termotivasi dari pandangan Bayesian tentang efek acak daripada keseluruhan "sampel dari semua tingkatan yang memungkinkan" pandangan efek acak.


0

Saya juga bertanya-tanya apakah saya bisa menggabungkan kategori tidak signifikan dengan kategori referensi. Pernyataan berikut dalam buku "Penambangan Data untuk Intelijen Bisnis: Konsep, Teknik, dan Aplikasi di Microsoft Office Excel® dengan XLMiner®, Edisi ke-2 oleh Galit Shmueli, Nitin R. Patel, Peter C. Bruce", p87-89 (Dimensi Bagian reduksi) ( Hasil Pencarian Google ) tampaknya mendukung kalimat kedua dari tanggapan Ellie:

  • "Model regresi yang dipasang juga dapat digunakan untuk lebih lanjut menggabungkan kategori yang sama: kategori yang memiliki koefisien yang tidak signifikan secara statistik (yaitu memiliki nilai-p tinggi) dapat dikombinasikan dengan kategori referensi karena perbedaannya dari kategori referensi tampaknya tidak memiliki pengaruh signifikan terhadap variabel keluaran "
  • "Kategori yang memiliki nilai koefisien yang sama (dan tanda yang sama) sering dapat digabungkan karena pengaruhnya terhadap variabel keluaran serupa"

Namun, saya berencana untuk memeriksa dengan ahli materi pelajaran apakah menggabungkan kategori itu masuk akal (seperti yang tersirat dalam jawaban / komentar sebelumnya, misalnya @Fomite, @gung).


Jawaban ini bertentangan dengan jawaban lain di sini.
kjetil b halvorsen
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.