Saya tahu bahwa dalam regresi linier, variabel respons harus kontinu tetapi mengapa demikian? Saya tidak dapat menemukan apa pun di internet yang menjelaskan mengapa saya tidak dapat menggunakan data diskrit untuk variabel respons.
Saya tahu bahwa dalam regresi linier, variabel respons harus kontinu tetapi mengapa demikian? Saya tidak dapat menemukan apa pun di internet yang menjelaskan mengapa saya tidak dapat menggunakan data diskrit untuk variabel respons.
Jawaban:
Tidak ada yang menghentikan Anda menggunakan regresi linier pada dua kolom angka yang Anda sukai. Ada kalanya itu bahkan bisa menjadi pilihan yang cukup masuk akal.
Namun, properti dari apa yang Anda dapatkan tidak selalu berguna (mis. Tidak akan selalu menjadi yang Anda inginkan).
Secara umum dengan regresi Anda mencoba menyesuaikan beberapa hubungan antara rata-rata kondisional Y dan prediktor - yaitu hubungan fit beberapa bentuk ; bisa dibilang memodelkan perilaku harapan bersyarat adalah apa 'regresi' itu . [Regresi linier adalah ketika Anda mengambil satu bentuk khusus untuk g ]
Sebagai contoh, pertimbangkan kasus ekstrim diskrititas, variabel respon yang distribusinya 0 atau 1 dan yang mengambil nilai 1 dengan probabilitas yang berubah karena beberapa prediktor ( ) berubah. Itu adalah E ( Y | x ) = P ( Y = 1 | X = x ) .
Jika Anda cocok dengan hubungan semacam itu dengan model regresi linier, maka selain dari interval yang sempit, itu akan memprediksi nilai untuk yang tidak mungkin - baik di bawah 0 atau di atas 1 :
Memang, itu juga mungkin untuk melihat bahwa ketika ekspektasi mendekati batas, nilai-nilai harus semakin sering mengambil nilai pada batas itu, sehingga variansnya menjadi lebih kecil daripada jika ekspektasi mendekati tengah - varians harus menurun ke 0 Jadi, regresi biasa mendapatkan bobot yang salah, menurunkan berat badan data di wilayah di mana ekspektasi bersyarat mendekati 0 atau 1. Efek serupa terjadi jika Anda memiliki variabel yang dibatasi antara a dan b, katakanlah (misalnya setiap pengamatan menjadi penghitungan diskrit) dari jumlah total yang diketahui yang mungkin untuk pengamatan itu)
Selain itu, kami biasanya mengharapkan rata-rata bersyarat untuk asimtot menuju batas atas dan bawah, yang berarti hubungan biasanya akan melengkung, tidak lurus, sehingga regresi linier kami kemungkinan akan salah dalam rentang data juga.
Masalah serupa terjadi dengan data yang hanya dibatasi di satu sisi (mis. Jumlah yang tidak memiliki batas atas) ketika Anda berada di dekat satu batas itu.
Ini mungkin (jika jarang) memiliki data diskrit yang tidak dibatasi pada kedua ujung; jika variabel mengambil banyak nilai yang berbeda, diskresi mungkin memiliki konsekuensi yang relatif kecil selama deskripsi model tentang mean dan varians masuk akal.
Berikut ini adalah contoh yang masuk akal untuk menggunakan regresi linier pada:
Meskipun dalam setiap strip tipis nilai-x hanya ada beberapa nilai-y yang berbeda yang cenderung diamati (mungkin sekitar 10 untuk interval lebar 1), ekspektasinya dapat diperkirakan dengan baik, dan bahkan kesalahan standar dan p- nilai dan interval kepercayaan semua akan lebih atau kurang masuk akal dalam kasus khusus ini. Interval prediksi akan cenderung bekerja agak kurang baik (karena ketidaknormalan akan cenderung memiliki dampak yang lebih langsung dalam kasus itu)
-
Jika Anda ingin melakukan tes hipotesis atau menghitung interval kepercayaan atau prediksi, prosedur yang biasa digunakan membuat asumsi normalitas. Dalam beberapa keadaan, itu bisa jadi masalah. Namun, dimungkinkan untuk mengambil kesimpulan tanpa membuat asumsi tertentu.
Saya tidak dapat berkomentar, jadi saya akan menjawab: dalam regresi linier biasa, variabel respons tidak perlu kontinu, asumsi Anda tidak:
tetapi adalah:
Regresi linier biasa berasal dari minimalisasi residu kuadrat, yang merupakan metode yang diyakini sesuai untuk variabel kontinu dan diskrit (lihat teorema Gauss-Markof). Tentu saja biasanya digunakan interval kepercayaan atau prediksi dan tes hipotesis terletak pada asumsi distribusi normal, seperti yang ditunjukkan dengan tepat oleh Glen_b, tetapi estimasi parameter OLS tidak.
Di sisi lain, dalam model linier umum , variabel respons dapat diskrit / kategorikal (regresi logistik). Atau hitung (regresi Poisson).
Edit ke alamat mark999 dan komentar remapt.
Regresi linier adalah istilah umum yang dapat digunakan orang secara berbeda. Tidak ada yang mencegah kita untuk menggunakannya pada variabel diskrit ATAU variabel independen dan variabel dependen tidak linier.
Jika kita tidak melakukan apa-apa dan menjalankan regresi linier, kita masih bisa mendapatkan hasil. Dan jika hasilnya memuaskan kebutuhan kita, maka keseluruhan prosesnya OK. Namun, seperti yang dikatakan Glan_b
Jika Anda ingin melakukan tes hipotesis atau menghitung interval kepercayaan atau prediksi, prosedur yang biasa digunakan membuat asumsi normalitas.
Saya memiliki jawaban ini karena saya menganggap OP menanyakan regresi linier dari buku statistik klasik di mana kita biasanya memiliki asumsi ini ketika mengajar regresi linier.
Dari perspektif teoretis, jawaban di atas benar. Namun, secara praktis, semuanya tergantung pada domain data Anda dan daya prediksi model Anda.
Salah satu contoh kehidupan nyata adalah Model Kebangkrutan MDS yang lama. Ini adalah salah satu skor risiko awal yang digunakan oleh pemberi pinjaman kredit konsumen untuk memprediksi kemungkinan bahwa seorang peminjam akan menyatakan kebangkrutan. Model ini menggunakan data terperinci dari laporan kredit peminjam dan dan bendera 0/1 biner untuk menunjukkan kebangkrutan selama periode prediksi. Kemudian masukkan data itu ke ... ya .. Anda dapat menebaknya.
Regresi Linier Biasa Polos
Saya pernah mendapat kesempatan untuk berbicara dengan salah satu orang yang membangun model ini. Saya bertanya kepadanya tentang pelanggaran asumsi. Dia menjelaskan bahwa meskipun itu benar-benar melanggar asumsi tentang residu, dll. Dia tidak peduli.
Ternyata...
Model regresi linier 0/1 ini (ketika distandarisasi / diskalakan ke skor yang mudah dibaca dan dipasangkan dengan cutoff yang sesuai) divalidasi dengan bersih terhadap sampel data penahan & berkinerja sangat baik sebagai diskriminator Baik / Buruk untuk Kebangkrutan.
Model ini digunakan selama bertahun-tahun sebagai skor kredit kedua untuk menjaga kebangkrutan berdampingan dengan skor risiko FICO (yang dirancang untuk memprediksi kenakalan kredit selama 60+ hari).