Pemodelan ketika variabel dependen memiliki "cut-off"


12

Mohon maaf sebelumnya jika ada terminologi yang saya gunakan salah. Saya akan menerima segala koreksi. Jika apa yang saya gambarkan sebagai "cut-off" menggunakan nama yang berbeda, beri tahu saya dan saya dapat memperbarui pertanyaan.

Situasi yang saya minati adalah ini: Anda memiliki variabel independen dan variabel dependen tunggal . Saya akan membiarkannya kabur, tetapi anggaplah akan relatif mudah untuk mendapatkan model regresi yang baik untuk variabel-variabel ini. yxy

Namun, model yang ingin Anda buat adalah untuk variabel independen dan variabel dependen , di mana a adalah beberapa nilai tetap dalam rentang y . Sama halnya, data yang Anda akses tidak termasuk y , hanya w .xw=min(y,a)ayyw

Contoh (agak tidak realistis) tentang ini adalah jika Anda mencoba membuat model berapa tahun orang akan menerima pensiun mereka. Dalam hal ini, x bisa menjadi informasi yang relevan seperti jenis kelamin, berat badan, jam latihan per minggu, dll. Variabel 'yang mendasari' y adalah harapan hidup. Namun variabel yang akan Anda akses dan coba prediksi dalam model Anda adalah w=min(0,yr) mana r adalah usia pensiun (dengan asumsi kesederhanaannya sudah diperbaiki).

Apakah ada pendekatan yang baik untuk menangani hal ini dalam pemodelan regresi?


1
Saya tidak yakin, tapi sepertinya ini bisa didekati melalui beberapa variasi analisis survival. 1) Ini melibatkan penyensoran 2) Setidaknya dalam contoh Anda, itu melibatkan waktu. Tapi itu akan disensor kiri daripada disensor kanan (yang lebih umum). Jika Anda setuju dengan saya, Anda bisa menambahkan tag survival dan melihat apakah ada yang melompat di atasnya.
Peter Flom - Kembalikan Monica

4
@ Peter Pasti disensor dengan benar untuk saya. Di sisi mana sensor terjadi sedikit impor, karena dengan meniadakan variabel dependen satu beralih antara sensor kanan dan kiri.
Whuber

@whuber saya pikir kamu benar. Tetapi, seperti yang Anda katakan, sensor dapat beralih dengan cukup mudah.
Peter Flom - Reinstate Monica

Contoh pensiun tampaknya memerlukan model data hitungan (jika Anda bersedia untuk membulatkan tahun penuh dan selama semua orang mati pada saat Anda menjalankan analisis). Pendekatan variabel laten tampaknya seperti peregangan dengan ini karena waktu tidak boleh negatif.
Dimitriy V. Masterov

Jawaban:


14

Model semacam ini dikenal dengan beberapa nama, tergantung pada bidang disiplin dan topik. Nama-nama umum untuk itu adalah Variabel Ketergantungan Tersensor, Variabel Ketergantungan Terpotong, Variabel Ketergantungan Terbatas, Analisis Kelangsungan Hidup, Tobit, dan Regresi Disensor. Saya mungkin meninggalkan beberapa nama lain.

Pengaturan yang Anda sarankan di mana diamati disebut "sensor kanan," karena nilai terlalu jauh ke kanan pada garis nyata disensor --- dan sebagai gantinya kami hanya melihat titik sensor, .min{yi,a}yia

Salah satu cara berurusan dengan data seperti ini adalah melalui penggunaan variabel laten (dan ini pada dasarnya yang Anda usulkan). Ini adalah salah satu cara untuk melanjutkan:

yi=xiβ+εiwi=min{yi,a}εiN(0,σ2) iid

Kemudian, Anda dapat menganalisis ini dengan kemungkinan maksimum. Pengamatan di mana penyensoran terjadi berkontribusi ke fungsi kemungkinan, dan pengamatan di mana penyensoran tidak terjadi berkontribusi ke fungsi likelihood. CDF standar normal adalah dan kepadatan standar normal adalah . Jadi, fungsi kemungkinannya terlihat seperti:P{yi>a}=Φ(1σxiβa)1σϕ((yixiβ)/σ)Φϕ

L(β,σ)=i  censoredΦ(1σxiβa)i  censored1σϕ((yixiβ)/σ)

Anda memperkirakan dan dengan memaksimalkan ini. Anda mendapatkan kesalahan standar sebagai kesalahan standar kemungkinan maksimum yang biasa.βσ

Seperti yang Anda bayangkan, ini hanyalah satu pendekatan di antara banyak cara.


1
+1 Contoh solusi ML yang berfungsi muncul di stats.stackexchange.com/questions/49443 .
whuber

@whuber Itu adalah eksposisi yang bagus.
Bill
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.