Pertanyaan utama tentang mengubah proporsi (saya akan menggunakan sebagai simbol, sama tetapi tidak identik dengan notasi Anda) memungkinkan beberapa komentar umum.x
Dalam uraian selanjutnya saya berpendapat bahwa motif utama untuk mengubah proporsi yang kovariat (prediktor, variabel independen) adalah untuk meningkatkan pendekatan terhadap linearitas hubungan, atau jika dalam mode eksplorasi untuk mendapatkan ide yang lebih jelas secara grafis dari bentuk atau memang keberadaan hubungan apa pun. Seperti biasa apakah kovariat (mis.) Kira-kira terdistribusi secara normal tidak begitu penting. (Proporsi adalah relatif tidak terlalu jauh dari variabel indikator dengan nilai yang tidak pernah dapat didistribusikan secara normal, dan proporsi juga harus dibatasi.)0 , 1
Jika proporsi dapat mencapai angka nol atau angka pasti, adalah penting bahwa transformasi didefinisikan untuk batas-batas tersebut, yang jelas mengesampingkan , karena tidak dapat ditentukan. Di luar itu bentuk tertentu idealnya memerlukan beberapa pembenaran substantif (ilmiah, praktis), tetapi kurang dari itu mengikuti dari beberapa analisis sederhana bahwa sangat sensitif terhadap nilai , seperti yang Anda beri petunjuk. log 0 log ( x + c ) ccatatanxcatatan0catatan( x + c )c
Ini sedikit lebih mudah dilihat dengan logaritma ke basis , jadi untuk sementara mari kita pertimbangkan sehingga memetakan hingga .c = 10 k log 10 ( x + 10 k ) x = 0 k10c = 10kcatatan10( x + 10k)x = 0k
Karenanya peta hingga dan hingga sekitar , sementara peta hingga dan hanya smidgen lebih dari .x = 0 0 x = 1 0,301 k = - 3 , c = 0,001 x = 0 - 3 x = 1 0k = 0 , c = 1x = 00x = 10,301k = - 3 , c = 0,001x = 0- 3x = 10
Demikian pula, apa pun artinya dipetakan ke batas yang sama, sedangkan untuk pendekatan yang semakin baik dipetakan ke .k = - 6 , - 9 ,0x = 10
Jadi batas bawah direntangkan ke luar dengan konstanta tambah lebih kecil dan lebih kecil , sedangkan batas atas tetap hampir sama. Transformasi semacam itu dengan demikian dapat meregangkan bagian bawah kisaran sangat banyak dan bahkan membuat outlier dari nilai yang sangat kecil pada atau dekat .c0
Sederhananya, orang yang menyarankan ini mungkin membayangkan bahwa (sekarang untuk basis yang Anda suka) harus berperilaku sangat mirip dengan untuk kecil , yang jelas benar untuk besar , tetapi sama sekali tidak berlaku untuk kecil . Jika tidak dimasukkan, kemiringan yang lebih curam dan curam sebagai fungsi karena dapat menggigit di sini dengan sangat keras.catatan( x + c )logxcxxlogxxx↓0
Tampaknya lebih baik untuk fokus pada transformasi yang bervariasi secara bertahap dekat dan (untuk alasan lain, tetapi terkait,) juga dekat .x=0x=1
Akar kuadrat dan akar pangkat tiga dan kekuatan lain didefinisikan dengan baik untuk dan sering membantu ketika ada kebutuhan untuk meregangkan nilai di dekat . Tetapi transformasi ini sudah dikenal luas dan saya lebih fokus di sini pada kemungkinan lain.xpx=0,10
Keluarga kekuatan terlipat yang dipopulerkan oleh JW Tukey ( Analisis Data Eksplorasi , Membaca, MA: Addison-Wesley, 1977) adalah satu kemungkinan, dan
. Meskipun tidak ada paksaan untuk memilih kekuatan yang memungkinkan nama evokatif sederhana, pilihan (akar terlipat) dan (akar kubus terlipat) tampaknya anggota paling berguna dari keluarga ini.xp−(1−x)pp=1/2p=1/3
Keluarga menyerupai transformasi logit yang sudah dikenal dan memang logit adalah kasus pembatas karena cenderung . Perbedaan utama adalah bahwa kekuatan terlipat didefinisikan untuk dan .p 0 x = 0 , 1 p ≠ 0logit x=logx−log(1−x)p0x=0,1p≠0
Kekuatan yang dilipat, termasuk sekarang logit, memperlakukan kasus ekstrem dekat dan miring secara simetris dan plot sebagai kurva sigmoid terbalik (beberapa grafik di bawah) mencampur aditif dan perilaku multiplikatif, menggemakan kualitatif sering (jika bukan fisik, biologis, ekonomi, apa pun) fakta untuk fenomena yang mendasari itu101
perbedaan dari katakanlah menjadi bisa menjadi "masalah besar" (tentu, berubah hanya , tetapi juga berlipat ganda)0,02 x 0,010.010.02x0.01
0.980.99x0.011−x
0.500.51x0.01
01
x=0,1
log(x+0.001)
Dua poin utama yang ingin saya sampaikan adalah itu
log(x+c)x
Sebagai contoh data Anda, tidak ada transformasi yang saya coba tampaknya membantu.
Pada saat yang sama, kemungkinan lain jauh dari kelelahan. (Khususnya, saya tidak mencoba root kuadrat atau root cube, dan menekankan bahwa dalam banyak masalah lain itu bisa menjadi kandidat yang jelas dan serius.)
01
R2=3.7=0.994
y610
EDIT: Data asli dapat diplot di sini karena OP secara singkat memposting data, tetapi kemudian dihapus.
Thread lain di sini menggunakan kekuatan terlipat termasuk
Mengubah data proporsi: ketika arcsin kuadrat tidak cukup
Regresi: Scatterplot dengan R-kuadrat rendah dan nilai-p tinggi
Plot dataset yang sangat miring