Saya memiliki data survei besar, variabel hasil biner dan banyak variabel penjelas termasuk biner dan kontinu. Saya membangun set model (bereksperimen dengan GLM dan GLM campuran) dan menggunakan pendekatan teori informasi untuk memilih model teratas. Saya hati-hati memeriksa penjelasan (baik kontinu dan kategoris) untuk korelasi dan saya hanya menggunakan yang dalam model yang sama yang memiliki koefisien Pearson atau Phicorr kurang dari 0,3. Saya ingin memberi semua variabel kontinu kesempatan yang adil dalam bersaing untuk model teratas. Dalam pengalaman saya, mengubah mereka yang membutuhkannya berdasarkan kemiringan meningkatkan model mereka berpartisipasi (AIC lebih rendah).
Pertanyaan pertama saya adalah: apakah peningkatan ini karena transformasi meningkatkan linearitas dengan logit? Atau mengoreksi kemiringan meningkatkan keseimbangan variabel penjelas entah bagaimana dengan membuat data lebih simetris? Saya berharap saya mengerti alasan matematika di balik ini tetapi untuk saat ini, jika seseorang dapat menjelaskan hal ini dengan mudah, itu akan bagus. Jika Anda memiliki referensi yang dapat saya gunakan, saya akan sangat menghargainya.
Banyak situs internet mengatakan bahwa karena normalitas bukan asumsi dalam regresi logistik biner, jangan mengubah variabel. Tapi saya merasa bahwa dengan tidak mengubah variabel saya, saya meninggalkan beberapa di posisi yang kurang menguntungkan dibandingkan dengan yang lain dan itu mungkin mempengaruhi apa model top dan mengubah inferensi (well, biasanya tidak, tetapi dalam beberapa set data tidak). Beberapa variabel saya berkinerja lebih baik ketika log diubah, beberapa ketika kuadrat (arah kemiringan yang berbeda) dan beberapa variabel tidak diubah.
Apakah seseorang dapat memberi saya panduan apa yang harus berhati-hati ketika mengubah variabel penjelas untuk regresi logistik dan jika tidak melakukannya, mengapa tidak?