Saya mencoba menemukan korelasi antara dikotomis dan variabel kontinu.
Dari pekerjaan dasar saya pada ini saya menemukan bahwa saya harus menggunakan independent t-test dan prasyarat untuk itu adalah bahwa distribusi variabel harus normal.
Saya melakukan tes Kolmogorov-Smirnov untuk menguji normalitas dan menemukan bahwa variabel kontinu adalah tidak normal dan condong (sekitar 4.000 titik data).
Saya melakukan tes Kolmogorov-Smirnov untuk seluruh rentang variabel. Haruskah saya membaginya menjadi kelompok dan melakukan tes? Yaitu, katakan jika saya memiliki risk level
( 0
= Tidak berisiko, 1
= Berisiko) dan kadar kolesterol, maka haruskah saya:
Bagilah mereka menjadi dua kelompok, seperti
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Bawa mereka bersama dan terapkan tes? (Saya melakukannya hanya pada seluruh dataset.)
Setelah itu, tes apa yang harus saya lakukan jika masih tidak normal?
EDIT: Skenario di atas hanyalah deskripsi yang saya coba berikan untuk masalah saya. Saya memiliki dataset yang berisi lebih dari 1000 variabel dan sekitar 4000 sampel. Mereka bersifat kontinu atau kategoris. Tugas saya adalah untuk memprediksi variabel dikotomi berdasarkan variabel-variabel ini (mungkin muncul dengan model regresi logistik). Jadi saya pikir penyelidikan awal akan melibatkan menemukan korelasi antara dikotomi dan variabel kontinu.
Saya mencoba melihat bagaimana distribusi variabel dan karenanya mencoba untuk uji-t. Di sini saya menemukan normalitas sebagai masalah. Tes Kolmogorov-Smirnov memberikan nilai signifikansi 0,00 di sebagian besar variabel ini.
Haruskah saya menganggap normal di sini? Skewness dan kurtosis dari variabel-variabel ini juga menunjukkan bahwa data miring (> 0) di hampir semua kasus.
Sesuai catatan yang diberikan di bawah ini saya akan menyelidiki korelasi point-biserial lebih lanjut. Tetapi tentang distribusi variabel saya masih tidak yakin.