Katakanlah kita memiliki sampel dari dua populasi: A
dan B
. Mari kita asumsikan populasi ini terbuat dari individu dan kami memilih untuk menggambarkan individu dalam hal fitur. Beberapa fitur ini bersifat kategorikal (misalnya apakah mereka mengemudi untuk bekerja?) Dan beberapa bersifat numerik (mis. Tingginya). Sebut saja fitur-fitur ini: . Kami mengumpulkan ratusan fitur ini (mis. N = 200), mari asumsikan untuk kesederhanaan, tanpa kesalahan atau kebisingan di semua individu.
Kami berhipotesis dua populasi berbeda. Tujuan kami adalah menjawab dua pertanyaan berikut:
- Apakah mereka sebenarnya sangat berbeda?
- Apa perbedaan yang signifikan di antara mereka?
Metode seperti pohon keputusan (misalnya hutan acak) dan analisis regresi linier dapat membantu. Sebagai contoh, seseorang dapat melihat kepentingan fitur di hutan acak atau koefisien yang sesuai dalam regresi linier untuk memahami apa yang mungkin membedakan kelompok-kelompok ini, dan mengeksplorasi hubungan antara fitur dan populasi.
Sebelum saya menempuh rute ini, saya ingin mengetahui pilihan saya di sini, apa yang baik dan modern vs praktik buruk. Harap dicatat bahwa tujuan saya bukan prediksi semata, tetapi menguji dan menemukan perbedaan yang signifikan di antara grup.
Apa saja pendekatan berprinsip untuk mengatasi masalah ini?
Berikut beberapa kekhawatiran yang saya miliki:
Metode seperti analisis regresi linier mungkin tidak sepenuhnya menjawab (2), kan? Misalnya satu kecocokan dapat membantu menemukan beberapa perbedaan, tetapi tidak semua perbedaan signifikan. Sebagai contoh, multi-collinearity dapat mencegah kita dari menemukan bagaimana semua fitur berbeda-beda antar kelompok (setidaknya pada satu kecocokan). Untuk alasan yang sama, saya berharap ANOVA tidak dapat memberikan jawaban lengkap untuk (2) juga.
Tidak sepenuhnya jelas bagaimana pendekatan prediksi akan menjawab (1). Misalnya, fungsi klasifikasi / kehilangan prediksi yang harus kita perkecil? Dan bagaimana kita menguji apakah kelompok-kelompok itu berbeda atau tidak begitu kita cocok? Akhirnya, saya khawatir bahwa jawaban yang saya dapat (1) tergantung pada serangkaian model klasifikasi yang saya gunakan.