Misalkan saya ingin membangun model untuk memprediksi beberapa jenis rasio atau persentase. Sebagai contoh, katakanlah saya ingin memprediksi jumlah anak laki-laki vs perempuan yang akan menghadiri pesta, dan fitur-fitur pesta yang dapat saya gunakan dalam model adalah hal-hal seperti jumlah iklan untuk pesta, ukuran tempat acara, apakah ada akan ada alkohol di pesta itu, dll. (Ini hanya contoh buatan; fitur-fiturnya tidak terlalu penting.)
Pertanyaan saya adalah: apa perbedaan antara memprediksi rasio vs persentase, dan bagaimana model saya berubah tergantung pada yang saya pilih? Apakah yang satu lebih baik dari yang lain? Apakah beberapa fungsi lain lebih baik daripada salah satunya? (Saya tidak terlalu peduli dengan angka rasio dan persentase tertentu; Saya hanya ingin dapat mengidentifikasi pihak mana yang lebih cenderung menjadi "pesta anak laki-laki" vs "pesta perempuan".) Misalnya, saya berpikir:
- Jika saya ingin memprediksi persentase (katakanlah,,
# boys / (# boys + # girls)
maka karena fitur dependen saya dibatasi antara 0 dan 1, saya mungkin harus menggunakan sesuatu seperti regresi logistik daripada regresi linier. - Jika saya ingin memprediksi rasio (katakanlah,,
# boys / # girls
atau# boys / (1 + # girls)
untuk menghindari kesalahan pembagian dengan nol), maka fitur dependen saya adalah positif, jadi haruskah saya menerapkan beberapa jenis transformasi (log?) Sebelum menggunakan regresi linier? (Atau model lain? Model regresi seperti apa yang digunakan untuk data non-hitung yang positif?) - Apakah lebih baik memprediksi (katakan) persentase daripada rasio, dan jika ya, mengapa?