Membangun model linier untuk rasio vs persentase?


20

Misalkan saya ingin membangun model untuk memprediksi beberapa jenis rasio atau persentase. Sebagai contoh, katakanlah saya ingin memprediksi jumlah anak laki-laki vs perempuan yang akan menghadiri pesta, dan fitur-fitur pesta yang dapat saya gunakan dalam model adalah hal-hal seperti jumlah iklan untuk pesta, ukuran tempat acara, apakah ada akan ada alkohol di pesta itu, dll. (Ini hanya contoh buatan; fitur-fiturnya tidak terlalu penting.)

Pertanyaan saya adalah: apa perbedaan antara memprediksi rasio vs persentase, dan bagaimana model saya berubah tergantung pada yang saya pilih? Apakah yang satu lebih baik dari yang lain? Apakah beberapa fungsi lain lebih baik daripada salah satunya? (Saya tidak terlalu peduli dengan angka rasio dan persentase tertentu; Saya hanya ingin dapat mengidentifikasi pihak mana yang lebih cenderung menjadi "pesta anak laki-laki" vs "pesta perempuan".) Misalnya, saya berpikir:

  • Jika saya ingin memprediksi persentase (katakanlah,, # boys / (# boys + # girls)maka karena fitur dependen saya dibatasi antara 0 dan 1, saya mungkin harus menggunakan sesuatu seperti regresi logistik daripada regresi linier.
  • Jika saya ingin memprediksi rasio (katakanlah,, # boys / # girlsatau # boys / (1 + # girls)untuk menghindari kesalahan pembagian dengan nol), maka fitur dependen saya adalah positif, jadi haruskah saya menerapkan beberapa jenis transformasi (log?) Sebelum menggunakan regresi linier? (Atau model lain? Model regresi seperti apa yang digunakan untuk data non-hitung yang positif?)
  • Apakah lebih baik memprediksi (katakan) persentase daripada rasio, dan jika ya, mengapa?

Bergantung pada aplikasi khusus Anda dan apa yang Anda coba modelkan, Anda harus mempertimbangkan untuk menggunakan Analisis Data Komposisi ( en.wikipedia.org/wiki/Compositional_data ); ada beberapa hal halus untuk dipertimbangkan ketika fitur (variabel independen) berjumlah kesatuan. Silakan lihat karya John Aitchison.
ctbrown

Jawaban:


9

halSEBUAHBhal

[0,1]

01

catatan


15

Menggemakan jawaban pertama. Jangan repot-repot mengonversi - cukup buat model jumlah dan kovarian langsung.

Jika Anda melakukan itu dan cocok dengan model regresi Binomial (atau ekuivalen logistik) dengan jumlah anak perempuan, Anda akan melakukannya, jika Anda memilih fungsi tautan yang biasa untuk model-model semacam itu, secara implisit telah menyesuaikan rasio (covariate smoothed log) antara anak laki-laki dan perempuan. Itulah prediktor linier.

Alasan utama untuk memodelkan menghitung secara langsung daripada proporsi atau rasio adalah bahwa Anda tidak kehilangan informasi. Secara intuitif Anda akan jauh lebih percaya diri tentang kesimpulan dari rasio yang diamati dari 1 (laki-laki ke perempuan) jika itu berasal dari melihat 100 laki-laki dan 100 perempuan daripada dari melihat 2 dan 2. Akibatnya, jika Anda memiliki kovariat Anda akan memiliki lebih banyak informasi tentang efeknya dan berpotensi menjadi model prediksi yang lebih baik.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.