Apakah prediktor dengan varian yang lebih besar "lebih baik"?


13

Saya punya pertanyaan konsep "statistik dasar". Sebagai seorang siswa, saya ingin tahu apakah saya memikirkan hal yang salah dan mengapa, jika demikian:

Katakanlah saya secara hipotetis mencoba melihat hubungan antara "masalah manajemen kemarahan" dan katakan perceraian (ya / tidak) dalam regresi logistik dan saya memiliki opsi untuk menggunakan dua skor manajemen kemarahan yang berbeda - keduanya keluar dari 100.
Skor 1 berasal dari instrumen pemeringkat kuesioner 1 dan pilihan saya yang lain; skor 2 berasal dari kuesioner yang berbeda. Secara hipotesis, kami memiliki alasan untuk percaya dari pekerjaan sebelumnya bahwa masalah manajemen kemarahan menimbulkan perceraian.
Jika, dalam sampel saya yang berjumlah 500 orang, varian skor 1 jauh lebih tinggi daripada skor 2, apakah ada alasan untuk meyakini bahwa skor 1 akan menjadi skor yang lebih baik untuk digunakan sebagai prediktor perceraian berdasarkan variansnya?

Bagi saya, ini secara naluriah sepertinya benar, tetapi benarkah demikian?


Pertanyaan yang menarik, saya percaya jawaban Whuber menjelaskannya dengan sangat baik. Tanggapan pertama saya terhadap pertanyaan itu adalah: 'meningkatnya variasi tidak memerlukan informasi diskriminasi kelas yang lebih tinggi'.
Zhubarb

Jawaban:


11

Beberapa poin cepat:

  • Varians dapat ditingkatkan atau dikurangi secara sewenang-wenang dengan mengadopsi skala yang berbeda untuk variabel Anda. Mengalikan skala dengan konstanta lebih besar dari satu akan meningkatkan varians, tetapi tidak mengubah kekuatan prediktif variabel.
  • Anda mungkin membingungkan varians dengan keandalan. Semua yang lain sama (dan dengan asumsi bahwa setidaknya ada beberapa prediksi skor sebenarnya), meningkatkan keandalan yang Anda mengukur konstruk harus meningkatkan kekuatan prediktifnya. Lihatlah diskusi koreksi ini untuk pelemahan .
  • Dengan asumsi bahwa kedua skala terdiri dari dua puluh item 5 poin, dan dengan demikian memiliki skor total yang berkisar antara 20 hingga 100, maka versi dengan varian yang lebih besar juga akan lebih dapat diandalkan (setidaknya dalam hal konsistensi internal).
  • Keandalan konsistensi internal bukan satu-satunya standar yang digunakan untuk menilai tes psikologis, dan itu bukan satu-satunya faktor yang membedakan kekuatan prediktif satu skala dibandingkan yang lain untuk konstruk yang diberikan.

9

Contoh sederhana membantu kami mengidentifikasi apa yang penting.

Biarkan

Y=C+γX1+ε

di mana dan γ adalah parameter, X 1 adalah skor pada instrumen pertama (atau variabel independen), dan ε mewakili kesalahan iid yang tidak bias. Biarkan skor pada instrumen kedua terkait dengan yang pertama viaCγX1ε

X1=αX2+β.

Misalnya, skor pada instrumen kedua mungkin berkisar antara 25 hingga 75 dan skor pada instrumen pertama dari 0 hingga 100, dengan . Varian X 1 adalah α 2 kali varian X 2 . Meskipun demikian, kita dapat menulis ulangX1=2X2-50X1α2X2

Y=C+γ(αX2+β)=(C+βγ)+(γα)X2+ε=C+γX2+ε.

Parameter berubah, dan varians dari variabel independen berubah , namun kemampuan prediktif model tetap tidak berubah .

X1X2YYXsaya

X1X2YYX1X2X2


1

Selalu periksa asumsi untuk uji statistik yang Anda gunakan!

Salah satu asumsi regresi logistik adalah independensi kesalahan yang berarti bahwa kasus data tidak boleh dikaitkan. Misalnya. Anda tidak dapat mengukur orang yang sama pada waktu yang berbeda yang saya khawatir Anda mungkin telah lakukan dengan survei manajemen kemarahan Anda.

Saya juga akan khawatir bahwa dengan 2 survei manajemen kemarahan Anda pada dasarnya mengukur hal yang sama dan analisis Anda bisa menderita multikolinearitas.


1
Saya pikir N26 menyarankan eksperimen pikiran. Yaitu, jika ketika merancang sebuah studi Anda memiliki pilihan antara dua skala, sebaiknya Anda memilih, prima facie, yang memiliki varian yang lebih besar. Juga, memiliki dua prediktor yang mewakili konstruk yang sama, tetapi diukur secara berbeda tidak melanggar asumsi independensi pengamatan.
Jeromy Anglim
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.