Pertanyaan imputasi berganda untuk regresi berganda di SPSS


9

Saat ini saya menjalankan model regresi berganda menggunakan data yang diperhitungkan dan memiliki beberapa pertanyaan.

Latar Belakang:

Menggunakan SPSS 18. Data saya tampaknya MAR. Penghapusan kasus secara berurutan membuat saya hanya memiliki 92 kasus, beberapa imputasi menyisakan 153 kasus untuk dianalisis. Semua asumsi terpenuhi - satu log variabel ditransformasikan. 9 IV 5 - 5 kategori, 3 skala, 1 interval. Skala DV. Menggunakan metode enter regresi berganda standar.

  • DV saya adalah perbedaan skor antara skor pra-skor dan skor paska, kedua variabel ini tidak memiliki sejumlah kasus - haruskah saya menghitung nilai yang hilang untuk masing-masing dan kemudian menghitung perbedaan di antara mereka untuk menghitung DV saya (bagaimana cara saya melakukan ini), atau bisakah saya menghubungkan data untuk DV saya? Pendekatan mana yang paling tepat?
  • Haruskah saya menjalankan imputasi pada data yang ditransformasi atau data miring yang tidak diubah?
  • Haruskah saya memasukkan semua variabel ke dalam proses imputasi, bahkan jika mereka tidak kehilangan data, atau haruskah saya memasukkan data untuk variabel yang hilang lebih dari 10% kasus?

Saya telah menjalankan regresi pada kasus-kasus yang terhapus secara listwise dan akun IV saya untuk sangat sedikit varians dalam DV saya, kemudian saya telah menjalankan regresi pada file lengkap berikut beberapa imputasi - Hasilnya sangat mirip, bahwa 9 IV saya masih memprediksi hanya sekitar 12% dari varians dalam DV saya, namun, sekarang salah satu IV saya menunjukkan bahwa itu membuat kontribusi yang signifikan (ini kebetulan merupakan variabel yang diubah log) ...

  • Haruskah saya melaporkan data asli jika ada sedikit perbedaan antara kesimpulan saya - yaitu IV saya buruk memprediksi dv, atau melaporkan data lengkap?

Apa arti "skala" untuk SPSS, apakah ini merujuk pada data ordinal ?
gung - Reinstate Monica

Skala dalam format SPSS biasanya berarti ukuran "interval / rasio", lihat perintah LEVEL VARIABEL . Tapi itu kemudian meninggalkan pertanyaan apa perbedaan antara skala 3 dan pertanyaan 1 interval? Walaupun begitu, ini seharusnya menjadi informasi yang cukup untuk menjawab pertanyaan Anda secara efektif.
Andy W

2
Satu-satunya saran yang bisa saya berikan adalah bahwa memprediksi skor perubahan cenderung jauh lebih sulit daripada memprediksi level (sehingga tidak mengejutkan dalam banyak situasi yang rendah R^2terjadi). Lihat beberapa diskusi menarik tentang desain pra-posting di sini . Meskipun itu masih benar-benar tidak menjawab pertanyaan Anda!
Andy W

Jawaban:


2
  1. Apakah Anda harus menyalahkan skor sebelum dan sesudah, atau skor perbedaan, tergantung pada bagaimana Anda menganalisis perbedaan sebelum posting. Anda harus menyadari ada batasan yang sah untuk menganalisis skor perbedaan (lihat Edwards, 1994, untuk ulasan yang bagus), dan pendekatan regresi di mana Anda menganalisis residu untuk post-skor setelah mengendalikan untuk pra-skor mungkin lebih baik. Dalam hal ini, Anda ingin memasukkan nilai sebelum dan sesudah, karena itu adalah variabel yang akan ada dalam model analitik Anda. Namun, jika Anda berniat menganalisis skor perbedaan, hitung skor perbedaan, karena tidak mungkin Anda akan ingin menghitung skor perbedaan secara manual di semua set data yang ditetapkan. Dengan kata lain, variabel apa pun yang Anda gunakan dalam model analitik Anda yang sebenarnya,
  2. Sekali lagi, saya akan menyalahkan dengan variabel yang diubah, karena itulah yang digunakan dalam model analitik Anda.
  3. Menambahkan variabel ke model imputasi akan meningkatkan tuntutan komputasi dari proses imputasi, TAPI, jika Anda punya waktu, lebih banyak informasi selalu lebih baik. Variabel dengan data lengkap berpotensi menjadi variabel tambahan yang sangat berguna untuk menjelaskan hilangnya MAR. Jika menggunakan semua variabel Anda menghasilkan terlalu banyak waktu / perhitungan yang menuntut model imputasi (yaitu, jika Anda memiliki kumpulan data besar), buat variabel dummy untuk setiap kasus yang hilang untuk setiap variabel, dan lihat variabel mana yang memprediksi variabel-variabel yang hilang tersebut dalam logistik. model - kemudian sertakan variabel kasus lengkap tertentu dalam model imputasi Anda.
  4. Saya tidak akan melaporkan analisis asli (yaitu, daftar-bijaksana dihapus). Jika mekanisme hilangnya Anda adalah MAR, maka MI tidak hanya akan memberi Anda peningkatan daya, tetapi juga akan memberi Anda perkiraan yang lebih akurat (Enders, 2010). Dengan demikian, efek signifikan dengan MI mungkin tidak signifikan dengan penghapusan daftar-bijaksana karena analisis itu kurang bertenaga, bias, atau keduanya.

Referensi

Edwards, JR (1994). Analisis regresi sebagai alternatif untuk skor perbedaan. Jurnal Manajemen , 20 , 683-689.

Enders, CK (2010). Analisis Data Hilang yang Diterapkan . New York, NY: Guilford Press.


1

Dalam pengalaman saya, fungsi imputasi SPSS mudah digunakan, baik dalam membuat dataset maupun dalam menganalisis dan mengumpulkan set data imputasi yang dihasilkan. Namun, kemudahan penggunaannya adalah kejatuhannya juga. Jika Anda melihat fungsi imputasi yang sama dalam Rperangkat lunak statistik (lihat misalnya micepaket), Anda akan melihat lebih banyak opsi. Lihat situs web Stef van Buurens untuk penjelasan yang sangat baik tentang berbagai imputasi secara umum (dengan atau tanpa menggunakan paket mouse).

Sangat penting untuk dicatat bahwa opsi tambahan ini bukan pilihan 'mewah' hanya untuk pengguna tingkat lanjut . Beberapa sangat penting untuk mencapai pengertian yang tepat , model spesifik untuk variabel hilang spesifik , prediktor spesifik untuk variabel hilang spesifik , diagnostik imputasi , dan banyak lagi, yang tidak tersedia dalam fungsi imputasi SPSS.

Untuk pertanyaan Anda:

  1. imputasi nilai sebelum dan sesudah dan mengganti secara pasif perbedaan yang hilang adalah tepat ketika Anda ingin menghemat hubungan antara skor sebelum dan sesudah, dan perbedaan (seperti dijawab oleh jsakaluk). Dalam kasus Anda, ini mungkin terjadi ketika Anda ingin membangun model dengan perbedaan skor sebelum dan sesudah sebagai variabel hasil / dependen dan baseline (pra-skor) sebagai (salah satu) variabel prediktor / independen.
  2. Model apa pun yang digunakan untuk mengganti nilai yang hilang harus mematuhi asumsinya. Berarti bahwa untuk mengganti variabel kontinu Anda harus mematuhi asumsi model regresi linier (dalam kasus paling sederhana). untuk regresi linier, dan sebagian besar model regresi lainnya, variabel prediktor tidak perlu terdistribusi secara normal, namun residu model harus! Oleh karena itu beberapa transformasi mungkin diperlukan jika yang terakhir terjadi.
  3. Lihat jawaban jsakaluk. Namun perlu dicatat bahwa SPSS menggunakan imputasi masif , yang pada dasarnya berarti semua variabel yang dimasukkan digunakan untuk mengganti variabel dengan case yang hilang. Jika Anda hanya memiliki satu variabel dengan yang hilang ini tidak ada masalah. Namun, jika Anda memiliki banyak, ini berarti variabel dengan ketiadaan juga digunakan untuk melengkapi variabel lainnya dengan ketiadaan. Ini mungkin bukan masalah, tetapi dalam beberapa kasus ini menciptakan loop umpan balik yang bias nilai imputasi akhir Anda. Sangat penting untuk memeriksa ini dengan mencari tren di seluruh iterasi imputasi Anda alih-alih 'menstabilkan' nilai yang diganti.
  4. Saya setuju dengan jawaban jsakaluk yang satu ini. Jika Anda memutuskan untuk 'tidak mempercayai' data lengkap Anda karena Anda mencurigai ada selektif, dan selesaikan atau perbaiki sebagian ini dengan menggunakan beberapa teknik imputasi (yang saya pikir memang akan menjadi yang paling tidak bias), maka hasil imputasi ganda Anda harus menjadi hasil utama yang Anda hasilkan. menunjukkan. Sayangnya, pengalaman telah menunjukkan pengulas atau orang-orang yang tertarik kadang-kadang ingin melihat analisis kasus lengkap (jadi pertahankan).
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.