Ini adalah posting pertama saya di StackExchange, tetapi saya telah menggunakannya sebagai sumber daya selama beberapa waktu, saya akan melakukan yang terbaik untuk menggunakan format yang sesuai dan melakukan pengeditan yang sesuai. Juga, ini adalah pertanyaan multi-bagian. Saya tidak yakin apakah saya harus membagi pertanyaan menjadi beberapa posting berbeda atau hanya satu. Karena semua pertanyaan berasal dari satu bagian dalam teks yang sama, saya pikir akan lebih relevan untuk memposting sebagai satu pertanyaan.
Saya sedang meneliti pemanfaatan habitat spesies mamalia besar untuk Tesis Master. Tujuan dari proyek ini adalah untuk memberikan pengelola hutan (yang kemungkinan besar bukan ahli statistik) dengan kerangka kerja praktis untuk menilai kualitas habitat pada lahan yang mereka kelola terkait dengan spesies ini. Hewan ini relatif sulit dipahami, spesialis habitat, dan biasanya berlokasi di daerah terpencil. Relatif sedikit penelitian yang telah dilakukan mengenai distribusi spesies, terutama musiman. Beberapa hewan dipasangi kerah GPS untuk jangka waktu satu tahun. Seratus lokasi (50 musim panas dan 50 musim dingin) dipilih secara acak dari masing-masing data kerah GPS. Selain itu, 50 titik dihasilkan secara acak di dalam wilayah jelajah masing-masing hewan untuk dijadikan lokasi "tersedia" atau "tidak ada semu".
Untuk setiap lokasi, beberapa variabel habitat diambil sampelnya di lapangan (diameter pohon, tutup horizontal, puing-puing kayu kasar, dll) dan beberapa sampel diambil dari jarak jauh melalui GIS (ketinggian, jarak ke jalan, kekasaran, dll). Variabel-variabel tersebut sebagian besar kontinu kecuali untuk 1 variabel kategori yang memiliki 7 level.
Tujuan saya adalah menggunakan pemodelan regresi untuk membangun fungsi pemilihan sumber daya (RSF) untuk memodelkan probabilitas relatif penggunaan unit sumber daya. Saya ingin membangun RSF musiman (musim dingin dan musim panas) untuk populasi hewan (tipe desain I) serta setiap hewan individu (tipe desain III).
Saya menggunakan R untuk melakukan analisis statistik.
The teks primer yang telah saya gunakan adalah ...
- "Hosmer, DW, Lemeshow, S., & Sturdivant, RX 2013. Regresi Logistik Terapan. Wiley, Chicester".
Mayoritas contoh dalam Hosmer et al. penggunaan STATA, saya juga telah menggunakan 2 teks berikut untuk referensi dengan R .
- "Crawley, MJ 2005. Statistik: pengantar menggunakan RJ Wiley, Chichester, Sussex Barat, Inggris."
- "Plant, RE 2012. Analisis Data Spasial dalam Ekologi dan Pertanian Menggunakan R. CRC Press, London, GBR."
Saat ini saya mengikuti langkah-langkah dalam Bab 4 dari Hosmer et al. untuk "Pemilihan Tujuan dari Kovariat" dan memiliki beberapa pertanyaan tentang prosesnya. Saya telah menguraikan beberapa langkah pertama dalam teks di bawah ini untuk membantu pertanyaan saya.
- Langkah 1: Analisis univariabel dari masing-masing variabel independen (saya menggunakan regresi logistik univariabel). Setiap variabel yang tes univariabelnya memiliki nilai p kurang dari 0,25 harus dimasukkan dalam model multivariabel pertama.
- Langkah 2: Pasang model multivariabel yang berisi semua kovariat yang diidentifikasi untuk dimasukkan pada langkah 1 dan untuk menilai pentingnya setiap kovariat menggunakan nilai p dari statistik Wald-nya. Variabel yang tidak berkontribusi pada tingkat signifikansi tradisional harus dihilangkan dan model baru cocok. Model baru yang lebih kecil harus dibandingkan dengan model lama yang lebih besar menggunakan uji rasio kemungkinan parsial.
- Langkah 3: Bandingkan nilai koefisien yang diestimasi dalam model yang lebih kecil dengan nilai masing-masing dari model besar. Setiap variabel yang koefisiennya telah berubah sangat besar harus ditambahkan kembali ke dalam model karena penting dalam arti memberikan penyesuaian yang diperlukan dari pengaruh variabel yang tetap dalam model. Siklus melalui langkah 2 dan 3 sampai tampak bahwa semua variabel penting dimasukkan dalam model dan yang dikecualikan secara klinis dan / atau secara statistik tidak penting. Hosmer et al. gunakan " delta-beta-hat-persen " sebagai ukuran perubahan besarnya koefisien. Mereka menyarankan perubahan signifikan sebagai delta-beta-hat-persen > 20%. Hosmer et al. mendefinisikan delta-beta-hat-persen sebagai . Dimanaθ1adalah koefisien dari model yang lebih kecil danβ1adalah koefisien dari model yang lebih besar.
- Langkah 4: Tambahkan setiap variabel yang tidak dipilih pada Langkah 1 ke model yang diperoleh pada akhir langkah 3, satu per satu, dan periksa signifikansinya dengan nilai p statistik Wald atau uji rasio kemungkinan parsial jika itu adalah kategori variabel dengan lebih dari 2 level. Langkah ini sangat penting untuk mengidentifikasi variabel yang, dengan sendirinya, tidak secara signifikan terkait dengan hasil tetapi memberikan kontribusi penting di hadapan variabel lain. Kami merujuk pada model pada akhir Langkah 4 sebagai model efek utama awal .
- Langkah 5-7: Saya belum maju ke titik ini jadi saya akan meninggalkan langkah-langkah ini untuk saat ini, atau menyimpannya untuk pertanyaan yang berbeda.
Pertanyaan saya:
- Pada langkah 2, apa yang akan sesuai sebagai tingkat signifikansi tradisional, nilai p <0,05 sesuatu yang lebih besar seperti <0,25?
- Pada langkah 2 lagi, saya ingin memastikan kode R yang saya gunakan untuk tes kemungkinan parsial benar dan saya ingin memastikan saya menafsirkan hasil dengan benar. Inilah yang telah saya lakukan ...
anova(smallmodel,largemodel,test='Chisq')
Jika p-value signifikan (<0,05) saya menambahkan variabel kembali ke model, jika tidak signifikan saya melanjutkan dengan penghapusan? 100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])