Model Regresi dan Autokorelasi Spasial


15

Saya telah menggunakan OLS dan GWR untuk memvalidasi dependensi antara dua database yang berbeda. Kotak Sisa untuk GWR adalah 0,82 dan dengan demikian menjadikannya model regresi yang tepat untuk digunakan untuk menentukan hubungan antara dua set data.

Apa yang saya ingin tahu itu, GWR menjadi regresi lokal dan OLS menjadi regresi global, yang harus digunakan di mana dan kapan?

Juga apa artinya jika Moran's I untuk model GWR adalah Acak?

Jawaban:


13

Apa prosedur ini?

Meskipun OLS dan GWR berbagi banyak aspek dari formulasi statistik mereka, mereka digunakan untuk tujuan yang berbeda:

  • OLS secara formal memodelkan hubungan global dari jenis tertentu. Dalam bentuknya yang paling sederhana, setiap catatan (atau kasus) dalam dataset terdiri dari nilai, x, yang ditetapkan oleh eksperimen (sering disebut "variabel independen"), dan nilai lain, y, yang diamati ("variabel dependen" ). OLS mengandaikan bahwa y adalah kira - kiraterkait dengan x dengan cara yang sangat sederhana: yaitu, ada (tidak diketahui) angka 'a' dan 'b' yang a + b * x akan menjadi estimasi y yang baik untuk semua nilai x di mana peneliti mungkin tertarik . "Perkiraan yang baik" mengakui bahwa nilai-nilai y dapat, dan akan, bervariasi dari prediksi matematika seperti itu karena (1) mereka benar-benar melakukannya - alam jarang sesederhana persamaan matematika - dan (2) y diukur dengan beberapa kesalahan. Selain memperkirakan nilai a dan b, OLS juga menghitung jumlah variasi dalam y. Ini memberi OLS kemampuan untuk menetapkan signifikansi statistik dari parameter a dan b.

Berikut ini adalah OLS yang cocok:

masukkan deskripsi gambar di sini

  • GWR digunakan untuk mengeksplorasi hubungan lokal . Dalam pengaturan ini masih ada (x, y) pasangan, tetapi sekarang (1) biasanya, baik x dan y diamati - tidak ada yang dapat ditentukan sebelumnya oleh eksperimen - dan (2) setiap catatan memiliki lokasi spasial, z . Untuk lokasi mana pun , z (belum tentu satu pun di mana data tersedia), GWR menerapkan algoritma OLS pada nilai data yang berdekatan untuk memperkirakan hubungan spesifik lokasi antara y dan x dalam bentuk y = a (z) + b (z) * x. Notasi "(z)" menekankan bahwa koefisien a dan b bervariasi di antara lokasi. Dengan demikian, GWR adalah versi khusus untuk smoothers tertimbang lokaldi mana hanya koordinat spasial yang digunakan untuk menentukan lingkungan. Keluarannya digunakan untuk menyarankan hasilnya akan berubah ! Ini adalah salah satu dari banyak alasan mengapa GWR harus dianggap sebagai eksplorasi - bantuan visual dan konseptual untuk memahami data - daripada metode formal.bagaimana nilai x dan y covary melintasi wilayah spasial. Perlu dicatat bahwa seringkali tidak ada alasan untuk memilih mana dari 'x' dan 'y' yang harus memainkan peran variabel independen dan variabel dependen dalam persamaan, tetapi ketika Anda mengganti peran ini,

Berikut ini adalah smooth lokal tertimbang. Perhatikan bagaimana ia dapat mengikuti "goyangan" yang tampak dalam data, tetapi tidak melewati setiap titik dengan tepat. (Dapat dibuat untuk melewati titik-titik, atau mengikuti goyangan yang lebih kecil, dengan mengubah pengaturan dalam prosedur, persis seperti GWR dapat dibuat untuk mengikuti data spasial kurang lebih dengan mengubah pengaturan dalam prosedurnya.)

Lowess

Secara intuitif, anggap OLS pas dengan bentuk yang kaku (seperti garis) ke sebaran pasangan (x, y) dan GWR sebagai membiarkan bentuk itu bergoyang secara sewenang-wenang.

Memilih di antara mereka

Dalam kasus ini, meskipun tidak jelas apa yang dimaksud dengan "dua database berbeda", tampaknya menggunakan OLS atau GWR untuk "memvalidasi" hubungan di antara mereka mungkin tidak tepat. Sebagai contoh, jika database mewakili pengamatan independen dari kuantitas yang sama di lokasi yang sama, maka (1) OLS mungkin tidak tepat karena keduanya x (nilai-nilai dalam satu database) dan y (nilai-nilai dalam database lain) harus dipahami sebagai beragam (alih-alih memikirkan x sebagai tetap dan diwakili secara akurat) dan (2) GWR baik untuk mengeksplorasi hubungan antara x dan y, tetapi tidak dapat digunakan untuk memvalidasi apa pun: dijamin untuk menemukan hubungan, tidak peduli apa. Selain itu, seperti yang dikatakan sebelumnya, peran simetris dari "dua database" menunjukkan hal itu dapat dipilih sebagai 'x' dan yang lainnya sebagai 'y', yang mengarah ke dua kemungkinan hasil GWR yang dijamin berbeda.

Berikut ini adalah kelancaran tertimbang secara lokal dari data yang sama, membalikkan peran x dan y. Bandingkan ini dengan plot sebelumnya: perhatikan seberapa curam keseluruhan fit dan bagaimana perbedaan dalam detail juga.

Rendahnya 2

Teknik yang berbeda diperlukan untuk menetapkan bahwa dua database menyediakan informasi yang sama, atau untuk menilai bias relatif mereka, atau presisi relatif. Pilihan teknik tergantung pada sifat statistik data dan tujuan validasi. Sebagai contoh, basis data pengukuran kimia biasanya akan dibandingkan menggunakan teknik kalibrasi .

Menafsirkan Moran's I

Sulit untuk mengatakan apa arti "Moran's I for the GWR model". Saya menduga bahwa statistik I Moran mungkin telah dihitung untuk residu dari perhitungan GWR. (Sisa adalah perbedaan antara nilai aktual dan nilai pas.) Moran's I adalah ukuran global korelasi spasial. Jika kecil, itu menunjukkan bahwa variasi antara nilai-y dan GWR cocok dari nilai-x memiliki sedikit atau tidak ada korelasi spasial. Ketika GWR "disetel" ke data (ini melibatkan memutuskan apa yang sebenarnya merupakan "tetangga" dari titik mana pun), korelasi spasial yang rendah dalam residu diharapkan karena GWR (secara implisit) mengeksploitasi korelasi spasial antara x dan y nilai dalam algoritmanya.


Jadi di GWR Anda mengatakan bahwa membalikkan variabel memberikan hasil yang berbeda tetapi satu, yang memberikan kuadrat residual lebih tinggi, bukankah itu berarti menunjukkan hubungan yang lebih kuat antara keduanya?
Sam007

Sam, kuadrat residual yang rendah itu sendiri tidak menunjukkan hubungan yang lebih kuat. Secara khusus, ketika Anda membalikkan peran x dan y, Anda bahkan tidak dapat membandingkan kuadrat residual - mereka sering berada dalam unit yang berbeda. (Misalnya, satu mungkin suhu kuadrat dan yang lain mungkin jumlah curah hujan kuadrat: bagaimana Anda tahu mana yang lebih rendah?) Anda selalu dapat mengurangi kuadrat residual dengan memasukkan lebih banyak parameter dalam model, bahkan jika itu tidak berarti : pergi terlalu jauh ke arah ini disebut "overfitting." Dalam beberapa hal, GWR dengan rentang spasial pendek adalah bentuk overfitting.
whuber

2
Anda mungkin berpikir tentang R-squared, Sam: itu adalah rasio. (Saya mengerti "residu kuadrat" persis seperti yang dikatakannya: jumlah kuadrat residu. Sebagian besar perangkat lunak statistik melaporkan statistik ini bersama dengan nilai-nilai kuadrat-R). Tetapi masih berbahaya, dan biasanya salah, untuk membandingkan model yang berbeda (seperti sebagai y dalam hal x versus x dalam hal y) dalam hal R-squared: lihat stats.stackexchange.com/questions/13314 . Karena GWR bersifat eksplorasi, itu bagus untuk menemukan pola dan berhipotesis hubungan, tetapi (seperti yang biasanya dipraktikkan) itu tidak cocok untuk membuktikan klaim.
whuber

1
WOW itu benar-benar semua statistik. Sebenarnya alasan saya merasa sulit adalah karena saya memiliki latar belakang yang sangat buruk dalam statistik, jadi saya hanya mengandalkan hasil model, tanpa memahami apa yang sebenarnya mereka maksudkan. Sebagian besar hal pada R2, melampaui kepala saya. Bisakah Anda menyarankan beberapa buku pemula yang bagus untuk memulai dan membangun fondasi saya dalam statistik?
Sam007


3

Rsquared tidak boleh digunakan untuk membandingkan model. Gunakan kemungkinan log atau nilai AIC.

Jika residu Anda di GWR adalah acak, atau saya kira tampak acak (tidak secara statistik sig.) Daripada Anda mungkin memiliki model yang ditentukan. Paling tidak itu menunjukkan bahwa Anda tidak memiliki residu yang berkorelasi dan menyarankan Anda tidak memiliki variabel yang dihilangkan.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.