RMSE antara dua raster selangkah demi selangkah


8

Adakah yang bisa menunjukkan bagaimana cara menghitung RMSE (root mean square error) antara mengikuti dua raster langkah demi langkah dan membahas tentang nilai min dan max hasil yang diperoleh, dan bagaimana menafsirkannya.

 First raster (original, 2 by 2):
 1 2
 3 4

 Second raster (obtained, 2 by 2):
 2 2
 4 1

Jawaban:


13

Perhitungan

  1. Kurangi satu raster dari yang lain. (Arah pengurangan tidak masalah.)

    -1 0
    -1 3

  2. Kuadratkan hasilnya.

    1 0
    1 9

  3. Nilai rata-rata.

    (1 + 0 + 1 + 9)/(1 + 1 + 1 + 1) = 11/4.

    (Saya menulis ini dengan cara sugestif untuk menunjukkan bagaimana sel-sel data yang hilang dapat ditangani jika GIS Anda tidak memiliki kemampuan ini: Buat kisi indikator dengan 1 di mana Anda memiliki data dan 0 di tempat lain. Bagi jumlah kisi Anda dengan jumlah dari kotak indikator. Dalam Spatial Analyst Anda bisa mendapatkan jumlah sebagai jumlah fokus.)

  4. Ambil akar kuadrat.

    Sqrt(11/4) = 1.66

Penafsiran

Angka ini adalah ukuran perbedaan sel per sel yang khas antara kedua kisi. Ketika kisi-kisi memiliki ratusan nilai atau lebih (seperti kebanyakan), mereka tidak menunjukkan ekstrem besar atau nilai-nilai terluar, dan perbedaan rata-rata adalah nol , maka aturan standar praktis untuk menginterpretasikan rmse adalah:

  • Sekitar 2/3 dari semua sel akan berbeda kurang dari rmse.

  • Sekitar 95% dari semua sel akan berbeda kurang dari dua kali lipat.

  • Tidak biasa melihat perbedaan lebih dari tiga kali lipat.

Dalam kisi-kisi ukuran apa pun ( mis. Sejuta sel), "tidak biasa" masih diterjemahkan menjadi beberapa ribu sel: sekitar sepersekian dari satu persen dari semuanya.

Dalam contoh - yang sangat kecil - mengetahui ada 4 sel dan rmse adalah 1,66, kita akan berpikir "sekitar 2/3 - katakanlah 2 atau 3 - dari sel-sel yang setuju dalam 1,66. Mungkin semuanya setuju dalam 2 * 1.66 = 3.32. " Keadaan sebenarnya, seperti yang dapat kita lihat dari hasil langkah (1), adalah bahwa 3/4 sel setuju dalam 1,66 dan semuanya memang setuju dalam 3.

Ketika kisi-kisi sangat bervariasi dan menunjukkan rentang nilai yang sangat besar, Anda mungkin tidak mempercayai aturan praktis. Dari ketidaksetaraan Chebyshev Anda masih tahu itu

  • Tidak lebih dari 1/4 sel berbeda dengan lebih dari dua kali lipat.

  • Tidak lebih dari 1/9 sel berbeda lebih dari tiga kali lipat.

  • Secara umum, pilih angka k sama dengan 2 atau lebih besar. Tidak lebih dari 1 / k ^ 2 sel berbeda lebih dari k kali rmse.

Ini adalah aturan universal , berlaku untuk setiap pasangan grid, sedangkan aturan sebelumnya mengasumsikan distribusi perbedaan sel kira-kira "berbentuk lonceng" tanpa banyak outlier ekstrim.

Edit

Interpretasi sebelumnya mengasumsikan Anda membandingkan dua kisi yang dimaksudkan untuk mewakili hal yang sama, hingga kesalahan pengukuran, sehingga perbedaan rata-ratanya adalah nol (atau cukup dekat dengan itu). Ketika perbedaan rata-rata cukup besar (dibandingkan dengan rmse), interpretasi ini salah - tetapi kemudian juga jarang masuk akal untuk menggunakan rmse. Sebagai gantinya, seseorang akan (a) melaporkan perbedaan rata-rata dan (b) mengurangi kuadratnya setelah langkah (3). Ini memberikan sisa kuadrat rata-rata daripada perbedaan kuadrat rata-rata. Akar kuadratnya adalah ukuran khas variasi antara kedua kisi relatif terhadap perbedaan rata-rata . Dengan peringatan ini, interpretasi dapat menggunakan aturan praktis yang sama seperti sebelumnya.


@whuber: terima kasih banyak !!! apakah ada buku yang menjelaskan proses ini seperti yang Anda lakukan secara detail? atau kertas? sebagai acuan. Sekali lagi terima kasih banyak !!! Saya sangat menghargainya.

@whuber: bagaimana kalkulasi akan berubah jika kita memiliki raster berikut, raster1 (3 oleh 3) = {{1,2, -9999}, {2,3, -9999}, {4,5, -9999}} , dan raster2 (3 oleh 3) = {{2,2, -9999}, {- 9999,3,4}, {- 9999, -9999, -9999}}. di mana tidak ada nilai data -9999. Terima kasih banyak!!!

@opl Perbedaan keduanya sama dengan {{-1,0, Null}, {Null, 0, Null}, {Null, Null, Null}}. Oleh karena itu perbedaan kuadrat sama dengan {{1,0, Null}, {Null, 0, Null}, {Null, Null, Null}} dan indikatornya sama dengan {{1,1, Null}, {Null, 1, Null} , {Null, Null, Null}}. Jumlahnya masing-masing adalah 1 dan 3, memberikan kuadrat rata-rata 1/3 dan ada rms Sqrt (1/3).
whuber

@whuber: apakah mungkin untuk mengatakan bahwa nilai 'rmse' yang dihasilkan akan berada dalam beberapa rentang tertentu, seperti misalkan min 0 dan maks 10 ...? sehingga saya bisa mengatakan bahwa, jika dekat dengan nilai minimum maka itu lebih baik, dan ketika lebih dekat dengan nilai maksimum maka itu menyimpang secara signifikan, atau sebaliknya. Terima kasih sebelumnya!

@opl Biasanya Anda tidak dapat memprediksi rmse di muka kecuali Anda tahu sesuatu tentang bagaimana grid cenderung bervariasi. Misalnya, metadata untuk setiap kisi mungkin menyediakan indikasi kuantitatif kemungkinan penyimpangan mereka dari kebenaran. Katakanlah, masing-masing adalah DEM dan satu memiliki kesalahan vertikal + -15 m dan yang lain memiliki kesalahan vertikal + -20 m. Mengambil ini sebagai indikasi kasar dari standar deviasi, kita dapat menggabungkan mereka untuk memperkirakan kesalahan relatif Sqrt (15 ^ 2 + 20 ^ 2) = 25 m. Dalam hal ini saya berharap rmse antara keduanya sekitar 25 m.
whuber
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.