Bagaimana cara menyaring data kategorikal sampel yang tidak rata?

Saya mencari metode untuk memasukkan data kategori. Saya telah mengekstrak dari bagan-bagan laut dan lembar lapangan kumpulan poin yang menentukan sifat permukaan dasar laut. Data-data ini bersifat kategorikal daripada numerik dan mereka tidak secara teratur atau bahkan sampel acak. Grafik bahari dibuat untuk membantu navigasi dan penahan; mereka tidak dibuat untuk memetakan habitat. Dengan demikian, lebih banyak suara dibuat dekat dengan pantai di mana kedalaman yang relatif dangkal dapat menimbulkan bahaya bagi navigasi dan tempat kapal cenderung berlabuh. Lebih jauh dari pantai, di mana kedalamannya lebih dari cukup untuk navigasi dan penjangkaran tidak praktis, sounding dibuat jauh lebih jarang.

Adakah orang lain yang mencoba membuat peta substrat berpetak dari grafik nautical?

Saya memandangi poligon Thiessen (Vornoi) tetapi konsentrasi suara di sepanjang pantai mengarah pada 'sarang madu' yang baik di sepanjang pantai, poligon besar di lepas pantai dan di antara poligon panjang berbentuk pai yang membentang di lepas pantai. Gridding menggunakan tetangga terdekat menghasilkan hasil yang hampir sama.

Saya membutuhkan cara untuk membatasi pengaruh titik dangkal, dekat pantai - cara untuk membatasi poligon berbentuk pai panjang itu. Di perairan yang lebih dalam saya tidak berharap bahwa sifat dasar akan menjadi kelanjutan dari dasar pantai dekat. Saya mulai berpikir dalam dua garis - keduanya menggunakan kedalaman. Salah satunya adalah menimbang pilihan tetangga 'terdekat' menggunakan perbedaan kedalaman antara sel kotak dan titik tetangga. Lainnya adalah de-seleksi titik tetangga yang lebih dari beberapa toleransi yang ditentukan berbeda dalam kedalaman. Atau, mungkin daripada toleransi yang telah ditentukan sebelumnya, saya bisa nampan rentang kedalaman dan kemudian membatasi pilihan titik tetangga untuk yang berada dalam rentang kedalaman yang sama atau nampan.

Adakah pemikiran tentang bagaimana menerapkan salah satu dari dua opsi ini?

Sejak berbicara dengan kolega di forum lain, saya telah mencari beberapa pendekatan lain. Yang pertama melibatkan penggunaan penghalang - kontur kedalaman 100m - untuk membatasi pengaruh data dekat pantai. Tantangan dengan pendekatan ini adalah bahwa salah satu rutin interpolasi ESRI yang dapat menggunakan penghalang dirancang untuk bekerja dengan data kontinu daripada data diskontinyu. Saya bisa menggunakan penghalang untuk memecah poin menjadi dekat pantai dan poin yang lebih dalam sebelum membuat poligon Thiessen. Namun, saya mengantisipasi efek tepi yang merajalela karena ArcGIS menciptakanThiessen poligon untuk area persegi panjang bukan untuk area kompleks.

Pendekatan kedua - disarankan oleh beberapa rekan - adalah kriging. Saya awalnya menolak kriging karena saya hanya pernah mempertimbangkannya untuk data terus menerus. Tantangan dengan kriging adalah bahwa itu juga tidak dirancang untuk data kategorikal. Sekarang, saya melihat cokriging dengan kedalaman dan sifat permukaan tetapi, semua jenis kriging akan melibatkan penggunaan kode numerik bilangan bulat untuk sifat permukaan. Setelah itu kode numerik floating point yang dihasilkan harus dikurangi kembali ke kode integer asli. Tidak cantik.

Adakah yang bisa menyarankan jalur lain untuk diikuti? (Seseorang dapat, mungkin, menggunakan analisis terrain. Misalnya, kemiringan yang lebih curam dari sudut diam tidak dapat menjadi sedimen. Saya mencari sesuatu yang lebih sederhana dan, bagaimanapun, saya tidak memiliki data pada resolusi spasial yang memadai.)

Salam,

— Doug Hrynyk
sumber

Pendekatan kriging, diimplementasikan dengan tepat, menjanjikan.

Sebagai titik tolak, lihat "model geostatistik linier umum" yang dijelaskan oleh Diggle & Ribeiro dalam Geostatistik berbasis Model (Springer 2007). Gagasan yang mendasarinya menarik dan fleksibel: proses stokastik spasial (yang berkelanjutan secara spasial ) menentukan berbagai probabilitas kategori. Seseorang menggunakan kategori yang diamati pada titik-titik tidak beraturan untuk menyimpulkan sifat statistik dari proses yang mendasarinya, termasuk struktur korelasi spasialnya (variogram). Kriging kemudian menciptakan permukaan probabilitas yang konsisten dengan pengamatan. Pada titik itu Anda dapat melakukan simulasi geostatistik atau Anda dapat membuat peta yang terkait dengan probabilitas (seperti peta kategori probabilitas maksimum, saya kira).

Ini terdengar canggih, dan memang begitu. Namun, diskusi Diggle dan Ribeiro cukup mudah diakses - meskipun bersifat matematis dan mengasumsikan pengetahuan statistik, ia tidak terlalu bergantung pada keduanya - dan sebagian besar teknik mereka diimplementasikan dalam paket R yang mereka gambarkan, geoRdan geoRGLM. Bahkan, wajar untuk menafsirkan buku ini sebagai manual untuk paket-paket ini.

Seperti utas lain di situs ini yang membuktikan, relatif mudah untuk menghubungkan R dengan data GIS (termasuk shapefile dan berbagai format raster), jadi itu bukan masalah.

— whuber
sumber