Saya memiliki data untuk jaringan stasiun cuaca di seluruh Amerika Serikat. Ini memberi saya bingkai data yang berisi tanggal, lintang, bujur, dan beberapa nilai yang diukur. Asumsikan bahwa data dikumpulkan sekali sehari dan didorong oleh cuaca skala regional (tidak, kami tidak akan masuk ke dalam diskusi itu).
Saya ingin menunjukkan secara grafis bagaimana nilai-nilai yang diukur secara bersamaan berkorelasi lintas waktu dan ruang. Tujuan saya adalah untuk menunjukkan homogenitas regional (atau ketiadaan nilai) dari nilai yang sedang diselidiki.
Himpunan data
Untuk memulainya, saya mengambil sekelompok stasiun di wilayah Massachusetts dan Maine. Saya memilih situs berdasarkan garis lintang dan bujur dari file indeks yang tersedia di situs FTP NOAA.
Langsung Anda melihat satu masalah: ada banyak situs yang memiliki pengidentifikasi serupa atau sangat dekat. FWIW, saya mengidentifikasi mereka menggunakan kode USAF dan WBAN. Melihat lebih dalam ke metadata saya melihat bahwa mereka memiliki koordinat dan ketinggian yang berbeda, dan data berhenti di satu situs kemudian mulai dari yang lain. Jadi, karena saya tidak tahu yang lebih baik, saya harus memperlakukan mereka sebagai stasiun terpisah. Ini berarti data berisi pasangan stasiun yang sangat dekat satu sama lain.
Analisis awal
Saya mencoba mengelompokkan data berdasarkan bulan kalender dan kemudian menghitung regresi kuadrat terkecil biasa antara pasangan data yang berbeda. Saya kemudian memplot korelasi antara semua pasangan sebagai garis yang menghubungkan stasiun (di bawah). Warna garis menunjukkan nilai R2 dari kecocokan OLS. Gambar tersebut kemudian menunjukkan bagaimana 30+ titik data dari Januari, Februari, dll. Berkorelasi antara stasiun yang berbeda di bidang yang diminati.
Saya telah menulis kode yang mendasarinya sehingga rata-rata harian hanya dihitung jika ada poin data setiap periode 6 jam, sehingga data harus dapat dibandingkan di seluruh situs.
Masalah
Sayangnya, ada terlalu banyak data yang masuk akal pada satu plot. Itu tidak bisa diperbaiki dengan mengurangi ukuran garis.
Jaringan tampaknya terlalu rumit, jadi saya pikir saya perlu mencari cara untuk mengurangi kompleksitas, atau menerapkan semacam kernel spasial.
Saya juga tidak yakin apa metrik yang paling tepat untuk menunjukkan korelasi, tetapi untuk audiens yang dimaksud (non-teknis), koefisien korelasi dari OLS mungkin hanya yang paling sederhana untuk dijelaskan. Saya mungkin perlu menyajikan beberapa informasi lain seperti kesalahan gradien atau standar juga.
Pertanyaan
Saya belajar cara saya ke bidang ini dan R pada saat yang sama, dan akan sangat menghargai saran tentang:
- Apa nama yang lebih formal untuk apa yang saya coba lakukan? Adakah beberapa istilah yang membantu yang memungkinkan saya menemukan lebih banyak lektur? Pencarian saya kosong untuk apa yang harus menjadi aplikasi umum.
- Apakah ada metode yang lebih tepat untuk menunjukkan korelasi antara beberapa set data yang dipisahkan dalam ruang?
- ... khususnya, metode yang mudah untuk menunjukkan hasil dari secara visual?
- Apakah ini diimplementasikan dalam R?
- Apakah ada dari pendekatan ini yang mengarah pada otomatisasi?