Visualisasi ke alur kerja inferensi


9

Saya memberikan dukungan statistik untuk departemen kesehatan masyarakat. Seperti yang Anda bayangkan, kami mengumpulkan banyak peta secara teratur. Bagi saya, peta hanyalah jenis lain dari visualisasi data - berguna untuk merasakan data, untuk menghasilkan dan memeriksa hipotesis, dll. Tapi kita tidak sering menindaklanjuti pemodelan aktual dan pengujian hipotesis .

Bagaimana Anda / organisasi Anda melakukan hal ini? Seperti apakah alur kerja yang mencakup inferensi? Siapa yang terlibat Peralatan apa yang anda gunakan? Seperti apa idealnya , jika Anda bisa?

Terima kasih!

EDIT

Untuk lebih jelasnya, saya ingin tahu tentang berbagai strategi untuk beralih dari data spasial ke formal, uji statistik hipotesis tentang apa yang terjadi di dunia. Sebagai contoh, katakanlah saya mencoba menargetkan kampanye pendidikan untuk meningkatkan tes tuberkulosis. Saya (secara pribadi) akan memetakan kasus-kasus TB terhadap kovariat minat (katakanlah, pendapatan rata-rata atau persen penduduk kelahiran asing) dan mencoba untuk melihat apakah ada pola.

Saya mungkin atau mungkin tidak menemukan; tetapi saya akhirnya akan membangun model untuk memperkirakan hubungan antara kovariat tersebut dan jumlah demografi. Ini adalah langkah kritis karena seberapa baik manusia menemukan pola di mana tidak ada, atau menemukan yang tidak menarik. Saya tahu bagaimana melakukan ini sendiri, tetapi saya ingin tahu tentang bagaimana berbagai organisasi melembagakannya (jika sama sekali).


Pertanyaan bagus!
whuber

Apakah Anda mengatakan bahwa Anda perlu memiliki alur kerja sehingga jika ada wabah penyakit yang ketersediaan vaksinnya terbatas, Anda harus dapat menunjukkan bahwa Anda mendistribusikan vaksin secara optimal?
Kirk Kuykendall

Secara umum, saya hanya tertarik pada bagaimana orang memasukkan inferensi statistik ke dalam proses pemetaan mereka. Apa yang Anda gambarkan tentu saja merupakan satu skenario yang mungkin, tetapi ada banyak skenario lain dan saya bahkan tidak terlalu tertarik dengan respons dari epidemiologi.
Matt Parker

Jawaban:


2

Pertanyaan yang sangat menarik!

Pertama, pertanyaan Anda menyinggung apa yang saya sebut 'data mining' dan saya pikir nilainya menyatakan kembali masalah secara eksplisit karena beberapa orang di sini mungkin tidak mendapatkannya: dengan set data apa pun (tidak harus spasial) untuk mencapai valid secara statistik hubungan konvensi adalah bahwa itu harus pada atau di atas 95% probabilitas. Namun, jika Anda melakukan 20 tes maka kemungkinan besar bahwa setidaknya satu dari 'valid secara statistik' hasil yang Anda peroleh adalah karena kebetulan murni. Jadi praktik buruknya untuk bermain-main dengan kumpulan data (dalam SIG itu akan memetakannya) untuk memvisualisasikan banyak hubungan yang mungkin antara variabel, menemukan yang menarik dan memasukkan statistik dan mengutip hasilnya seolah-olah ini adalah satu-satunya tes Anda telah dilakukan. Anda masih dapat menggunakan hasilnya tetapi Anda harus memperhitungkan jumlah tes yang telah Anda lakukan.

Apakah itu yang Anda kendarai?

Pertanyaan Anda muncul untuk menanyakan bagaimana orang meresmikan menghindari masalah ini. Jawaban saya adalah bahwa opsi 'tidak sama sekali' yang Anda sebutkan adalah umum. Ahli statistik medis (misalnya pacar saya) dalam pengalaman saya menerapkan standar kekakuan yang jauh lebih tinggi untuk proses semacam ini daripada yang ditemukan di daerah lain, saya menduga semua jenis pemetaan data di luar kesehatan masyarakat dilakukan tanpa semacam pertimbangan formal dari masalah dengan rumus statistik yang diterapkan secara membabi buta tanpa memahami proses dengan benar. Contoh geologis muncul di benak:

Saya membaca makalah peer-review di mana penulis melihat bagaimana hasil lubang bor (jumlah air yang dapat dipompa) terkait dengan pengaruh geologis dan spasial di Afrika misalnya ketebalan lapisan kerikil yang digali sebelum batuan dasar terkena. Idenya adalah untuk membantu pengebor lubang bor agar mereka dapat menargetkan lokasi terbaik untuk lubang bor. Para penulis dengan terang-terangan menambang data yang menggabungkan segala macam variabel untuk melihat mana yang muncul dengan tingkat kepercayaan 95% dan (saya berasumsi) tidak ada pengulas yang mempertanyakan validitas hasil. Oleh karena itu kesimpulan mereka benar-benar tidak dapat dipercaya.

Semoga itu menarik


Bisakah Anda menjelaskan sedikit lebih banyak mengapa kertas yang Anda gambarkan tidak dapat dipercaya? Bagi saya tidak jelas mengapa ini terjadi. Jika hubungan itu ada secara statistik, apakah penting 'model mental' apa yang Anda gunakan untuk mengidentifikasinya? Saya mengerti bahwa itu tidak menjelaskan mekanismenya, tetapi itu adalah masalah yang terpisah.
djq
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.