Bagaimana cara mengisi data yang hilang dalam rangkaian waktu?


16

Saya memiliki satu set besar data polusi yang telah direkam setiap 10 menit selama 2 tahun, namun ada sejumlah kesenjangan dalam data (termasuk beberapa yang berlangsung selama beberapa minggu setiap kali).

Data tampaknya cukup musiman dan ada variasi besar di siang hari dibandingkan dengan malam di mana nilai tidak memiliki banyak variasi dan titik data lebih rendah.

Saya telah mempertimbangkan untuk memasang model loess ke subset siang dan malam hari secara terpisah (karena ada perbedaan yang jelas di antara mereka) dan kemudian memprediksi nilai data yang hilang dan mengisi poin-poin ini.

Saya bertanya-tanya apakah ini cara yang cocok untuk mendekati masalah ini, dan juga apakah ada kebutuhan untuk menambahkan variasi lokal ke dalam poin yang diprediksi.

Jawaban:


21

Jawabannya akan tergantung pada desain studi Anda (misalnya, seri waktu cross-sectional? Seri waktu kohort, seri waktu seri kohort?). Honaker dan King telah mengembangkan pendekatan yang berguna untuk rangkaian waktu cross-sectional (mungkin berguna untuk seri waktu kohort seri, tergantung pada asumsi Anda), termasuk paket R Amelia II untuk memasukkan data tersebut. Sementara itu Sprat & Co. telah menggambarkan pendekatan berbeda yang dapat digunakan dalam beberapa desain seri waktu kohort, tetapi jarang pada implementasi perangkat lunak.

Sebuah cross-sectional desain time series (alias desain studi panel) adalah satu di mana populasi (s) adalah (yang) berulang sampel (misalnya, setiap tahun), menggunakan protokol studi yang sama (misalnya, variabel yang sama, instrumen, dll ). Jika strategi pengambilan sampel representatif, jenis data ini menghasilkan gambaran tahunan (satu pengukuran per peserta atau subjek) dari distribusi variabel-variabel tersebut untuk setiap populasi dalam penelitian ini.

Sebuah desain time series kohort (desain penelitian kohort alias diulang, desain studi longitudinal, juga kadang-kadang disebut desain studi panel) adalah satu di mana masing-masing unit analisis adalah sampel sekali dan diikuti selama periode waktu yang panjang. Individu dapat disampel secara representatif dari satu atau lebih populasi. Namun, sampel kohort time series yang representatif akan menjadi perwakilan yang semakin miskin dari populasi target (setidaknya dalam populasi manusia) seiring berjalannya waktu, karena orang yang dilahirkan atau menua menjadi populasi target, dan sekarat atau menua dari itu, bersama dengan imigrasi dan emigrasi.

Desain seri waktu kohort seri (alias kohort berulang, multi, dan berganda, atau desain studi panel) adalah contoh di mana populasi sampel berulang kali (misalnya, setiap tahun), menggunakan protokol penelitian yang sama ( misalnya, variabel yang sama, instrumen, dll.), yang mengukur unit analisis individu dalam suatu populasi pada dua titik waktu selama periode tersebut (misalnya, selama tahun tersebut) untuk menciptakan ukuran laju perubahan. Jika strategi pengambilan sampel representatif, jenis data ini menghasilkan gambaran tahunan tentang tingkat perubahan variabel-variabel tersebut untuk setiap populasi dalam penelitian.

Referensi
Honaker, J. dan King, G. (2010). Apa yang harus dilakukan tentang nilai yang hilang dalam data penampang seri waktu . American Journal of Political Science , 54 (2): 561-581.

Spratt, M., Carpenter, J., Sterne, JAC, Carlin, JB, Bangau, J., Henderson, J., dan Tilling, K. (2010). Strategi untuk berbagai imputasi dalam studi longitudinal . American Journal of Epidemiology , 172 (4): 478–4876.


Terimakasih atas balasan anda. Saya hanya ingin tahu apakah Anda dapat mendefinisikan berbagai jenis deret waktu (kohort, cross-sectional, dll) karena saya relatif baru dalam jenis studi ini dan belum menemukan istilah-istilah ini sebelumnya.
Jamesm131

@ Jamesm131 Lihat jawaban saya yang diedit.
Alexis

7

Anda dapat menggunakan paket imputeTS di R. Saya yakin data yang sedang Anda kerjakan adalah uni-variate time series. Paket imputeTS berspesialisasi pada imputasi seri waktu (univariat). Ini menawarkan beberapa implementasi algoritma imputasi yang berbeda. Selain algoritme imputasi, paket ini juga menyediakan fungsi merencanakan dan mencetak statistik data yang hilang. Yah saya sarankan Anda untuk melihat Model Luar Angkasa Negara untuk Nilai Hilang . Paket ini akan membantu Anda dengan analisis Anda.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.