Model apa untuk kumpulan data yang menantang? (ratusan seri waktu dengan banyak sarang)

Saya memiliki set data yang cukup rumit untuk dianalisis, dan saya tidak dapat menemukan solusi yang baik untuk itu.

Ini masalahnya:

1. data mentah pada dasarnya adalah rekaman lagu serangga. Setiap lagu terbuat dari beberapa semburan, dan setiap semburan terbuat dari sub-unit. Semua individu telah direkam selama 5 menit. Jumlah semburan dan posisi mereka dalam rekaman bisa sangat berbeda antara individu, serta jumlah sub-unit per ledakan.

2. Saya memiliki frekuensi pembawa (frekuensi dasar) dari masing-masing sub-unit, dan itulah yang ingin saya analisis.

Masalah saya:

1. Frekuensi dalam semburan tidak independen jelas (meskipun cukup stabil, tetapi frekuensi sub-unit n-1 akan memiliki pengaruh pada sub-unit n).

2. Semburan juga tidak independen, dalam rekaman.

3. Mereka bahkan kurang mandiri karena frekuensinya menurun seiring waktu (individu bosan bernyanyi sehingga frekuensi lagu semakin rendah dan semakin rendah). Dropping tampaknya linear.

4. Nesting = Saya memiliki 3 populasi ulangan untuk dua lokasi A dan B. Jadi saya punya A1, A2, A3 & B1, B2, B3.

Apa yang ingin saya lakukan:

1. Cirikan perbedaan frekuensi antara dua lokasi saya (uji secara statistik)

2. Ciri frekuensi penurunan antara kedua lokasi (lihat apakah frekuensi turun lebih cepat di salah satu dari mereka)

Bagaimana cara melakukannya:

Nah itu sebabnya saya butuh bantuan: Saya tidak tahu. Tampaknya kasus saya menggabungkan masalah yang biasanya tidak terlihat bersama. Saya sudah membaca tentang model campuran, tentang GAM, tentang ARIMA, efek acak dan tetap, tetapi saya tidak bisa memastikan cara terbaik untuk melakukannya. Ketika saya membuat grafiknya (frekuensi ~ nomor sub-unit n ), perbedaannya sangat jelas antara kedua lokasi. Saya juga harus mempertimbangkan variabel lain, seperti suhu (membuat frekuensinya lebih tinggi), dll.

Saya memikirkan:

Bersarang dari individu dalam replikasi asal mereka, dan membuat sarang replikasi dalam lokasi (individu / replikasi / lokasi).
Gunakan efek 'burst' acak, jadi saya memperhitungkan variabilitas dalam setiap burst.
Gunakan efek 'burst position in recording' yang telah diperbaiki, untuk mengukur penurunan frekuensi (berharap itu sebenarnya linier).

Apakah ini benar?

Apakah ada model khusus yang bisa saya gunakan untuk skenario seperti ini?

— Joe
sumber

Selamat datang di situs ini, Joe. Tidak perlu masuk ke pos Anda, nama Anda akan selalu muncul di bawah gravatar Anda :)

— chl

Oke, terima kasih! Ini adalah situs web yang sangat bagus, dibuat dengan sangat baik.

— Joe

"Bersarang individu dalam replikasi asal mereka, dan membuat sarang replikasi dalam lokasi (individu / replikasi / lokasi)" terdengar seperti ide yang bagus, jika dibandingkan dengan bentuk yang tidak bersarang. Seperti apa LOESS dari enam sub-populasi Anda?

— Fr.

Terima kasih banyak atas jawaban Anda, sangat menghargainya. Yah, saya butuh waktu lama, tapi saya berhasil menganalisis dataset (berdarah) ini. Saya terlalu ambisius, saya pikir, ingin memodelkan semuanya pada saat yang sama. Jadi saya membagi pekerjaan dalam beberapa model, untuk setiap masalah (perbedaan frekuensi rata-rata, peningkatan frekuensi, dll.). Kesimpulan: terkadang lebih baik membagi pekerjaan!

— Joe

Ini hanya beberapa saran umum yang mungkin bermanfaat bagi Anda, lebih merupakan peta jalan daripada resep.

Naluri saya adalah membangun model hierarkis Bayesian, karena itu cocok untuk pengembangan model berulang - saya tidak berpikir Anda akan menemukan model yang ada yang memiliki semua lonceng dan peluit yang Anda cari. Tapi ini membuat pengujian hipotesis lebih sulit, saya tidak tahu betapa pentingnya pengujian hipotesis untuk Anda.
Sepertinya Anda memiliki model informal di kepala Anda tentang bagaimana serangga berperilaku; Anda mengatakan hal-hal seperti "mulai lelah" dan Anda tahu bahwa suhu membuat frekuensinya lebih tinggi, mungkin karena hewan itu memiliki lebih banyak energi. Sepertinya Anda punya model generatif kecil di benak Anda tentang bagaimana serangga membuat lagu mereka.
Masalahnya terdengar terlalu rumit untuk memodelkan "dalam satu kesempatan". Saya pikir Anda harus membangun sesuatu demi sedikit. Saya akan mulai dengan beberapa "asumsi penyederhanaan yang kuat" - yaitu, membuang sebagian besar kompleksitas dataset, dengan rencana untuk menambahkannya kembali nanti setelah Anda memiliki model sederhana yang berfungsi.

Jadi untuk memulai, saya akan melakukan sesuatu seperti preprocess frekuensi sub-unit secara burst-by-burst menjadi sesuatu seperti pasangan (frekuensi rata-rata, tren frekuensi) - melakukan ini dengan OLS, dan hanya memodelkan frekuensi rata-rata dan tren semburan bukan sub-unit itu sendiri. Atau Anda bisa melakukannya (rata-rata, tren, # sub-unit), jika jumlah subunit berhubungan dengan seberapa lelah serangga tersebut. Kemudian bangun sebuah model hirarki Bayesian di mana distribusi mean dan tren burst ditentukan oleh mean, tren rekaman, dan ini pada gilirannya ditentukan oleh mean, tren lokasi.

Kemudian tambahkan suhu sebagai faktor untuk rata-rata / tren rekaman.

Model sederhana ini harus memungkinkan Anda untuk melihat rata-rata dan tren dari semburan individu dalam rekaman yang ditentukan oleh suhu dan lokasi. Coba dan mulai bekerja.

Kemudian saya akan mencoba memperkirakan perbedaan antara frekuensi rata-rata semburan (atau tren, dengan membagi waktu tenang antara semburan) dengan menambahkan ini sebagai variabel yang ditentukan oleh lokasi dan rekaman. Langkah selanjutnya adalah model AR dari mean burst dalam rekaman.

Diberikan beberapa prior dan beberapa asumsi yang sangat kuat tentang sifat semburan (bahwa semua info diberikan oleh mean dan tren), model dasar ini akan memberi tahu Anda:

bagaimana frekuensi rata-rata dari lokasi yang berbeda meledak oleh lokasi dan temp oleh temp
bagaimana tren dalam-burst berbeda lokasi dengan lokasi dan temp oleh temp
bagaimana tren luar-meledak berbeda lokasi dengan lokasi dan temp oleh temp

Setelah Anda memiliki sesuatu seperti ini untuk bekerja, mungkin sudah saatnya untuk memodelkan sub-unit sendiri dan membuang perkiraan OLS asli. Saya akan melihat data pada titik ini untuk mendapatkan gambaran tentang model time-series apa yang cocok, dan memodelkan parameter dari model time-series daripada pasangan (rata-rata, tren).

— Patrick Caldon
sumber