Tes untuk pengambilan sampel IID

Bagaimana Anda menguji atau memeriksa bahwa pengambilan sampel adalah IID (Independen dan Didistribusikan Secara Identik)? Perhatikan bahwa yang saya maksud bukan Gaussian dan Distributed Identically, hanya IID.

Dan ide yang muncul di benak saya adalah berulang kali membagi sampel dalam dua sub-sampel dengan ukuran yang sama, melakukan tes Kolmogorov-Smirnov dan memeriksa bahwa distribusi nilai-p adalah seragam.

Setiap komentar tentang pendekatan itu, dan setiap saran dipersilahkan.

Klarifikasi setelah memulai karunia: Saya mencari tes umum yang dapat diterapkan pada data deret waktu.

— gui11aume
sumber

Apakah ini data deret waktu?

— danas.zuokas

@ gui11aume, sudahkah Anda mencoba tes "bola mata"? Yaitu, plot data dan lihat apakah terlihat IID.

— Makro

Saya belum. Saya tidak yakin apa yang Anda maksud: plot nilai-nilai sesuai urutannya (mungkin acak)? Dan kemudian periksa tidak adanya pola yang mencolok?

— gui11aume

Apakah Anda sudah melihat "uji coba"? en.wikipedia.org/wiki/Wald%E2%80%93Wolfowitz_runs_test

— Stéphane Laurent

Maaf. Saya memikirkan uji coba berikut: apprendre-en-ligne.net/random/run.html (tapi ini ditulis dalam bahasa Prancis)

— Stéphane Laurent

Jawaban:

Apa yang Anda simpulkan jika data IID berasal dari informasi luar, bukan data itu sendiri. Anda sebagai ilmuwan perlu menentukan apakah masuk akal untuk mengasumsikan data IID berdasarkan pada bagaimana data dikumpulkan dan informasi luar lainnya.

Perhatikan beberapa contoh.

Skenario 1: Kami menghasilkan satu set data secara independen dari satu distribusi yang kebetulan merupakan campuran 2 normals.

Skenario 2: Pertama-tama kita menghasilkan variabel gender dari distribusi binomial, kemudian pada pria dan wanita kita secara mandiri menghasilkan data dari distribusi normal (tetapi normalnya berbeda untuk pria dan wanita), kemudian kita menghapus atau kehilangan informasi gender.

Dalam skenario 1 data adalah IID dan dalam skenario 2 data jelas tidak terdistribusi secara identik (distribusi berbeda untuk pria dan wanita), tetapi 2 distribusi untuk 2 skenario tidak dapat dibedakan dari data, Anda harus mengetahui hal-hal tentang bagaimana data dihasilkan untuk menentukan perbedaannya.

Skenario 3: Saya mengambil sampel acak sederhana dari orang yang tinggal di kota saya dan mengelola survei dan menganalisis hasilnya untuk membuat kesimpulan tentang semua orang di kota.

Skenario 4: Saya mengambil sampel acak sederhana dari orang yang tinggal di kota saya dan mengelola survei dan menganalisis hasilnya untuk membuat kesimpulan tentang semua orang di negara ini.

Dalam skenario 3 subjek akan dianggap independen (sampel acak sederhana dari populasi yang diminati), tetapi dalam skenario 4 mereka tidak akan dianggap independen karena mereka dipilih dari sekelompok kecil populasi yang diminati dan kedekatan geografis kemungkinan akan memaksakan ketergantungan. Tetapi 2 dataset identik, itu adalah cara kami bermaksud menggunakan data yang menentukan apakah mereka independen atau tergantung dalam hal ini.

Jadi tidak ada cara untuk menguji hanya menggunakan data untuk menunjukkan bahwa data adalah IID, plot dan diagnostik lainnya dapat menunjukkan beberapa jenis non-IID, tetapi kekurangan ini tidak menjamin bahwa data tersebut adalah IID. Anda juga dapat membandingkan dengan asumsi tertentu (IID normal lebih mudah disangkal daripada hanya IID). Setiap tes masih hanya aturan, tetapi kegagalan untuk menolak tes tidak pernah membuktikan bahwa itu adalah IID.

Keputusan tentang apakah Anda bersedia untuk berasumsi bahwa kondisi IID perlu dibuat berdasarkan ilmu tentang bagaimana data dikumpulkan, bagaimana hal itu berkaitan dengan informasi lain, dan bagaimana hal itu akan digunakan.

Suntingan:

Berikut adalah serangkaian contoh untuk non-identik.

Skenario 5: data adalah residu dari regresi di mana ada heteroskedastisitas (varians tidak sama).

Skenario 6: data berasal dari campuran normals dengan mean 0 tetapi varians berbeda.

Dalam skenario 5 kita dapat dengan jelas melihat bahwa residu tidak terdistribusi secara identik jika kita memplot residu terhadap nilai-nilai yang sesuai atau variabel lain (prediktor, atau prediktor potensial), tetapi residu itu sendiri (tanpa info luar) tidak dapat dibedakan dari skenario 6.

— Greg Snow
sumber

Bagian pertama dari jawaban ini, khususnya, tampak agak membingungkan (atau membingungkan) bagi saya. Menjadi iid adalah properti matematika yang terdefinisi dengan baik dari serangkaian variabel acak yang terbatas . Skenario 1 dan 2 Anda identik jika variabel acak dalam kasus kedua diperoleh "setelah kehilangan informasi gender". Mereka iid dalam kedua kasus!

— kardinal

GregSnow Saya tidak sepenuhnya setuju dengan pernyataan Anda. Mungkin Anda tahu bahwa data berasal dari urutan variabel acak yang didistribusikan secara identik. Anda tidak tahu persis model apa yang menghasilkannya. Bisa jadi mereka dihasilkan secara independen atau secara bergantian berasal dari rangkaian waktu stasioner. Untuk memutuskan yang mana anggaplah Anda tahu bahwa distribusi identik adalah normal. Kemudian kedua kemungkinan jatuh di bawah kategori urutan stasioner dan itu akan menjadi iid jika dan hanya semua autokorelasi bukan nol adalah 0. Sangat masuk akal untuk menguji untuk melihat apakah correla

— Michael R. Chernick

@ cardinal, jadi apakah Anda setuju bahwa data dalam skenario 2 tidak terdistribusi secara identik sebelum kehilangan informasi gender? Jadi kita akan memiliki kasus di mana mereka tidak identik, tetapi satu-satunya cara untuk membedakannya adalah dengan menggunakan informasi di luar variabel yang dilihat (jenis kelamin dalam kasus ini). Ya menjadi IID adalah properti matematika yang terdefinisi dengan baik, tetapi begitu juga dengan integer, dapatkah Anda menguji apakah data point 3. adalah integer yang disimpan sebagai angka floating point atau nilai kontinu yang telah dibulatkan tanpa informasi dari luar tentang dari mana datangnya dari.

— Greg Snow

Z

$Z$

X_{i} ⊥ X_{j}, i \neq j

$X_i \perp X_j, i\neq j$

X_{i} | Z

$X_i|Z$

X_{j} | Z

$X_j|Z$

Z

$Z$

Z

$Z$

Tetapi semua yang Anda katakan di atas menggunakan informasi tentang bagaimana data dikumpulkan / dihasilkan, bukan hanya data itu sendiri. Dan bahkan jika kita memiliki data yang mendukung bahwa tidak ada autokorelasi seri waktu yang tidak memberi tahu kita apa pun tentang korelasi spasial atau jenis non-independensi lainnya. Bisakah kita benar-benar menguji setiap jenis ketergantungan yang mungkin dan mendapatkan hasil yang bermakna? atau haruskah kita menggunakan informasi tentang bagaimana data dikumpulkan untuk memandu tes mana yang paling mungkin bermakna?

— Greg Snow

Jika data memiliki urutan indeks, Anda dapat menggunakan tes derau putih untuk deret waktu. Pada dasarnya itu berarti menguji bahwa autokorelasi sama sekali bukan nol adalah 0. Ini menangani bagian independensi. Saya pikir pendekatan Anda berusaha terutama untuk mengatasi bagian asumsi yang didistribusikan secara identik. Saya pikir ada beberapa masalah dengan pendekatan Anda. Saya pikir Anda perlu banyak pemisahan untuk mendapatkan nilai p yang cukup untuk menguji keseragaman. Kemudian setiap tes KS kehilangan daya. Jika Anda menggunakan split yang tumpang tindih pada bagian dari set data tes akan dikorelasikan. Dengan sejumlah kecil split, uji keseragaman tidak memiliki daya. Tetapi dengan banyak perpecahan, tes keseragaman mungkin kuat tetapi tes KS tidak. Juga tampaknya pendekatan ini tidak akan membantu mendeteksi ketergantungan antar variabel.

@ gu11aume Saya tidak yakin apa yang Anda minta dengan tes umum untuk seri tidak-waktu. Data spasial menyediakan satu bentuk data seri non-waktu. Di sana fungsi yang disebut variogram mungkin dilihat. Untuk urutan satu dimensi saya tidak melihat banyak perbedaan antara urutan yang dipesan oleh waktu versus cara lain untuk memesan data. Fungsi autokorelasi masih dapat didefinisikan dan diuji. Ketika Anda mengatakan bahwa Anda ingin menguji independensi dalam pengambilan sampel, saya pikir Anda memiliki urutan pengambilan sampel. Jadi saya pikir semua case 1 dimensi bekerja dengan cara yang sama.

— Michael R. Chernick
sumber

(+1) karena ini yang saya pikirkan tetapi Re: "Jika data memiliki indeks pemesanan, Anda dapat menggunakan tes derau untuk deret waktu. Intinya itu berarti menguji bahwa autokorelasi pada semua lag yang tidak nol adalah 0." - Logika ini hanya berlaku ketika Anda berurusan dengan rangkaian waktu stasioner, kan? Jika tidak, Anda bisa mendapatkan hasil yang menyesatkan tentang korelasi yang tertinggal. Misalnya, bagaimana jika hanya bagian "belakangan" dari rangkaian waktu yang dikaitkan secara otomatis?

— Makro

@ Macro Saya pikir itu yang ada dalam pikiran Anda berdasarkan pertanyaan Anda ke OP. Tetapi saya pikir tidak perlu menunggu tanggapannya untuk menunjukkan hal ini. Itu berlaku ketika Anda mencari kemerdekaan. Tapi saya mengerti maksud Anda. Dalam praktiknya Anda hanya memeriksa k lag pertama. Jika seri stasioner, korelasinya akan menurun dengan k tetapi tidak demikian untuk seri nonstasioner. Jadi, setidaknya dalam teori Anda akan kehilangan korelasi pada kelambatan besar untuk seri nonstasioner.

— Michael R. Chernick

baik, untuk deret waktu non-stasioner, bahkan mungkin tidak masuk akal untuk melihat autokorelasi sebagai fungsi dari lag. Jika

c o r (y_{t}, y_{s}) = f (s, t)

${\rm cor}(y_{t}, y_{s}) = f(s,t)$ dan

f (s, t)

$f(s,t)$ bukan hanya fungsi

| s - t |

$|s-t|$ maka segala macam hal aneh bisa terjadi dengan berpura-pura. Saya benar-benar hanya bertanya apakah Anda punya ide untuk kasus di mana Anda tahu deret waktunya tidak diam

— Makro

Terima kasih atas jawaban Anda Michael! Anda benar: seandainya data berupa deret waktu, memeriksa korelasi otomatis adalah pendekatan terbaik. Adapun kritik Anda terhadap pendekatan KS split, Anda juga ada benarnya. Jadi, kita masih tidak memiliki tes dalam kasus umum (seri non waktu).

— gui11aume

Autokorelasi non-nol pertama adalah pada lag 60 dan hanya pada kelipatan 60 lainnya. Jika seri waktu memiliki panjang 55 kita bahkan tidak dapat mengamati dua titik 60 lag terpisah. Sowe tidak dapat memeriksa untuk melihat apakah korelasi lag 60 adalah 0 atau tidak. Jika panjang seri adalah 65 kita dapat memperkirakan korelasi lag 60 tetapi berdasarkan hanya 5 lag 60 pasang. Jadi varians dari estimasi adalah besar dan kami tidak akan memiliki kekuatan untuk mendeteksi korelasi yang tidak nol ini.

— Michael R. Chernick