Apa yang Anda simpulkan jika data IID berasal dari informasi luar, bukan data itu sendiri. Anda sebagai ilmuwan perlu menentukan apakah masuk akal untuk mengasumsikan data IID berdasarkan pada bagaimana data dikumpulkan dan informasi luar lainnya.
Perhatikan beberapa contoh.
Skenario 1: Kami menghasilkan satu set data secara independen dari satu distribusi yang kebetulan merupakan campuran 2 normals.
Skenario 2: Pertama-tama kita menghasilkan variabel gender dari distribusi binomial, kemudian pada pria dan wanita kita secara mandiri menghasilkan data dari distribusi normal (tetapi normalnya berbeda untuk pria dan wanita), kemudian kita menghapus atau kehilangan informasi gender.
Dalam skenario 1 data adalah IID dan dalam skenario 2 data jelas tidak terdistribusi secara identik (distribusi berbeda untuk pria dan wanita), tetapi 2 distribusi untuk 2 skenario tidak dapat dibedakan dari data, Anda harus mengetahui hal-hal tentang bagaimana data dihasilkan untuk menentukan perbedaannya.
Skenario 3: Saya mengambil sampel acak sederhana dari orang yang tinggal di kota saya dan mengelola survei dan menganalisis hasilnya untuk membuat kesimpulan tentang semua orang di kota.
Skenario 4: Saya mengambil sampel acak sederhana dari orang yang tinggal di kota saya dan mengelola survei dan menganalisis hasilnya untuk membuat kesimpulan tentang semua orang di negara ini.
Dalam skenario 3 subjek akan dianggap independen (sampel acak sederhana dari populasi yang diminati), tetapi dalam skenario 4 mereka tidak akan dianggap independen karena mereka dipilih dari sekelompok kecil populasi yang diminati dan kedekatan geografis kemungkinan akan memaksakan ketergantungan. Tetapi 2 dataset identik, itu adalah cara kami bermaksud menggunakan data yang menentukan apakah mereka independen atau tergantung dalam hal ini.
Jadi tidak ada cara untuk menguji hanya menggunakan data untuk menunjukkan bahwa data adalah IID, plot dan diagnostik lainnya dapat menunjukkan beberapa jenis non-IID, tetapi kekurangan ini tidak menjamin bahwa data tersebut adalah IID. Anda juga dapat membandingkan dengan asumsi tertentu (IID normal lebih mudah disangkal daripada hanya IID). Setiap tes masih hanya aturan, tetapi kegagalan untuk menolak tes tidak pernah membuktikan bahwa itu adalah IID.
Keputusan tentang apakah Anda bersedia untuk berasumsi bahwa kondisi IID perlu dibuat berdasarkan ilmu tentang bagaimana data dikumpulkan, bagaimana hal itu berkaitan dengan informasi lain, dan bagaimana hal itu akan digunakan.
Suntingan:
Berikut adalah serangkaian contoh untuk non-identik.
Skenario 5: data adalah residu dari regresi di mana ada heteroskedastisitas (varians tidak sama).
Skenario 6: data berasal dari campuran normals dengan mean 0 tetapi varians berbeda.
Dalam skenario 5 kita dapat dengan jelas melihat bahwa residu tidak terdistribusi secara identik jika kita memplot residu terhadap nilai-nilai yang sesuai atau variabel lain (prediktor, atau prediktor potensial), tetapi residu itu sendiri (tanpa info luar) tidak dapat dibedakan dari skenario 6.