Biarkan oleh k - vektor acak dimensi, yaitu koleksi posisi tetap variabel acak (fungsi nyata terukur).x =( X1, . . . , Xj, . . . , Xk)k -
Mempertimbangkan banyak vektor seperti, mengatakan , dan indeks vektor ini dengan i = 1 , . . . , n , jadi, katakanni=1,...,n
dan menganggap mereka sebagai koleksi yang disebut "sampel",S=( x 1 ,..., x i ,..., x n ). Lalu kami memanggil masing-masingk-
xi=(X1i,...,Xji,...,Xki)
S=(x1,...,xi,...,xn)k− vektor dimensi merupakan "pengamatan" (meskipun itu benar-benar menjadi satu hanya setelah kita mengukur dan mencatat realisasi dari variabel acak yang terlibat).
Pertama mari kita perlakukan kasus di mana salah satu fungsi massa probabilitas (PMF) atau fungsi kepadatan probabilitas (PDF) ada, dan juga, menggabungkan fungsi-fungsi tersebut. Ditunjukkan oleh PMF bersama atau PDF gabungan dari setiap vektor acak, dan PMF bersama atau PDF bersama dari semua vektor ini bersama-sama. f ( x 1 , . . . , X i , . . . , X n )fsaya( xsaya) ,i = 1 , . . . , nf( x1, . . . , xsaya, . . . , xn)
Kemudian, sampel disebut "sampel independen", jika persamaan matematis berikut berlaku:S
f( x1, . . . , xsaya, . . . , xn) = ∏i = 1nfsaya( xsaya) ,∀ ( x1, . . . , xsaya, . . . , xn) ∈ DS
di mana adalah domain gabungan yang dibuat oleh vektor / pengamatan acak. nDSn
Ini berarti bahwa "pengamatan" adalah "independen bersama", (dalam arti statistik, atau "independen dalam probabilitas" seperti pepatah lama yang masih terlihat sampai sekarang kadang-kadang). Kebiasaannya adalah dengan menyebutnya "pengamatan independen".
Perhatikan bahwa properti independensi statistik di sini melebihi indeks , yaitu antara pengamatan. Ini tidak terkait dengan apa hubungan probabilistik / statistik antara variabel acak dalam setiap pengamatan (dalam kasus umum kami memperlakukan di sini di mana setiap pengamatan adalah multidimensi).saya
Perhatikan juga bahwa dalam kasus di mana kita memiliki variabel acak kontinu tanpa kepadatan, hal di atas dapat dinyatakan dalam fungsi distribusi.
Inilah yang "pengamatan independen" berarti . Ini adalah properti yang didefinisikan secara tepat yang dinyatakan dalam istilah matematika. Mari kita lihat beberapa implikasinya .
BEBERAPA KONSEKUENSI MEMILIKI PENGAMATAN INDEPENDEN
A. Jika dua pengamatan adalah bagian dari kelompok pengamatan independen bersama, maka mereka juga "independen pasangan-bijaksana" (secara statistik),
f( xsaya, xm) = fsaya( xsaya) fm( xm)∀ i ≠ m ,i , m = 1 , . . . , n
Ini pada gilirannya menyiratkan bahwa PMF bersyarat / PDF sama dengan yang "marginal"
f( xsaya∣ xm) = fsaya( xsaya)∀ i ≠ m ,i , m = 1 , . . . , n
Ini digeneralisasikan ke banyak argumen, dikondisikan atau dikondisikan, katakan
f( xsaya, xℓ∣ xm) = f( xsaya, xℓ) ,f( xsaya∣ xm, xℓ) = fsaya( xsaya)
dll, selama indeks ke kiri berbeda dengan indeks di sebelah kanan garis vertikal.
Ini menyiratkan bahwa jika kita benar-benar mengamati satu pengamatan, probabilitas yang menjadi ciri pengamatan lain dari sampel tidak berubah. Jadi mengenai prediksi , sampel independen bukanlah teman terbaik kami. Kami lebih suka memiliki ketergantungan sehingga setiap pengamatan dapat membantu kami mengatakan sesuatu tentang pengamatan lain.
B. Di sisi lain, sampel independen memiliki konten informasi maksimum. Setiap pengamatan, independen, membawa informasi yang tidak dapat disimpulkan, seluruhnya atau sebagian, oleh pengamatan lain dalam sampel. Jadi jumlah totalnya maksimum, dibandingkan dengan sampel mana pun yang sebanding di mana terdapat beberapa ketergantungan statistik antara beberapa pengamatan. Tetapi apa gunanya informasi ini, jika tidak dapat membantu kami meningkatkan prediksi kami?
Nah, ini adalah informasi tidak langsung tentang probabilitas yang menjadi ciri variabel acak dalam sampel. Semakin banyak pengamatan ini memiliki karakteristik umum (distribusi probabilitas umum dalam kasus kami), semakin kami berada dalam posisi yang lebih baik untuk mengungkapnya, jika sampel kami independen.
Dengan kata lain jika sampel independen dan "terdistribusi secara identik", artinya
fsaya( xsaya) = fm( xm) = f( x ) ,saya ≠ m
itu adalah sampel terbaik untuk mendapatkan informasi tentang tidak hanya distribusi probabilitas gabungan umum , tetapi juga untuk distribusi marginal dari variabel acak yang terdiri dari setiap pengamatan, katakanlah . f( x )fj( xj i)
Jadi walaupun , jadi nol daya prediksi tambahan sehubungan dengan realisasi aktual dari , dengan sampel independen dan terdistribusi secara identik, kami berada di yang terbaik posisi untuk mengungkap fungsi (atau beberapa propertinya), yaitu distribusi marginal.f( xsaya∣ xm) = fsaya( xsaya)xsaya fsaya
Oleh karena itu, dalam hal estimasi (yang kadang-kadang digunakan sebagai istilah tangkap semua, tapi di sini ia harus tetap berbeda dari konsep prediksi ), sampel independen adalah "sahabat kami", jika dikombinasikan dengan "terdistribusi secara identik" "properti.
C. Ini juga berarti bahwa sampel pengamatan independen di mana masing-masing dicirikan oleh distribusi probabilitas yang sama sekali berbeda, tanpa karakteristik umum apa pun, adalah kumpulan informasi yang tidak berharga seperti yang dapat diperoleh (tentu saja setiap informasi itu sendiri adalah layak, masalahnya di sini adalah bahwa secara bersama-sama ini tidak dapat digabungkan untuk menawarkan sesuatu yang bermanfaat). Bayangkan sampel yang mengandung tiga pengamatan: satu berisi (karakteristik kuantitatif) buah-buahan dari Amerika Selatan, yang lain mengandung pegunungan Eropa, dan yang ketiga berisi pakaian dari Asia. Sepotong informasi yang cukup menarik, ketiganya -tetapi sebagai sampel tidak dapat melakukan apa pun yang berguna secara statistik bagi kita.
Dengan kata lain, kondisi yang diperlukan dan cukup untuk sampel independen menjadi berguna, adalah bahwa pengamatan memiliki beberapa karakteristik statistik yang sama. Inilah sebabnya, dalam Statistik, kata "sampel" tidak identik dengan "pengumpulan informasi" secara umum, tetapi untuk "pengumpulan informasi tentang entitas yang memiliki beberapa karakteristik umum".
APLIKASI UNTUK CONTOH DATA OP'S
Menanggapi permintaan dari pengguna @gung, mari kita periksa contoh OP dalam terang di atas. Kami beranggapan bahwa kami berada di sekolah dengan lebih dari dua guru dan lebih dari enam siswa. Jadi a) kami mengambil sampel murid dan guru, dan b) kami memasukkan data kami mengatur nilai yang sesuai dengan masing-masing kombinasi guru-murid.
Yaitu, nilai tidak "sampel", mereka adalah konsekuensi dari pengambilan sampel yang kami lakukan pada guru dan murid. Oleh karena itu masuk akal untuk memperlakukan variabel acak (= kelas) sebagai "variabel dependen", sedangkan murid ( ) dan guru adalah "variabel penjelas" (tidak semua variabel penjelas yang mungkin, hanya beberapa ). Sampel kami terdiri dari enam pengamatan yang kami tulis secara eksplisit, sebagaiGPTS= ( s1, . . . , s6)
s1= ( T1, P1, G1)s2= ( T1, P2, G2)s3= ( T1, P3, G3)s3= ( T2, P4, G4)s4= ( T2, P5, G5)s5= ( T2, P6, G6)
Di bawah asumsi yang dinyatakan "murid tidak saling mempengaruhi", kita dapat mempertimbangkan variabel sebagai didistribusikan secara independen. Di bawah asumsi yang tidak dinyatakan bahwa "semua faktor lain" yang dapat memengaruhi Grade saling independen, kita juga dapat menganggap variabel saling independen satu sama lain.
Akhirnya dengan asumsi yang tidak dinyatakan bahwa guru tidak saling mempengaruhi, kita dapat mempertimbangkan variabel sebagai independen secara statistik di antara mereka.PsayaGsaya
T1, T2
Tetapi terlepas dari apa asumsi kausal / struktural yang akan kita buat mengenai hubungan antara guru dan murid , kenyataannya tetap bahwa pengamatan berisi variabel acak yang sama ( ), sedangkan pengamatan juga berisi variabel acak yang sama ( ). s1, s2, s3T1s4, s5, s6T2
Perhatikan dengan cermat perbedaan antara "variabel acak yang sama" dan "dua variabel acak berbeda yang memiliki distribusi identik".
Jadi, bahkan jika kita berasumsi bahwa "guru TIDAK mempengaruhi murid", maka sampel kita seperti yang didefinisikan di atas bukanlah sampel independen, karena secara statistik tergantung melalui , sementara secara statistik tergantung melalui . s1, s2, s3T1s4, s5, s6T2
Asumsikan sekarang bahwa kita mengecualikan variabel acak "guru" dari sampel kami. Apakah sampel (Murid, Kelas) dari enam pengamatan, merupakan sampel independen?
Di sini, asumsi yang akan kita buat mengenai apa hubungan struktural antara guru, murid, dan kelas itu penting.
Pertama, apakah guru secara langsung memengaruhi variabel acak "Kelas", melalui mungkin, "sikap / gaya penilaian" yang berbeda? Misalnya mungkin merupakan "kelas tegar" sedangkan mungkin tidak. Dalam kasus seperti itu "tidak melihat" variabel "Guru" tidak membuat sampel independen, karena sekarang yang tergantung, karena sumber pengaruh yang umum, (dan analog dengan tiga lainnya ). T1T2G1, G2, G3T1
Tetapi katakan bahwa guru identik dalam hal itu. Kemudian di bawah asumsi yang dinyatakan "guru mempengaruhi siswa" kami memiliki lagi bahwa tiga pengamatan pertama saling tergantung satu sama lain, karena guru mempengaruhi siswa yang mempengaruhi nilai, dan kami tiba pada hasil yang sama, meskipun secara tidak langsung dalam kasus ini (dan juga untuk tiga lainnya). Jadi sekali lagi, sampelnya tidak independen.
KASUS GENDER
Sekarang, mari kita buat sampel pengamatan enam (Murid, Tingkat) "independen secara kondisional terhadap guru" (lihat jawaban lain) dengan mengasumsikan bahwa semua enam murid pada kenyataannya memiliki guru yang sama. Tetapi sebagai tambahan mari kita sertakan dalam sampel variabel acak " = Gender" yang secara tradisional mengambil dua nilai ( ), sementara baru-baru ini mulai mengambil lebih banyak. Sampel pengamatan tiga dimensi kami yang tiga kali lagi adalah sekarangG eM., F
s1= ( G e1, P1, G1)s2= ( G e2, P2, G2)s3= ( G e3, P3, G3)s3= ( G e4, P4, G4)s4= ( G e5, P5, G5)s5= ( G e6, P6, G6)
Perhatikan baik-baik bahwa apa yang kami sertakan dalam deskripsi sampel mengenai Gender, bukan nilai aktual yang diperlukan untuk setiap murid, tetapi variabel acak "Gender" . Lihat kembali pada jawaban yang sangat panjang ini: Sampel tidak didefinisikan sebagai kumpulan angka (atau angka tetap atau tidak nilai secara umum), tetapi sebagai kumpulan variabel acak (mis. Fungsi).
Sekarang, apakah jenis kelamin dari satu murid mempengaruhi (secara struktural atau statistik) jenis kelamin dari murid yang lain? Kita bisa beralasan bahwa itu tidak benar. Jadi dari variabel independen. Apakah jenis kelamin murid , , memengaruhi secara langsung beberapa murid lainnya ( )? Hmm, ada pertarungan teori-teori pendidikan jika saya ingat tentang masalah ini. Jadi, jika kita berasumsi bahwa itu tidak , maka pergi sumber lain yang mungkin dari ketergantungan antara pengamatan. Akhirnya, apakah jenis kelamin murid mempengaruhi secara langsung nilai murid lain? jika kami berpendapat tidak, kami mendapatkan sampel independenG esaya1G e1P2, P3, . . . (tergantung pada semua murid yang memiliki guru yang sama).