Saya seorang noob dalam statistik, jadi bisakah kalian tolong bantu saya di sini.
Pertanyaan saya adalah sebagai berikut: Apa sebenarnya varian yang dikumpulkan? ?
Ketika saya mencari rumus untuk varian gabungan di internet, saya menemukan banyak literatur menggunakan rumus berikut (misalnya, di sini: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistics_Tests/thispage/newnode19.html ):
Tapi apa yang sebenarnya terjadi dihitung? Karena ketika saya menggunakan rumus ini untuk menghitung varian gabungan saya, itu memberi saya jawaban yang salah.
Misalnya, pertimbangkan "sampel induk" ini:
Varian dari sampel induk ini adalah , dan rata-ratanya adalah ˉ x p = 5 .
Sekarang, misalkan saya membagi sampel induk ini menjadi dua sub-sampel:
- Sub-sampel pertama adalah 2,2,2,2,2 dengan rata-rata dan varians S 2 1 = 0 .
- Sub-sampel kedua adalah 8,8,8,8,8 dengan rata-rata dan varians S 2 2 = 0 .
Sekarang, jelas, menggunakan rumus di atas untuk menghitung varian pooled / parent dari dua sub-sampel ini akan menghasilkan nol, karena dan S 2 = 0 . Jadi, apa rumus ini sebenarnya menghitung?
Di sisi lain, setelah beberapa derivasi panjang, saya menemukan rumus yang menghasilkan varian pooled / parent yang benar adalah:
Dalam rumus di atas, dan d 2 = ¯ x 2 - ˉ x p .
Saya menemukan formula yang sama dengan milik saya, misalnya di sini: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html dan juga di Wikipedia. Meskipun saya harus mengakui bahwa mereka tidak persis sama dengan milik saya.
Jadi sekali lagi, apa arti sebenarnya dari kumpulan gabungan? Bukankah itu berarti varians sampel induk dari dua sub-sampel? Atau saya benar-benar salah di sini?
Terima kasih sebelumnya.
EDIT 1: Seseorang mengatakan bahwa dua sub-sampel saya di atas adalah patologis karena mereka memiliki nol varians. Baiklah, saya bisa memberi Anda contoh berbeda. Pertimbangkan contoh induk ini:
Varian dari sampel induk ini adalah , dan rata-ratanya adalah ˉ x p = 25,5 .
Sekarang, misalkan saya membagi sampel induk ini menjadi dua sub-sampel:
- Sub-sampel pertama adalah 1,2,3,4,5 dengan rata-rata dan varian S 2 1 = 2,5 .
- Sub-sampel kedua adalah 46,47,48,49,50 dengan rerata dan varians S 2 2 = 2,5 .
Sekarang, jika Anda menggunakan "rumus literatur" untuk menghitung varians yang dikumpulkan, Anda akan mendapatkan 2,5, yang sepenuhnya salah, karena varians induk / gabungan seharusnya 564,7. Sebaliknya, jika Anda menggunakan "formula saya", Anda akan mendapatkan jawaban yang benar.
Tolong mengerti, saya menggunakan contoh ekstrim di sini untuk menunjukkan kepada orang-orang bahwa formula itu memang salah. Jika saya menggunakan "data normal" yang tidak memiliki banyak variasi (kasus ekstrim), maka hasil dari kedua rumus tersebut akan sangat mirip, dan orang-orang dapat mengabaikan perbedaan karena kesalahan pembulatan, bukan karena rumus itu sendiri salah.