Varian rata-rata tertimbang lebih besar dari rata-rata tidak tertimbang


8

Peninjau buku saya menanyakan alasan mengapa saya menggunakan data tidak tertimbang, alih-alih data tertimbang. Saya telah membahas masalah ini dengan seorang ahli statistik dan tanggapannya sejalan

Jika Anda memiliki pengamatan independen dan Anda mengambil rata-rata keseluruhan, variansnya selalu lebih kecil dari varians dari mean tertimbang sebagai estimator. ... Jadi interval kepercayaan akan diperlebar!

Sejak itu saya menemukan pertanyaan berikut di situs web ini, dan dari pemahaman saya, mereka menyarankan bahwa variansnya harus sama. Jadi, bisakah seseorang, tolong, dengan pikiran yang lebih berbakat secara statistik daripada saya, tolong konfirmasikan respons dari ahli statistik dan jelaskan secara teori, atau dengan contoh yang berhasil.


Jika "bobot" sebenarnya frekuensi pengamatan atau populasi, maka mereka harus digunakan, karena jumlah yang tidak tertimbang tidak ada artinya. Kutipan ahli statistik Anda mungkin benar untuk populasi dengan distribusi unimodal, meskipun secara umum tidak harus benar.
Henry

Akan cukup mudah untuk memberikan contoh yang berfungsi dengan lebih banyak konteks. Apa yang diwakili oleh bobot? Apakah Anda berbicara tentang varian mean sampel? Apakah sampel dari populasi terbatas? Dengan atau tanpa penggantian?
Henry

Katakanlah kami telah mengumpulkan serangkaian pengukuran detak jantung dari sampel orang di rumah sakit. Faktor pembobotan kemudian dapat diterapkan pada setiap individu untuk mengukur pengukuran agar mencerminkan estimasi nasional atau populasi - dengan membandingkan serangkaian perancu (misalnya usia, tinggi, berat, dll).
user08041991

Pertanyaan yang Anda tautkan adalah tentang bobot frekuensi. Apakah itu yang kamu miliki?
mdewey

2
Rerata nilai-nilai adalah tertimbang rata dengan bobot . Ketika independen, aturan dasar varian menyiratkan Ketika selain itu semuanya memiliki varian yang sama , ini disederhanakan menjadi kali . Karena bobot positif dan jumlah untuk kesatuan, diminimalkan hanya ketika . Dalam hal ini ahli statistik itu benar.nxix¯=iwixiwi=1/nxi
(1)Var(x¯)=iwi2Var(xi).
xiσ2wi2σ2(1)wi=1/nKesimpulan umum ini tidak tergantung pada properti lain dari distribusi , seperti unimodality. xi
whuber

Jawaban:


5

Pertanyaan Anda yang ditautkan ditangani dengan menggunakan bobot sebagai cara pintas untuk menangani perbedaan per poin data yang sama berbobotnya di mana beberapa titik data muncul lebih dari satu kali.

@whuber telah membahas dalam komentar tentang situasi di mana varian semua titik data sama. Jadi saya akan membahas situasi di mana mereka tidak sama. Dalam situasi inilah rata-rata tertimbang yang optimal menghasilkan varian yang lebih rendah daripada rata-rata yang tidak berbobot, yaitu rata-rata yang sama-sama berbobot.

Mean tertimbang, menggunakan bobot , sama dengan , dan memiliki varian = . Jadi kami ingin meminimalkan , tunduk pada dan untuk semua i.wiΣi=1nwixiΣi=1nwi2Var(xi)Σi=1nwi2Var(xi)Σi=1nwi=1wi0

Kondisi Karush-Kuhn-Tucker, yang diperlukan dan cukup untuk minimum global untuk masalah ini, mengingat bahwa itu adalah masalah Pemrograman Kuadratik cembung, menghasilkan solusi bentuk tertutup, yaitu:

optimal untuk 1 = 1 .. n.wi=[1/Var(xi)]/Σj=1n[1/Var(xj)]

rata-rata tertimbang optimal yang sesuai = .1/Σi=1n[1/Var(xi)]

Sebaliknya, bobot yang sama berarti untuk semua i, di mana n adalah jumlah titik data. Seperti yang ditunjukkan oleh whuber, bobot yang sama adalah optimal jika semua varian titik data sama, yang dapat dilihat dari rumus di atas untuk optimal . Namun, sebagaimana dibuktikan oleh formula itu, bobot yang sama tidak optimal jika varians titik data tidak semuanya sama, dan memang menghasilkan varians yang lebih besar (dari rata-rata tertimbang) daripada bobot optimal. Varians dari rata-rata tertimbang sama, yaitu, varian dari rata-rata tertimbang menggunakan bobot yang sama = .wi=1nwi1n2Σi=1nVar(xi)

Berikut adalah beberapa contoh hasil numerik:

  1. Ada dua titik data, yang memiliki varian masing-masing 1 dan 4. Rata-rata tidak tertimbang memiliki varians = 1,25. Mean tertimbang menggunakan bobot optimal masing-masing 0,8 dan 0,2, memiliki varians = 0,8, yang tentu saja kurang dari 1,25.
  2. Ada tiga titik data, masing-masing memiliki varian 1, 4, dan 9. Rata-rata tidak tertimbang memiliki varians = 1,5556. Rata-rata tertimbang menggunakan bobot optimal masing-masing 0,7347, 0,1837, 0,0816, memiliki varians = 0,7347, yang tentu saja kurang dari 1,5556.

Tentu saja, mungkin untuk mean tertimbang untuk memiliki varian yang lebih besar dari rata-rata tidak tertimbang, jika bobot dipilih dengan cara yang buruk. Dengan memilih bobot 1 pada titik data dengan varians terbesar, dan 0 untuk semua poin data lainnya, mean tertimbang akan memiliki varians = varians terbesar dari setiap titik data. Contoh ekstrem ini akan menjadi hasil dari memaksimalkan daripada meminimalkan dalam masalah optimasi yang saya paparkan.


Saya bingung tentang referensi Anda ke masing-masing titik data yang memiliki varian (mis. Ada dua titik data, masing-masing memiliki varian 1 dan 4), dapatkah Anda jelaskan?
edstatsuser

Mengatakan titik data memiliki varians tertentu sangat mudah untuk mengatakan bahwa diambil dari populasi (variabel acak) yang memiliki varians itu. Jadi titik data yang berbeda dapat diambil dari populasi yang berbeda, karena ini tidak dianggap sebagai sampling iid. xixi
Mark L. Stone

0

Ini adalah contoh sederhana menggunakan dan bentuk varians:1ni(xi1njxj)21kwkiwi(xi1kwkjwjxj)2

Misalkan populasi Anda memiliki ukuran .20,30,40,50

  • Rata-rata tidak tertimbang adalah dan varians adalah35125
  • Dengan bobot masing-masing -rata tertimbang adalah dan varian tertimbang adalah1000,4000,3000,20003684
  • Dengan bobot masing-masing -rata tertimbang adalah dan varians tertimbang adalah3000,2000,1000,400036164

Contoh ini konsisten dengan komentar saya bahwa kutipan ahli statistik Anda mungkin benar untuk populasi dengan distribusi unimodal, meskipun secara umum tidak perlu benar.

Saya kira intinya adalah bahwa jika Anda mengutip mean tertimbang, Anda mungkin harus mengaitkannya dengan varian tertimbang. Jika sebenarnya mean Anda adalah hasil sampel, kesalahan standar rata-rata sampel tertimbang adalah perhitungan yang lebih rumit.


Jawaban ini tampaknya membingungkan varians sampel (atau populasi terbatas) dengan varian distribusi sampling rata-rata (atau rata-rata tertimbang). Akibatnya itu termasuk pernyataan yang tampaknya tidak benar dan mungkin menyesatkan.
whuber
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.