Penjelasan intuitif untuk membagi dengan


136

Saya ditanya hari ini di kelas mengapa Anda membagi jumlah kesalahan kuadrat dengan n1 bukan dengan n , saat menghitung standar deviasi.

Saya bilang saya tidak akan menjawabnya di kelas (karena saya tidak ingin masuk ke estimator yang tidak bias), tetapi kemudian saya bertanya-tanya - apakah ada penjelasan intuitif untuk ini ?!


29
Saya ingin mengutip zinger ini dari buku Numerical Recipes : "... jika perbedaan antara dan n - 1 pernah berarti bagi Anda, maka Anda mungkin tidak akan berhasil - misalnya, mencoba untuk membuktikan hipotesis yang dipertanyakan dengan data marginal. " nn1
JM bukan ahli statistik

11
penjelasan yang sangat elegan dan intuitif disajikan di sini (di bawah buktinya) en.wikipedia.org/wiki/... Gagasan dasarnya adalah bahwa pengamatan Anda, secara alami, akan lebih dekat dengan rata-rata sampel daripada rata-rata populasi.
WetlabStudent

12
@Tal, Ini sebabnya sekolah payah. Anda bertanya kepada mereka "mengapa ini ?", Dan mereka menjawab "hafalkan saja".
Pacerier

1
Jika Anda mencari penjelasan intuitif, Anda harus melihat alasannya sendiri dengan mengambil sampel! Lihat ini, justru menjawab pertanyaan Anda. youtube.com/watch?v=xslIhnquFoE
Sahil Chaudhary

tl; dr: (dari jawaban atas :) "... deviasi standar yang dihitung menggunakan deviasi dari mean sampel meremehkan standar deviasi populasi yang diinginkan ..." Lihat juga: en.wikipedia.org/wiki/… Jadi, kecuali Anda merasa ingin menghitung sesuatu yang agak rumit, gunakan saja n-1 jika itu dari sampel.
Andrew

Jawaban:


99

Deviasi standar yang dihitung dengan pembagi adalah deviasi standar yang dihitung dari sampel sebagai perkiraan standar deviasi populasi dari mana sampel diambil. Karena nilai-nilai yang diamati jatuh, rata-rata, lebih dekat ke mean sampel daripada rata-rata populasi, standar deviasi yang dihitung dengan menggunakan penyimpangan dari rata-rata sampel meremehkan standar deviasi yang diinginkan dari populasi. Menggunakan n - 1 bukannya n sebagai pembagi mengoreksi untuk itu dengan membuat hasilnya sedikit lebih besar.n1n1n

Perhatikan bahwa koreksi memiliki efek proporsional yang lebih besar ketika kecil daripada ketika besar, yang adalah apa yang kita inginkan karena ketika n lebih besar rata-rata sampel cenderung menjadi penduga yang baik dari rata-rata populasi.n

Ketika sampel adalah seluruh populasi kita menggunakan standar deviasi dengan sebagai pembagi karena mean sampel adalah rata - rata populasi.n

(Saya mencatat secara garis besar bahwa tidak ada yang dimulai dengan "momen kedua yang dipusatkan di sekitar makna yang pasti dan pasti" akan memenuhi permintaan si penanya untuk penjelasan yang intuitif.)


13
Jangan bingung "intuitif" dengan "nonteknis".
whuber

32
@Michael, Ini tidak menjelaskan Mengapa kita menggunakan n−1bukan n−2(atau bahkan n−3)?
Pacerier

1
@Pacerier Lihatlah jawaban Whuber di bawah ini untuk perincian tentang hal itu. Intinya, koreksi adalah n-1 daripada n-2 dll karena koreksi n-1 memberikan hasil yang sangat dekat dengan yang kita butuhkan. Koreksi yang lebih tepat ditampilkan di sini: en.wikipedia.org/wiki/Unprice_estimation_of_standard_deviation
Michael Lew

1
Hai @Michael, jadi mengapa deviasi yang dihitung dari mean sampel cenderung lebih kecil dari mean populasi?
Allen

1
"Karena nilai-nilai yang diamati jatuh, rata-rata, lebih dekat ke mean sampel daripada rata-rata populasi, standar deviasi yang dihitung menggunakan penyimpangan dari rata-rata sampel meremehkan standar deviasi yang diinginkan dari populasi." Mengapa sampel berarti selalu meremehkan? Bagaimana jika itu melebih-lebihkan?
Bora M. Alper

55

Yang umum adalah bahwa definisi varians (distribusi) adalah momen kedua yang dipusatkan di sekitar rata-rata yang diketahui dan pasti , sedangkan estimator menggunakan estimasi rata-rata. Hilangnya derajat kebebasan ini (diberikan nilai rata-rata, Anda dapat menyusun kembali dataset dengan pengetahuan hanya dari nilai data) membutuhkan penggunaan n - 1 daripada n untuk "menyesuaikan" hasilnya.n1n1n

Penjelasan seperti itu konsisten dengan varians yang diperkirakan dalam analisis ANOVA dan komponen varians. Ini benar-benar hanya kasus khusus.

Kebutuhan untuk membuat beberapa penyesuaian yang mengembang varians dapat, saya pikir, dibuat jelas secara intuitif dengan argumen yang valid yang tidak hanya melambaikan tangan secara ex post facto . (Saya ingat bahwa Siswa mungkin telah membuat argumen seperti itu dalam makalahnya pada tahun 1908 pada uji-t.) Mengapa penyesuaian varians harus tepat merupakan faktor lebih sulit untuk dibenarkan, terutama ketika Anda mempertimbangkan bahwa SD yang disesuaikan tidakn/(n1)penaksir yang tidak bias. (Ini hanyalah akar kuadrat dari penaksir yang tidak bias dari varian. Menjadi tidak bias biasanya tidak bertahan dari transformasi nonlinier.) Jadi, pada kenyataannya, penyesuaian yang benar terhadap SD untuk menghilangkan biasnya bukan merupakan faktor sama sekali!n/(n1)

Beberapa buku teks pengantar bahkan tidak repot memperkenalkan sd yang disesuaikan: mereka mengajarkan satu rumus (dibagi dengan ). Saya pertama kali bereaksi negatif terhadap hal itu ketika mengajar dari buku seperti itu tetapi tumbuh untuk menghargai kebijaksanaan: untuk fokus pada konsep dan aplikasi, penulis menghapus semua kebaikan matematika yang tidak penting. Ternyata tidak ada yang terluka dan tidak ada yang disesatkan.n


1
Terima kasih Whuber. Saya harus mengajar siswa dengan koreksi n-1, jadi membaginya dengan n saja bukanlah pilihan. Seperti yang ditulis sebelum saya, menyebutkan koneksi ke momen kedua bukanlah suatu pilihan. Meskipun menyebutkan bagaimana rata-rata sudah diperkirakan sehingga meninggalkan kita dengan lebih sedikit "data" untuk sd - itu penting. Mengenai bias dari sd - saya ingat menemukannya - terima kasih untuk mengantar pulang ke rumah. Terbaik, Tal
Tal Galili

3
@Tal saya menulis dalam bahasa Anda, bukan bahasa siswa Anda, karena saya yakin Anda sepenuhnya mampu menerjemahkannya ke dalam apa pun yang Anda tahu akan menjangkau mereka. Dengan kata lain, saya menafsirkan "intuitif" dalam pertanyaan Anda berarti intuitif untuk Anda .
whuber

1
Hai Whuber. Terima kasih atas mosi percaya :). Kehilangan tingkat kebebasan untuk memperkirakan harapan adalah salah satu yang saya pikirkan untuk digunakan di kelas. Masalahnya adalah bahwa konsep "derajat kebebasan" dengan sendirinya adalah konsep yang membutuhkan pengetahuan / intuisi. Tetapi menggabungkannya dengan beberapa jawaban lain yang diberikan di utas ini akan berguna (bagi saya, dan saya berharap yang lain di masa depan). Terbaik, Tal
Tal Galili

Untuk besar , biasanya tidak ada banyak perbedaan antara membaginya dengan n atau n - 1 , jadi akan lebih baik untuk memperkenalkan formula yang tidak dikoreksi asalkan itu dimaksudkan untuk diterapkan pada sampel besar, bukan? nnn1
PatrickT

1
@ Patrick Anda mungkin membaca terlalu banyak jawaban saya, karena ini eksplisit tentang alasannya: mereka pedagogis dan tidak ada hubungannya dengan apakah besar atau tidak. n
whuber

50

Menurut definisi, varians dihitung dengan mengambil jumlah perbedaan kuadrat dari rata-rata dan membaginya dengan ukuran. Kami memiliki formula umum

manaμadalah rata-rata danNadalah ukuran populasi.σ2=iN(Xiμ)2NμN

Menurut definisi ini, varians dari sampel (mis. Sampel ) juga harus dihitung dengan cara ini.t

dimana ¯ X adalah mean dannadalah ukuran sampel kecil ini.σt2=in(XiX¯)2nX¯n

Namun, dengan varians sampel , yang kami maksudkan adalah penduga varians populasi σ 2 . Bagaimana kita dapat memperkirakan σ 2 hanya dengan menggunakan nilai-nilai dari sampel?S2σ2σ2

Menurut rumus di atas, variabel acak menyimpang dari sampel rata ¯ X dengan varians σXX¯ . Sampel mean ¯ X juga menyimpang dariμdengan variansσ2σt2X¯μ karena mean sampel mendapat nilai yang berbeda dari sampel ke sampel dan itu adalah variabel acak dengan meanμdan variansσ2σ2nμ . (Seseorang dapat membuktikan dengan mudah.)σ2n

Oleh karena itu, kira-kira, harus menyimpang dari μ dengan varians yang melibatkan dua varians sehingga menjumlahkan keduanya dan dapatkan σ 2 = σ 2 t + σ 2Xμ . Dengan menyelesaikan ini, kita mendapatkanσ2=σ 2 t ×nσ2=σt2+σ2n . Menggantiσ 2 t memberikan estimator kami untuk varians populasi:σ2=σt2×nn1σt2

.S2=in(XiX¯)2n1

Seseorang juga dapat membuktikan bahwa benar.E[S2]=σ2


Saya harap ini tidak terlalu sepele: apakah fakta bahwa mean sampel konvergen ke ND ( , σμσn ) karena n menjadi besar secara sewenang-wenang alasan mengapa mean sampel menyimpang dari mean nyata dengan varians ?σ2n
RexYuan

6
Ini adalah penjelasan yang lebih baik daripada yang lain karena ini menunjukkan persamaan dan derivasi daripada hanya pergi yagga yagga dengan istilah statistik.
Nav

1
@ sevenkul, bisakah kita melihat cara ini secara visual? ketika Anda mengatakan, X harus menyimpang dari dengan varian bersih itu, saya bingung memvisualisasikannyaμ
bingung

17

Ini adalah intuisi total, tetapi jawaban yang paling sederhana adalah koreksi yang dilakukan untuk membuat deviasi standar sampel satu elemen tidak terdefinisi daripada 0.


11
Jadi mengapa tidak digunakan? atau genapnn21 sebagai koreksi? :-)1exp(1)exp(1/n)
whuber

1
@whuber Parsimony (-;

4
bahkan lebih "pelit". :-)1n1
whuber

2
@mbq, Mengenai jawaban Anda ~ "ini adalah koreksi yang dilakukan untuk membuat standar deviasi sampel satu elemen tidak terdefinisi daripada 0", apakah itu benar - benar alasan mengapa, atau apakah ini jawaban lelucon? Anda tahu yang bukan-ayah seperti kami tidak tahu.
Pacerier

4
Secara formal, itu adalah konsekuensi daripada alasan, tetapi, ketika saya menulis, saya merasa itu adalah intusi yang baik untuk menghafalnya.

14

Anda dapat memperoleh pemahaman yang lebih dalam tentang istilah melalui geometri saja, bukan hanya mengapa itu bukan n tetapi mengapa ia mengambil persis bentuk ini, tetapi Anda mungkin perlu terlebih dahulu membangun intuisi Anda dengan mengatasi geometri n- dimensi. Dari sana, bagaimanapun, ini adalah langkah kecil menuju pemahaman yang lebih dalam tentang derajat kebebasan dalam model linier (yaitu model df & residual df). Saya pikir ada sedikit keraguan bahwa Fisher berpikir seperti ini. Inilah buku yang membangunnya secara bertahap:n1nn

Saville DJ, Wood GR. Metode statistik: pendekatan geometris . Edisi ke-3. New York: Springer-Verlag; 1991. 560 halaman. 9780387975177

(Ya, 560 halaman. Saya memang mengatakan secara bertahap.)


Terima kasih onestop - Saya tidak berpikir akan ada jawaban dari arah itu. Adakah cara untuk menyimpulkan intuisi, atau apakah itu tidak mungkin? Cheers, Tal
Tal Galili

Saya tidak bisa melakukannya sendiri, tetapi seorang buku resensi buku merangkum pendekatan dalam paragraf di Amer. Stat. pada tahun 1993: jstor.org/stable/2684984 . Saya tidak yakin itu benar-benar praktis untuk menggunakan pendekatan ini dengan siswa Anda kecuali jika Anda menerapkannya untuk seluruh kursus.
onestop

Bisakah Anda merangkum sedikit intuisi daripada sekadar referensi buku?
oliversm

12

Penaksir varians populasi bias ketika diterapkan pada sampel populasi. Untuk menyesuaikan bias yang perlu dibagi dengan n-1, bukan n. Kita dapat menunjukkan secara matematis bahwa penaksir varians sampel tidak bias ketika kita membaginya dengan n-1 alih-alih n. Bukti resmi disediakan di sini:

https://economictheoryblog.com/2012/06/28/latexlatexs2/

Awalnya itu adalah kebenaran matematika yang menyebabkan rumus, saya kira. Namun, jika seseorang ingin menambahkan intuisi ke formula, saran yang telah disebutkan itu tampak masuk akal.

Pertama, pengamatan sampel rata-rata lebih dekat dengan rata-rata sampel daripada rata-rata populasi. Penaksir varians menggunakan mean sampel dan sebagai akibatnya meremehkan varians sebenarnya dari populasi. Membagi dengan n-1 bukannya n mengoreksi bias itu.

Lebih jauh lagi, membaginya dengan n-1 membuat varians sampel satu elemen tidak terdefinisi daripada nol.


12

Mengapa membagi dengan daripada n ? Karena itu adalah kebiasaan, dan menghasilkan estimasi varian yang tidak bias. Namun, ini menghasilkan estimasi bias (rendah) dari standar deviasi, seperti yang dapat dilihat dengan menerapkan ketidaksetaraan Jensen pada fungsi cekung, akar kuadrat.n1n

Jadi, apa hebatnya memiliki estimator yang tidak bias? Itu tidak selalu meminimalkan kesalahan kuadrat rata-rata. MLE untuk distribusi Normal adalah untuk membagi dengan daripada n - 1 . Ajari siswa Anda untuk berpikir, daripada memuntahkan dan tanpa berpikir menerapkan gagasan kuno dari seabad yang lalu.nn1


8
(+1) Semakin saya memikirkan situasi ini (dan saya telah memikirkannya, sejauh meneliti makalah sebelumnya seperti kontribusi Biometrica 1908 dari Siswa untuk mencoba melacak kapan dan mengapa muncul. ), semakin saya berpikir bahwa "karena itu kebiasaan" adalah satu-satunya jawaban yang benar. Saya tidak senang melihat downvotes dan hanya bisa menebak bahwa mereka menanggapi kalimat terakhir, yang dapat dengan mudah dilihat sebagai menyerang OP, meskipun saya ragu itu adalah niat Anda. n1
whuber

1
Kalimat terakhir saya adalah saran yang bersahabat untuk semua pihak, bukan serangan terhadap OP.
Mark L. Stone

Dalam banyak penggunaan itu tidak masalah, ketika digunakan dalam tes atau untuk interval kepercayaan seseorang harus menyesuaikan bagian lain dari prosedur dan pada akhirnya mendapatkan hasil yang sama!
kjetil b halvorsen

8

Sudah diketahui (atau dengan mudah dibuktikan) bahwa kuadrat memiliki ekstrem pada z = - βαz2+2βz+γ . Ini menunjukkan bahwa, untuk setiapbilangan nnyata yangdiberikanx1,x2,...,xn, kuantitas G(a)= n i=1(xi-a)2=( n i = 1 x 2 i )-2a( n i = 1 xi)+z=βαnx1,x2,,xn memiliki nilai minimum ketika a = 1

G(a)=i=1n(xia)2=(i=1nxi2)2a(i=1nxi)+na2,
a=1ni=1nxi=x¯ .

Sekarang, anggaplah bahwa adalah sampel berukuran n dari distribusi dengan tidak diketahui rata-rata μ dan tidak diketahui varians σ 2 . Kami dapat memperkirakan μ sebagai 1xinμσ2μ yang cukup mudah untuk dihitung, tetapi upaya untuk memperkirakanσ2 sebagai11ni=1nxi=x¯σ2menemui masalah yang tidak kita ketahuiμ. Kita bisa, tentu saja, mudah menghitung G( ˉ x )dan kami tahu bahwaG(μ)G( ˉ x ), tapi berapa banyak yang lebih besar adalahG(μ)? Jawabannya adalah bahwa G(μ)1ni=1n(xiμ)2=n1G(μ)μG(x¯)G(μ)G(x¯)G(μ)G(μ)lebih besar dari dengan faktor sekitar nG(x¯) , yaitu, G ( μ ) nnn1danperkiraann-1G(μ)=1

(1)G(μ)nn1G(x¯)
untuk varian distribusi dapat diperkirakan oleh 1n1G(μ)=1ni=1n(xiμ)21n1G(x¯)=1n1i=1n(xix¯)2.

Jadi, apa penjelasan intuitif dari ? Yah, kita punya G ( μ )(1) karena n i = 1 (xi- ˉ x )=n ˉ x -n ˉ x =0. Sekarang, n ( ˉ x - μ ) 2

G(μ)=i=1n(xiμ)2=i=1n(xix¯+x¯μ)2=i=1n((xix¯)2+(x¯μ)2+2(xix¯)(x¯μ))=G(x¯)+n(x¯μ)2+(x¯μ)i=1n(xix¯)(2)=G(x¯)+n(x¯μ)2
i=1n(xix¯)=nx¯nx¯=0 Kecuali ketika kita memiliki sampel luar biasa di mana semuaxilebih besar dariμ(atau mereka semua lebih kecil dari μ), jumlah puncak(xi-μ)(xj-μ)dalam jumlah ganda di sisi kanan(3)
n(x¯μ)2=n1n2(i=1n(xiμ))2=1ni=1n(xiμ)2+2ni=1nj=i+1n(xiμ)(xjμ)(3)=1nG(μ)+2ni=1nj=i+1n(xiμ)(xjμ)
xiμμ(xiμ)(xjμ)(3)mengambil nilai-nilai positif dan negatif dan dengan demikian banyak pembatalan terjadi. Jadi, jumlah ganda dapat diharapkan memiliki nilai absolut yang kecil , dan kami mengabaikannya dibandingkan dengan angka istilah di sisi kanan(3). Dengan demikian,(2) menjadi G(μ)G( ˉ x )+11nG(μ)(3)(2) sebagaimana diklaim dalam(1).
G(μ)G(x¯)+1nG(μ)G(μ)nn1G(x¯)
(1)

8
Hanya pada pertukaran tumpukan ini yang akan dianggap sebagai jawaban intuitif.
Joseph Garvin

6

(xixj)2/2

s2=2n(n1)i<j(xixj)22=1n1i=1n(xix¯)2.

XY

V(X)=E((XY)22)=E((XE(X))2).

Untuk beralih dari definisi variabel acak varian ke definisi variabel sampel adalah masalah memperkirakan ekspektasi dengan rata-rata yang dapat dibenarkan oleh prinsip filosofis khas: Sampel adalah representasi tipikal distribusi. (Catatan, ini terkait dengan, tetapi tidak sama dengan estimasi berdasarkan momen.)


2
V(X)=E((X-Y)22)=E((X-E(X))2)

4
(xixi)2s2nn1
whuber

4

N=1xm¯=x1

V=N(xnm¯)2N

V¯=(xm¯)21=0.

yxyN1=0

0d+1dd+1


Tidak jelas mengapa "varian yang tak terbatas akan menjadi hasil yang lebih baik" daripada varian nol. Memang, Anda tampaknya menggunakan "varians sampel" dalam arti penaksir varians , yang lebih membingungkan lagi.
whuber

1
0<

4

Atas saran whuber , jawaban ini telah disalin dari pertanyaan serupa lainnya .

Koreksi Bessel diadopsi untuk mengoreksi bias dalam menggunakan varians sampel sebagai penaksir varians yang sebenarnya. Bias dalam statistik yang tidak dikoreksi terjadi karena rata-rata sampel lebih dekat ke tengah pengamatan daripada rata-rata yang sebenarnya, sehingga penyimpangan kuadrat di sekitar rata-rata sampel secara sistematis meremehkan penyimpangan kuadrat di sekitar rata-rata sebenarnya.

S2n

S2=1nsaya=1n(Xsaya-X¯)2=1nsaya=1n(Xsaya2-2X¯Xsaya+X¯2)=1n(saya=1nXsaya2-2X¯saya=1nXsaya+nX¯2)=1n(saya=1nXsaya2-2nX¯2+nX¯2)=1n(saya=1nXsaya2-nX¯2)=1nsaya=1nXsaya2-X¯2.

Mengambil harapan hasil:

E(S2)=1nsaya=1nE(Xsaya2)-E(X¯2)=1nsaya=1n(μ2+σ2)-(μ2+σ2n)=(μ2+σ2)-(μ2+σ2n)=σ2-σ2n=n-1nσ2

Jadi Anda dapat melihat bahwa statistik varians sampel yang tidak dikoreksi meremehkan varians yang sebenarnya σ2. Koreksi Bessel menggantikan penyebut dengann-1yang menghasilkan estimator yang tidak bias. Dalam analisis regresi ini diperluas ke kasus yang lebih umum di mana estimasi rata-rata adalah fungsi linier dari beberapa prediktor, dan dalam kasus yang terakhir ini, penyebut dikurangi lebih lanjut, untuk jumlah derajat kebebasan yang lebih rendah.


Terima kasih atas buktinya!
upupming

0

Umumnya menggunakan "n" dalam penyebut memberikan nilai lebih kecil dari varians populasi yang ingin kami perkirakan. Ini terutama terjadi jika sampel kecil diambil. Dalam bahasa statistik, kami mengatakan bahwa varians sampel memberikan perkiraan "bias" dari varians populasi dan perlu dibuat "tidak bias".

Jika Anda mencari penjelasan intuitif, Anda harus membiarkan siswa Anda melihat alasannya sendiri dengan mengambil sampel! Lihat ini, itu menjawab pertanyaan Anda.

https://www.youtube.com/watch?v=xslIhnquFoE


0

Mean sampel didefinisikan sebagai X¯=1nsaya=1nXsaya, yang cukup intuitif. Tetapi varians sampelnya adalahS2=1n-1saya=1n(Xsaya-X¯)2. Di mana itun-1 berasal dari ?

Untuk menjawab pertanyaan ini, kita harus kembali ke definisi penaksir yang tidak bias. Estimator yang tidak bias adalah ekspektasi yang cenderung ke ekspektasi yang sebenarnya. Rata-rata sampel adalah penaksir tidak bias. Untuk melihat alasannya:

E[X¯]=1nsaya=1nE[Xsaya]=nnμ=μ

Mari kita lihat ekspektasi varians sampel,

S2=1n-1saya=1n(Xsaya2)-nX¯2

E[S2]=1n-1(nE[(Xsaya2)]-nE[X¯2]).

Perhatikan itu X¯ adalah variabel acak dan bukan konstanta, jadi harapannya E[X¯2]memainkan peran. Ini adalah alasan di balikn-1.

E[S2]=1n-1(n(μ2+σ2)-n(μ2+VSebuahr(X¯))).
VSebuahr(X¯)=VSebuahr(1nsaya=1nXsaya)=saya=1n1n2VSebuahr(Xsaya)=σ2n

E[S2]=1n-1(n(μ2+σ2)-n(μ2+σ2/n)).=(n-1)σ2n-1=σ2

Seperti yang Anda lihat, jika kita memiliki penyebutnya sebagai n dari pada n-1, kami akan mendapatkan estimasi yang bias untuk varians! Tetapi dengann-1 penduga S2 adalah estimator yang tidak bias.


3
Tapi itu tidak mengikuti itu S adalah penduga yang tidak bias dari standar deviasi.
Scortchi

-1

Saya pikir ada baiknya menunjukkan koneksi ke estimasi Bayesian. Misalkan Anda menganggap data Anda Gaussian, dan Anda mengukur rata-rataμ dan varians σ2 dari sampel npoin. Anda ingin menarik kesimpulan tentang populasi. Pendekatan Bayesian akan mengevaluasi distribusi prediksi posterior atas sampel, yang merupakan distribusi T Student umum (asal-usul uji-T). Distribusi ini memiliki artiμ, dan varians

σ2(n+1n-1),

yang bahkan lebih besar dari koreksi tipikal. (Memiliki2n derajat kebebasan.)

Distribusi T Student yang digeneralisasi memiliki tiga parameter dan menggunakan ketiga statistik Anda. Jika Anda memutuskan untuk membuang beberapa informasi, Anda dapat memperkirakan lebih lanjut data Anda menggunakan distribusi normal dua parameter seperti yang dijelaskan dalam pertanyaan Anda.

Dari sudut pandang Bayesian, Anda dapat membayangkan bahwa ketidakpastian dalam hiperparameter model (distribusi di atas rata-rata dan varians) menyebabkan varians prediksi posterior lebih besar daripada varians populasi.


-4

Ya ampun, ini semakin rumit! Saya pikir jawaban sederhananya adalah ... jika Anda memiliki semua titik data, Anda dapat menggunakan "n" tetapi jika Anda memiliki "sampel" maka, dengan asumsi itu adalah sampel acak, Anda memiliki lebih banyak titik sampel dari dalam standar deviasi daripada dari luar (definisi standar deviasi). Anda hanya tidak memiliki cukup data di luar untuk memastikan Anda mendapatkan semua poin data yang Anda butuhkan secara acak. N-1 membantu memperluas menuju standar deviasi "nyata".


3
Ini tidak masuk akal. Lebih banyak poin dari dalam SD daripada di luar? Jika itu berarti dalam 1 SD dari mean versus tidak dalam, apakah itu benar tidak ada hubungannya dengan mengambil sampel. Untuk kendala yang diperlukan pada fraksi dalam interval di sekitar rata-rata, lihat ketimpangan Chebyshev. Untuk pertanyaan utama di sini, "membantu mengembangkan" tidak menjelaskann-1 sama sekali, bahkan memberikan argumen Anda n-2mungkin lebih baik lagi, dan sebagainya, karena tidak ada aljabar di sini, bahkan secara implisit. Sayangnya ini tidak menambah jawaban lain kecuali serangkaian ide yang membingungkan, baik salah atau tidak relevan.
Nick Cox
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.