Apa penjelasan intuitif yang ada untuk teorema limit pusat?


144

Dalam beberapa konteks yang berbeda kami menggunakan teorema batas pusat untuk membenarkan metode statistik apa pun yang ingin kami adopsi (misalnya, perkiraan distribusi binomial dengan distribusi normal). Saya memahami detail teknis mengapa teorema itu benar tetapi baru saja saya sadar bahwa saya tidak benar-benar memahami intuisi di balik teorema limit pusat.

Jadi, apa intuisi di balik teorema limit pusat?

Penjelasan awam akan ideal. Jika beberapa detail teknis diperlukan, silakan asumsikan bahwa saya memahami konsep pdf, cdf, variabel acak dll tetapi tidak memiliki pengetahuan tentang konsep konvergensi, fungsi karakteristik atau apa pun yang berkaitan dengan teori ukuran.


8
Pertanyaan yang bagus, meskipun reaksi langsung saya, didukung oleh pengalaman saya yang terbatas dalam mengajarkan ini, adalah bahwa CLT awalnya sama sekali tidak intuitif bagi kebanyakan orang. Jika ada, itu kontra-intuitif!
onestop

2
@pada AMEN! menatap distribusi binomial dengan p = 1/2 karena n meningkat memang menunjukkan CLT mengintai - tetapi intuisi untuk itu selalu lolos dari saya.
ronaf

2
Pertanyaan serupa dengan beberapa ide bagus: stats.stackexchange.com/questions/643/…

1
Bukan penjelasan tetapi simulasi ini bisa membantu memahaminya.
David Lane

Jawaban:


119

Saya minta maaf sebelumnya untuk panjang dari posting ini: itu dengan beberapa keraguan bahwa saya membiarkannya di depan umum sama sekali, karena butuh beberapa waktu dan perhatian untuk membaca dan tidak diragukan lagi memiliki kesalahan tipografi dan penyimpangan ekspositori. Tapi ini untuk mereka yang tertarik pada topik yang menarik, ditawarkan dengan harapan bahwa itu akan mendorong Anda untuk mengidentifikasi satu atau lebih dari banyak bagian CLT untuk penjabaran lebih lanjut dalam tanggapan Anda sendiri.


Sebagian besar upaya "menjelaskan" CLT adalah ilustrasi atau hanya pernyataan ulang yang menyatakan itu benar. Penjelasan yang benar-benar menembus dan benar harus menjelaskan banyak hal.

Sebelum melihat ini lebih jauh, mari kita perjelas apa yang dikatakan CLT. Seperti yang Anda semua tahu, ada versi yang bervariasi pada umumnya. Konteks umum adalah urutan variabel acak, yang merupakan jenis fungsi tertentu pada ruang probabilitas umum. Untuk penjelasan intuitif yang tahan dengan keras, saya merasa terbantu jika memikirkan ruang probabilitas sebagai sebuah kotak dengan objek yang dapat dibedakan. Tidak masalah apa objek itu tetapi saya akan menyebutnya "tiket." Kami membuat satu "pengamatan" dari sebuah kotak dengan mencampur secara menyeluruh tiket-tiket dan mengambil satu; tiket itu merupakan pengamatan. Setelah merekamnya untuk analisis nanti, kami mengembalikan tiket ke kotak sehingga isinya tetap tidak berubah. "Variabel acak" pada dasarnya adalah angka yang ditulis pada setiap tiket.

Pada 1733, Abraham de Moivre mempertimbangkan kasus satu kotak di mana angka pada tiket hanya nol dan satu ("persidangan Bernoulli"), dengan beberapa dari masing-masing nomor hadir. Dia membayangkan membuat fisik independen pengamatan, menghasilkan urutan nilai , yang semuanya nol atau satu. The sum dari nilai-nilai, , adalah acak karena istilah dalam jumlah yang. Oleh karena itu, jika kita dapat mengulangi prosedur ini berkali-kali, berbagai jumlah (bilangan bulat mulai dari hingga ) akan muncul dengan berbagai frekuensi - proporsi dari total. (Lihat histogram di bawah.)x 1 , x 2 , ... , x n y n = x 1 + x 2 + ... + x n 0 nnx1,x2,,xnyn=x1+x2++xn0n

Sekarang orang akan mengharapkan - dan memang benar - bahwa untuk nilai sangat besar , semua frekuensinya akan sangat kecil. Jika kita menjadi sangat berani (atau bodoh) untuk mencoba "mengambil batas" atau "biarkan pergi ke ", kita akan menyimpulkan dengan benar bahwa semua frekuensi dikurangi menjadi . Tetapi jika kita hanya menggambar histogram dari frekuensi, tanpa memperhatikan bagaimana kapaknya diberi label, kita melihat bahwa histogram untuk besar semua mulai terlihat sama: dalam beberapa hal, histogram ini mendekati batas meskipun frekuensi sendiri semua pergi ke nol.n 0 nnn0n

Histogram

Histogram ini menggambarkan hasil pengulangan prosedur untuk mendapatkan berkali-kali. adalah "jumlah percobaan" dalam judul. nynn

Wawasan di sini adalah untuk menggambar histogram terlebih dahulu dan memberi label kapaknya nanti . Dengan besar , histogram mencakup sejumlah besar nilai yang berpusat di sekitar (pada sumbu horizontal) dan interval nilai yang semakin kecil (pada sumbu vertikal), karena frekuensi individu tumbuh cukup kecil. Pas kurva ini ke wilayah merencanakan karena telah diperlukan baik pergeseran dan rescaling histogram. Deskripsi matematis dari ini adalah bahwa untuk setiap kita dapat memilih beberapa nilai sentral (belum tentu unik!) Untuk memposisikan histogram dan beberapa nilai skalan / 2 n m n s n y n z n = ( y n - m n ) / s nnn/2nmnsn(belum tentu unik!) agar pas dengan sumbu. Ini dapat dilakukan secara matematis dengan mengubah menjadi .ynzn=(ynmn)/sn

Ingat bahwa histogram mewakili frekuensi berdasarkan area di antara itu dan sumbu horizontal. Karenanya, stabilitas histogram ini untuk nilai harus dinyatakan dalam hal luas. n a b > a n z n ( a , b ] Jadi, pilih setiap interval nilai yang Anda suka, katakan dari ke dan, ketika bertambah, lacak area bagian histogram yang secara horizontal merentang interval . CLT menegaskan beberapa sesuatu:ab>anzn(a,b]

  1. Tidak peduli apa dan ,b ab jika kita memilih urutan dan tepat (dengan cara yang tidak bergantung pada atau sama sekali), area ini memang mendekati batas ketika menjadi besar.s n a b nmnsnabn

  2. Urutan dan dapat dipilih dengan cara yang hanya bergantung pada , rata-rata nilai dalam kotak, dan beberapa ukuran penyebaran nilai-nilai tersebut - tetapi tidak pada hal lain - sehingga terlepas dari apa yang ada di dalam kotak , batasnya selalu sama. (Properti universalitas ini luar biasa.)s n nmnsnn

  3. Secara khusus, area pembatas itu adalah area di bawah kurva antara dan : ini adalah rumus dari histogram pembatas universal itu. aby=exp(z2/2)/2πab

    Generalisasi pertama CLT menambahkan,

  4. Ketika kotak dapat berisi angka selain angka nol dan angka, kesimpulan yang sama persis berlaku (asalkan proporsi angka yang sangat besar atau kecil di dalam kotak tidak "terlalu besar," kriteria yang memiliki pernyataan kuantitatif yang tepat dan sederhana) .

    Generalisasi berikutnya, dan mungkin yang paling menakjubkan, menggantikan satu kotak tiket dengan deretan kotak yang tak terbatas dengan tiket. Setiap kotak dapat memiliki nomor yang berbeda pada tiketnya dalam proporsi yang berbeda. Pengamatan dilakukan dengan menggambar tiket dari kotak pertama, berasal dari kotak kedua, dan seterusnya.x 2x1x2

  5. Kesimpulan yang sama persis berlaku asalkan isi dari kotak-kotak itu "tidak terlalu berbeda" (ada beberapa karakterisasi kuantitatif yang tepat, tetapi berbeda, dari apa yang "tidak terlalu berbeda" artinya; mereka memberikan jumlah garis lintang yang mencengangkan).

Lima pernyataan ini, paling tidak, perlu dijelaskan. Masih ada lagi. Beberapa aspek penataan yang menarik tersirat dalam semua pernyataan. Sebagai contoh,

  • Apa yang istimewa dari jumlah tersebut ? Mengapa kita tidak memiliki teorema limit sentral untuk kombinasi angka matematika lainnya seperti produk atau maksimumnya? (Ternyata kita lakukan, tetapi mereka tidak begitu umum atau mereka selalu memiliki kesimpulan yang bersih dan sederhana kecuali mereka dapat direduksi menjadi CLT.) Urutan dan tidak unik tetapi mereka hampir unik dalam arti bahwa pada akhirnya mereka harus memperkirakan ekspektasi jumlah tiket dan standar deviasi jumlah, yang (dalam dua pernyataan pertama CLT, sama dengan dikali deviasi standar dari kotak). s n n mnsnnn

    Deviasi standar adalah salah satu ukuran penyebaran nilai, tetapi tidak berarti satu-satunya juga bukan yang paling "alami," baik secara historis atau untuk banyak aplikasi. (Banyak orang akan memilih sesuatu seperti median penyimpangan absolut dari median , misalnya.)

  • Mengapa SD muncul sedemikian penting?

  • Pertimbangkan rumus untuk histogram pembatas: siapa yang mengira akan mengambil bentuk seperti itu? Dikatakan logaritma densitas probabilitas adalah fungsi kuadratik . Mengapa? Apakah ada penjelasan intuitif atau jelas, menarik untuk ini?


Saya akui saya tidak dapat mencapai tujuan akhir untuk menyediakan jawaban yang cukup sederhana untuk memenuhi kriteria Srikant yang menantang untuk intuitif dan kesederhanaan, tetapi saya telah membuat sketsa latar belakang ini dengan harapan bahwa orang lain mungkin terinspirasi untuk mengisi beberapa celah yang banyak. Saya pikir demonstrasi yang baik pada akhirnya harus bergantung pada analisis dasar tentang bagaimana nilai antara dan dapat muncul dalam membentuk jumlah . Kembali ke versi kotak tunggal CLT, kasus distribusi simetris lebih mudah ditangani: mediannya sama dengan rata-ratanya, jadi ada kemungkinan 50% bahwa akan kurang dari rata-rata kotak dan peluang 50% bahwaβ n = b s n + m n x 1 + x 2 + + x n x i x i nαn=asn+mnβn=bsn+mnx1+x2++xnxixiakan lebih besar dari artinya. Selain itu, ketika cukup besar, penyimpangan positif dari rata-rata harus mengimbangi penyimpangan negatif dalam rata-rata. (Ini membutuhkan pembenaran yang hati-hati, bukan hanya melambaikan tangan.) Jadi, kita terutama harus khawatir tentang menghitung jumlah penyimpangan positif dan negatif dan hanya memiliki keprihatinan sekunder tentang ukuran mereka .n (Dari semua hal yang telah saya tulis di sini, ini mungkin yang paling berguna dalam memberikan beberapa intuisi tentang mengapa CLT bekerja. Memang, asumsi teknis yang diperlukan untuk membuat generalisasi CLT benar pada dasarnya adalah berbagai cara untuk mengesampingkan kemungkinan bahwa penyimpangan besar yang jarang akan mengganggu keseimbangan cukup untuk mencegah timbulnya histogram yang membatasi.)

Bagaimanapun, ini menunjukkan, mengapa generalisasi pertama CLT tidak benar-benar mengungkap apa pun yang tidak ada dalam versi uji coba Bernoulli asli de Moivre.

Pada titik ini sepertinya tidak ada untuk itu tapi untuk melakukan sedikit matematika: kita perlu menghitung jumlah cara yang berbeda di mana jumlah penyimpangan positif dari mean dapat berbeda dari jumlah penyimpangan negatif oleh nilai yang telah ditentukan , di mana jelas adalah salah satu . Tetapi karena kesalahan yang semakin kecil akan menghilang dalam batas, kita tidak harus menghitung dengan tepat; kita hanya perlu memperkirakan jumlah. Untuk tujuan ini cukup untuk mengetahui hal ituk - n , - n + 2 , , n - 2 , nkkn,n+2,,n2,n

The number of ways to obtain k positive and nk negative values out of n

equals nk+1k

times the number of ways to get k1 positive and nk+1 negative values.

(Itu hasil yang sangat dasar sehingga saya tidak akan repot-repot menuliskan pembenarannya.) Sekarang kami memperkirakan grosir. Frekuensi maksimum terjadi ketika sedekat mungkin dengan (juga elementer). Mari kita menulis . Kemudian, relatif terhadap frekuensi maksimum, frekuensi deviasi positif ( ) diperkirakan oleh produkn / 2 m = n / 2 m + j + 1 j 0kn/2m=n/2m+j+1j0

m+1m+1mm+2mj+1m+j+1

=11/(m+1)1+1/(m+1)12/(m+1)1+2/(m+1)1j/(m+1)1+j/(m+1).

135 tahun sebelum de Moivre menulis, John Napier menemukan logaritma untuk menyederhanakan multiplikasi, jadi mari kita manfaatkan ini. Menggunakan aproksimasi

log(1x1+x)2x,

kami menemukan bahwa log dari frekuensi relatif adalah sekitar

2/(m+1)4/(m+1)2j/(m+1)=j(j+1)m+1j2m.

Karena kesalahan kumulatif sebanding dengan , ini seharusnya bekerja dengan baik asalkan relatif kecil dibandingkan dengan . Itu mencakup rentang nilai daripada yang dibutuhkan. (Itu cukup untuk perkiraan untuk bekerja hanya untuk pada urutan yang secara asimptot jauh lebih kecil dari .)j4/m3j4m3jjmm3/4


Jelas jauh lebih banyak analisis semacam ini harus disajikan untuk membenarkan pernyataan lain dalam CLT, tetapi saya kehabisan waktu, ruang, dan energi dan saya mungkin kehilangan 90% orang yang mulai membaca ini juga. Perkiraan sederhana ini, bagaimanapun, menunjukkan bagaimana de Moivre mungkin awalnya menduga bahwa ada distribusi pembatasan universal, bahwa logaritma adalah fungsi kuadratik, dan bahwa faktor skala yang tepat harus proporsional dengan (karena ).sn j2/m=2j2/n=2(j/nj2/m=2j2/n=2(j/n)2 Sulit membayangkan bagaimana hubungan kuantitatif yang penting ini dapat dijelaskan tanpa memohon semacam informasi dan alasan matematika; sesuatu yang kurang akan meninggalkan bentuk yang tepat dari kurva pembatas menjadi misteri yang lengkap.


5
+1 Saya perlu waktu untuk mencerna jawaban Anda. Saya akui bahwa meminta intuisi untuk CLT dalam batasan yang saya berikan mungkin hampir mustahil.

2
Terima kasih telah meluangkan waktu untuk menulis ini, ini adalah paparan paling bermanfaat dari CLT yang pernah saya lihat yang juga sangat mudah diakses secara matematis.
jeremy radcliff

1
Ya, cukup padat .... banyak sekali pertanyaan. Bagaimana histogram pertama memiliki 2 bilah (hanya ada 1 percobaan!); bisakah saya mengabaikannya? Dan konvensi biasanya untuk menghindari kesenjangan horizontal antara batang histogram, kan? (karena, seperti yang Anda katakan, area itu penting, dan area itu pada akhirnya akan dihitung melalui domain kontinu (yaitu tidak ada kesenjangan))? Jadi saya akan mengabaikan celahnya juga ...? Bahkan saya memiliki celah ketika saya pertama kali mencoba memahaminya :)
The Red Pea

1
@TheRed Terima kasih atas pertanyaan Anda. Saya telah mengedit bagian pertama dari posting ini untuk membuat poin-poin ini sedikit lebih jelas.
whuber

4
Ah, ya, saya bingung "jumlah percobaan = =" pengamatan "" dengan "berapa kali (seluruh prosedur ini) diulang". Jadi, jika tiket hanya dapat memiliki nilai dari dua nilai, 0 atau 1 , dan Anda hanya mengamati satu tiket, jumlah nilai tiket tersebut hanya dapat menjadi satu dari dua hal: 0, atau 1 . Karenanya histogram pertama Anda memiliki dua batang. Selain itu, batang ini tingginya kira-kira sama karena kami memperkirakan 0 dan 1 terjadi dalam proporsi yang sama. n
Kacang Merah

27

Animasi terbaik yang saya tahu: http://www.ms.uky.edu/~mai/java/stat/GaltonMachine.html

8 lapisan horizontal pin dengan jarak yang sama, masing-masing lapisan terhuyung-huyung, menghasilkan hambatan gaya "pachinko / pinball" untuk bola yang jatuh melalui pin ini.  Setiap bola jatuh di bagian bawah, dan saat bola menumpuk, tingginya mendekati garis besar kurva Gaussian.  Ini menggambarkan bahwa jumlah dari banyak peristiwa acak independen (lapisan-lapisan), akan menghasilkan distribusi hasil Gaussian (ketinggian bola yang ditumpuk)

Kata-kata paling sederhana yang saya baca: http://elonen.iki.fi/articles/centrallimit/index.en.html

Jika Anda menjumlahkan hasil dari sepuluh lemparan ini, apa yang Anda dapatkan cenderung mendekati 30-40 dari maksimum, 60 (semua berenam) atau di sisi lain, minumum, 10 (semua yang).

Alasan untuk ini adalah bahwa Anda bisa mendapatkan nilai tengah dalam banyak cara yang lebih berbeda daripada yang ekstrem. Contoh: saat melempar dua dadu: 1 + 6 = 2 + 5 = 3 + 4 = 7, tetapi hanya 1 + 1 = 2 dan hanya 6 + 6 = 12.

Yaitu: meskipun Anda mendapatkan salah satu dari enam angka yang sama-sama berpeluang ketika melempar satu dadu, ekstrem lebih kecil kemungkinannya daripada nilai tengah dalam jumlah beberapa dadu.


20

Intuisi adalah hal yang sulit. Bahkan lebih rumit dengan teori di tangan kita terikat di belakang.

CLT adalah semua tentang jumlah kecil, gangguan independen. "Jumlah" dalam arti sampel berarti, "kecil" dalam arti varian terbatas (dari populasi), dan "gangguan" dalam arti plus / minus di sekitar nilai pusat (populasi).

Bagi saya, perangkat yang paling menarik untuk intuisi adalah quincunx, atau 'kotak Galton', lihat Wikipedia (untuk 'mesin kacang'?) Idenya adalah untuk menggulingkan bola kecil kecil ke muka papan yang dihiasi oleh kisi-kisi. pin yang berjarak sama. Dalam perjalanan menuruni bola mengalihkan kanan dan kiri (... secara acak, mandiri) dan mengumpulkan di bagian bawah. Seiring waktu, kita melihat bentuk gundukan lonceng yang bagus tepat di depan mata kita.

CLT mengatakan hal yang sama. Ini adalah deskripsi matematis dari fenomena ini (lebih tepatnya, quincunx adalah bukti fisik untuk perkiraan normal terhadap distribusi binomial). Secara longgar, CLT mengatakan bahwa selama populasi kita tidak terlalu keliru (yaitu, jika ekor PDF cukup tipis), maka mean sampel (diskalakan dengan benar) berperilaku seperti bola kecil yang memantul di wajah quincunx: kadang jatuh ke kiri, kadang jatuh ke kanan, tapi sebagian besar jatuh tepat di tengah, dalam bentuk lonceng yang bagus.

Keagungan CLT (bagi saya) adalah bahwa bentuk populasi yang mendasarinya tidak relevan. Bentuk hanya memainkan peran sejauh itu mendelegasikan lamanya waktu yang perlu kita tunggu (dalam arti ukuran sampel).


17

Pengamatan tentang CLT mungkin sebagai berikut. Ketika Anda memiliki jumlah dari banyak komponen acak, jika satu "lebih kecil dari biasanya" maka ini sebagian besar dikompensasi oleh beberapa komponen lain yang "lebih besar dari biasanya". Dengan kata lain, penyimpangan negatif dan penyimpangan positif dari komponen berarti membatalkan satu sama lain dalam penjumlahan. Secara pribadi, saya tidak punya intuisi yang jelas mengapa sebenarnya penyimpangan yang tersisa membentuk distribusi yang terlihat lebih dan lebih normal, semakin banyak istilah yang Anda miliki.

S=X1+X2++Xn

Ada banyak versi CLT, beberapa lebih kuat dari yang lain, beberapa dengan kondisi santai seperti ketergantungan moderat antara istilah dan / atau distribusi tidak identik untuk persyaratan. Dalam sederhana-untuk-membuktikan versi CLT, buktinya biasanya didasarkan pada fungsi saat-pembangkit (atau Laplace-Stieltjes mengubah atau lain yang sesuai Transformasi kepadatan) dari jumlah . Menulis ini sebagai ekspansi Taylor dan menjaga hanya istilah yang paling dominan memberi Anda fungsi penghasil momen dari distribusi normal. Jadi bagi saya pribadi, normalitas adalah sesuatu yang mengikuti dari banyak persamaan dan saya tidak dapat memberikan intuisi lebih jauh dari itu.S

Namun perlu dicatat bahwa distribusi jumlah, tidak pernah benar - benar terdistribusi normal, juga tidak CLT mengklaim itu. Jika adalah terbatas, masih ada jarak ke distribusi normal dan jika baik rerata dan variansnya juga tidak terbatas. Dalam kasus terakhir, Anda dapat mengambil rata-rata dari jumlah tak terbatas, tetapi kemudian Anda mendapatkan angka deterministik tanpa varians sama sekali, yang hampir tidak dapat diberi label sebagai "terdistribusi normal".nn=

Ini dapat menimbulkan masalah dengan aplikasi praktis CLT. Biasanya, jika Anda tertarik pada distribusi dekat dengan pusatnya, CLT berfungsi dengan baik. Namun, konvergensi ke normal tidak seragam di mana-mana dan semakin jauh Anda menjauh dari pusat, semakin banyak istilah yang Anda butuhkan untuk memiliki perkiraan yang masuk akal.S/n

Dengan semua "kesucian" dari Teorema Limit Pusat dalam statistik, keterbatasannya sering diabaikan dengan terlalu mudah. Di bawah ini saya memberikan dua slide dari kursus saya membuat titik bahwa CLT benar-benar gagal di bagian ekor, dalam kasus penggunaan praktis. Sayangnya, banyak orang secara khusus menggunakan CLT untuk memperkirakan probabilitas ekor, secara sadar atau tidak.

masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini


5
Ini adalah saran yang bagus dan bijaksana. Sayangnya, saya tidak dapat mengatasinya, karena pernyataan dalam "Normalitas ini adalah artefak matematika dan saya pikir tidak berguna untuk mencari kebenaran atau intuisi di baliknya" sangat meresahkan. Mereka tampaknya menyarankan bahwa (1) kita tidak seharusnya bergantung pada matematika untuk membantu kita secara teoritis dan (2) tidak ada gunanya memahami matematika di tempat pertama. Saya berharap bahwa posting lain di utas ini sudah berjalan jauh ke arah membuktikan pernyataan kedua. Yang pertama sangat tidak konsisten sehingga sulit untuk dianalisis lebih lanjut.
whuber

2
@whuber. Anda benar, saya mungkin keluar dari liga saya. Saya akan mengedit.
StijnDeVuyst

3
Terima kasih telah mempertimbangkan kembali bagian yang bermasalah, dan +1 besar untuk sisanya.
whuber

7

Jawaban ini berharap untuk memberikan makna intuitif teorema limit pusat, menggunakan teknik kalkulus sederhana (Taylor ekspansi orde 3). Inilah garis besarnya:

  1. Apa kata CLT
  2. Bukti intuitif dari CLT menggunakan kalkulus sederhana
  3. Kenapa distribusi normal?

Kami akan menyebutkan distribusi normal di bagian paling akhir; karena fakta bahwa distribusi normal akhirnya muncul tidak tahan banyak intuisi.

1. Apa yang dikatakan teorema limit pusat? Beberapa versi CLT

xX1,,Xn

P(X1++Xnnx)n+xet2/22πdt.
X1.,,XnZ1,,Zn
E[f(X1++Xnn)]E[f(Z1++Znn)]n+0
fx
f(t)={1 if t<x0 if tx.
X1,,XnZ1,,Zn

Beberapa versi lain dari CLT menyebutkan kelas fungsi Lipschtiz yang dibatasi oleh 1; beberapa versi lain dari CLT menyebutkan kelas fungsi halus dengan turunan terbatas dari order . Pertimbangkan dua urutan dan seperti di atas, dan untuk beberapa fungsi , hasil konvergensi (CONV)kX1,,XnZ1,,Znf

(CONV)E[f(X1++Xnn)]E[f(Z1++Znn)]n+0

Dimungkinkan untuk menetapkan kesetaraan ("jika dan hanya jika") antara pernyataan berikut:

  1. (CONV) di atas berlaku untuk setiap fungsi indikator dari bentuk untuk dan untuk untuk beberapa real tetap .ff(t)=1t<xf(t)=0txx
  2. (CONV) berlaku untuk setiap dibatasi fungsi Lipschitz .f:RR
  3. (CONV) berlaku untuk setiap fungsi halus (yaitu, ) dengan dukungan yang ringkas.C
  4. (CONV) berlaku untuk setiap fungsi tiga kali dapat dibedakan secara terus menerus dengan .fsupxR|f(x)|1

Masing-masing dari 4 poin di atas mengatakan bahwa konvergensi berlaku untuk kelas fungsi yang besar. Dengan argumen pendekatan teknis, orang dapat menunjukkan bahwa keempat poin di atas adalah setara, kami merujuk pembaca ke Bab 7, halaman 77 dari buku David Pollard. Panduan pengguna untuk mengukur probabilitas teoretis dari mana jawaban ini sangat terinspirasi.

Asumsi kami untuk sisa jawaban ini ...

Kami akan menganggap bahwa untuk beberapa konstanta , yang sesuai dengan poin 4 di atas. Kami juga akan mengasumsikan bahwa variabel acak memiliki terbatas, dibatasi momen ketiga: dan adalah terbatas.supxR|f(x)|CC>0E[|Xi|3]E[|Zi|3]

2. Nilai bersifat universal: tidak bergantung pada distribusiE[f(X1++Xnn)]X1,...,Xn

Mari kita tunjukkan bahwa kuantitas ini bersifat universal (hingga istilah kesalahan kecil), dalam arti tidak tergantung pada kumpulan variabel acak independen mana yang disediakan. Ambil dan dua urutan variabel acak independen, masing-masing dengan mean 0 dan varians 1, dan momen ketiga terbatas.X1,,XnZ1,,Zn

Idenya adalah untuk mengganti dengan secara dalam salah satu kuantitas dan mengendalikan perbedaan dengan kalkulus dasar (idenya, saya percaya, adalah karena Lindeberg). Dengan ekspansi Taylor, jika , dan maka mana danXiZiW=Z1++Zn1h(x)=f(x/n)

h(Z1++Zn1+Xn)=h(W)+Xnh(W)+Xn2h(W)2+Xn3/h(Mn)6h(Z1++Zn1+Zn)=h(W)+Znh(W)+Zn2h(W)2+Zn3h(Mn)6
MnMnadalah titik tengah yang diberikan oleh teorema nilai rata-rata. Mengambil ekspektasi pada kedua baris, syarat urutan adalah sama, ketentuan urutan pertama sama dalam ekspektasi karena dengan independensi dan , dan juga untuk baris kedua. Sekali lagi dengan kemerdekaan, syarat orde kedua sama dalam ekspektasi. Satu-satunya istilah yang tersisa adalah urutan ketiga, dan dengan harapan perbedaan antara dua baris paling banyak adalah Di sini adalah batas atas pada turunan ketiga dari . Penyebut muncul karenaXnWE[Xnh(W)]=E[Xn]E[h(W)]=0

(C/6)E[|Xn|3+|Zn|3](n)3.
Cf(n)3h(t)=f(t/n)/(n)3 . Dengan independensi, kontribusi dalam jumlah tidak ada artinya karena dapat digantikan oleh tanpa menimbulkan kesalahan yang lebih besar dari tampilan di atas!XnZn

Kami sekarang mengulangi untuk mengganti dengan . Jika maka Dengan independensi dan , dan dengan independensi danXn1Zn1W~=Z1+Z2++Zn2+Xn

h(Z1++Zn2+Xn1+Xn)=h(W~)+Xn1h(W~)+Xn12h(W~)2+Xn13/h(M~n)6h(Z1++Zn2+Zn1+Xn)=h(W~)+Zn1h(W~)+Zn12h(W~)2+Zn13/h(M~n)6.
Zn1W~Xn1W~, sekali lagi, nol, ketentuan urutan pertama dan kedua sama dalam ekspektasi untuk kedua jalur. Perbedaan dalam harapan antara kedua baris paling banyak lagi adalah Kami terus mengulangi sampai kami mengganti semua dengan . Dengan menambahkan kesalahan yang dibuat pada setiap langkah , kita memperoleh sebagai

(C/6)E[|Xn1|3+|Zn1|3](n)3.
ZiXin
|E[f(X1++Xnn)]E[f(Z1++Znn)]|n(C/6)maxi=1,,nE[|Xi|3+|Zi|3](n)3.
nmeningkat, sisi kanan menjadi sewenang-wenang kecil jika momen ketiga atau variabel acak terbatas (mari kita asumsikan demikian). Ini berarti bahwa harapan di sebelah kiri menjadi dekat secara sewenang-wenang satu sama lain, tidak peduli apakah distribusi jauh dari . Dengan independensi, kontribusi setiap dalam jumlah tidak ada artinya karena dapat digantikan oleh tanpa menimbulkan kesalahan yang lebih besar dari . Dan mengganti semua dengan tidak mengubah kuantitas lebih dari .X1,,XnZ1,,ZnXiZiO(1/(n)3)XiZiO(1/n)

Harapan bersifat universal, tidak bergantung pada distribusi . Di sisi lain, independensi dan adalah yang paling penting untuk batas-batas di atas.E[f(X1++Xnn)]X1,,XnE[Xi]=E[Zi]=0,E[Zi2]=E[Xi2]=1

3. Mengapa distribusi normal?

Kita telah melihat bahwa ekspektasi akan tetap sama tidak peduli apa pun distribusi , hingga kesalahan pesanan kecil .E[f(X1++Xnn)]XiO(1/n)

Tetapi untuk aplikasi, akan berguna untuk menghitung jumlah tersebut. Hal ini juga akan berguna untuk mendapatkan ekspresi sederhana untuk kuantitas ini .E[f(X1++Xnn)]

Karena jumlah ini sama untuk setiap koleksi , kami dapat dengan mudah memilih satu koleksi tertentu sehingga distribusi mudah untuk dihitung atau diingat.X1,,Xn(X1++Xn)/n

Untuk distribusi normal , kebetulan jumlah ini menjadi sangat sederhana. Memang, jika adalah iid maka juga memiliki distribusi dan tidak bergantung pada ! Karenanya jika , maka dan dengan argumen di atas, untuk kumpulan variabel acak independen dengan , laluN(0,1)Z1,,ZnN(0,1)Z1++ZnnN(0,1)nZN(0,1)

E[f(Z1++Znn)]=E[f(Z)],
X1,,XnE[Xi]=0,E[Xi2]=1

|E[f(X1++Xnn)]E[f(Z)|supxR|f(x)|maxi=1,,nE[|Xi|3+|Z|3]6n.

Anda tampaknya menegaskan hukum jumlah besar daripada CLT.
whuber

1
Saya tidak yakin mengapa Anda mengatakan ini, @whuber. Di atas memberikan bukti intuitif bahwa konvergen ke mana untuk kelas fungsi yang besar . Ini adalah CLT. E[f(Z)]ZN(0,1)fE[f((X1+...+Xn)/n)]E[f(Z)]ZN(0,1)f
jlewk

2
Saya mengerti apa yang kamu maksud. Yang membuat saya berhenti adalah bahwa pernyataan Anda hanya menyangkut harapan dan bukan distribusi, sedangkan CLT menarik kesimpulan tentang distribusi terbatas. Kesetaraan antara keduanya mungkin tidak segera terbukti bagi banyak orang. Mungkinkah saya menyarankan agar Anda memberikan koneksi eksplisit antara pernyataan Anda dan pernyataan CLT yang biasa dalam hal membatasi distribusi? (1 dengan cara: terima kasih untuk mengelaborasi argumen ini.)
whuber

1

Saya menyerah untuk mencoba menampilkan versi intuitif dan membuat beberapa simulasi. Saya punya satu yang menyajikan simulasi Quincunx dan beberapa lainnya yang melakukan hal-hal seperti menunjukkan bagaimana bahkan distribusi waktu reaksi mentah yang miring akan menjadi normal jika Anda mengumpulkan cukup RT per subjek. Saya pikir mereka membantu tetapi mereka baru di kelas saya tahun ini dan saya belum menilai ujian pertama.

Satu hal yang saya pikir baik adalah bisa menunjukkan hukum sejumlah besar juga. Saya bisa menunjukkan bagaimana hal-hal variabel dengan ukuran sampel kecil dan kemudian menunjukkan bagaimana mereka stabil dengan yang besar. Saya melakukan banyak demo besar lainnya juga. Saya dapat menunjukkan interaksi dalam Quincunx antara jumlah proses acak dan jumlah sampel.

(Ternyata tidak bisa menggunakan kapur tulis atau papan tulis di kelas saya mungkin merupakan berkah)


Hai John: senang melihat Anda kembali dengan pos ini setelah hampir sembilan tahun! Akan menarik untuk membaca tentang pengalaman yang Anda miliki sementara itu dengan penggunaan simulasi untuk mengajarkan gagasan CLT dan LLNs.
whuber

Saya berhenti mengajar kelas itu setahun kemudian, tetapi instruktur berikutnya mengambil ide simulasi. Bahkan, ia membawanya lebih jauh dan telah mengembangkan serangkaian aplikasi yang mengkilap dan membuat siswa bermain dengan simulasi untuk banyak hal dalam kelas 250 orang. Sejauh yang saya tahu dari mengajar kelas atas, para siswa tampaknya mendapatkan banyak dari itu. Perbedaan antara murid-muridnya dan mereka yang dari kelas pengumpan setara terlihat. (tapi, tentu saja, ada banyak variabel yang tidak terkontrol di sana)
John

Terima kasih, John. Sangat tidak biasa untuk mendapatkan umpan balik anekdotal tentang kinerja siswa yang bertahan setelah kelas selesai sehingga saya bahkan menemukan informasi menarik yang terbatas ini.
whuber

-8

Ketika Anda menambahkan banyak histogram distribusi acak bersama-sama Anda mempertahankan bentuk distribusi normal karena semua histogram individu sudah memiliki bentuk itu atau Anda mendapatkan bentuk itu karena fluktuasi dalam histogram individu cenderung untuk membatalkan satu sama lain jika Anda menambahkan besar jumlah histogram. Histogram dari distribusi acak dari satu variabel sudah kira-kira didistribusikan dengan cara yang orang sudah mulai memanggil distribusi normal karena itu sangat umum dan itu adalah mikrokosmos dari teorema limit pusat.

Ini bukan keseluruhan cerita tetapi saya pikir ini intuitif seperti yang didapatnya.


2
Deskripsi Anda tentang "distribusi normal" sebaliknya terdengar seperti versi diskrit dari eksponensial ganda, yang bahkan tidak jauh seperti distribusi normal Gaussian (kecuali sejauh keduanya unimodal dan simetris). Histogram flips koin tidak memiliki bilah yang berkurang dengan faktor pada setiap langkah! Itu menunjukkan bahwa mungkin ada beberapa kesulitan yang mengintai penjelasan ini yang telah ditulis oleh permohonan untuk "intuisi." 2
whuber

5
Jawaban ini kebanyakan tidak masuk akal. Tidak ada jumlah flips dari koin yang adil akan menghasilkan distribusi jumlah kepala yang memiliki probabilitas ; memang itu bahkan bukan fungsi massa probabilitas! Juga tidak dengan jumlah kepala berturut-turut ada hubungannya dengan pertanyaan. 18,14,12,14,18
Dilip Sarwate
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.