Adakah penjelasan mengapa ada begitu banyak fenomena alam yang mengikuti distribusi normal?


29

Saya pikir ini adalah topik yang menarik dan saya tidak sepenuhnya memahaminya. Apa hukum fisika dibuat sehingga begitu banyak fenomena alam memiliki distribusi normal? Tampaknya lebih intuitif bahwa mereka akan memiliki distribusi yang seragam.

Sangat sulit bagi saya untuk memahami hal ini dan saya merasa saya kehilangan beberapa informasi. Adakah yang bisa membantu saya dengan penjelasan yang bagus atau menautkan saya ke buku / video / artikel?



7
Apakah Anda memiliki alasan kuat untuk berpikir bahwa premis Anda sebenarnya adalah masalahnya?
Glen_b -Reinstate Monica

4
Sebenarnya, distribusi normal mungkin bukan distribusi "dominan" di alam. Ada banyak fenomena dan perilaku yang dinilai ekstrem, berekor berat atau menggambarkan fungsi hukum kekuasaan. Gabaix dokumen banyak varian ekonomi dan keuangan dari kelas ini distribusi dalam makalahnya Daya Hukum Ekonomi: Sebuah Pengantar , ungated sini ... pages.stern.nyu.edu/~xgabaix/papers/pl-jep.pdf Shalizi, et Al. diskusikan estimasi empiris mereka dalam makalah ini Distribusi Daya-Hukum dalam Data Empiris , ungated di sini ... santafe.edu/media/workingpapers/07-12-049.pdf
Mike Hunter

Siapa yang bilang distribusi normal itu dominan?
shadowtalker

1
@ Johnson +1 untuk tautan, tetapi penting untuk menunjukkan bahwa temuan kunci dalam Clauset et al. kertas adalah bahwa tidak ada terlalu banyak distribusi hukum kekuasaan empiris yang sangat didukung! Mengutip temuan, "Hanya dalam satu kasus — distribusi frekuensi kemunculan kata-kata dalam teks bahasa Inggris - undang-undang kekuasaan tampaknya benar-benar meyakinkan dalam arti bahwa itu sangat sesuai dengan data dan tidak ada alternatif yang membawa apa pun. berat."
Sycorax berkata Reinstate Monica

Jawaban:


31

Biarkan saya mulai dengan menyangkal premis. Robert Geary mungkin tidak melebih-lebihkan kasus ketika dia berkata (pada 1947) " ... normalitas adalah mitos; tidak pernah ada, dan tidak akan pernah ada, distribusi normal. " -
distribusi normal adalah model *, sebuah pendekatan yang terkadang lebih atau kurang bermanfaat.

* (tentang hal itu, lihat George Box , meskipun saya lebih suka versi di profil saya).

Bahwa beberapa fenomena mendekati normal mungkin bukan kejutan besar, karena jumlah efek independen [atau bahkan tidak terlalu berkorelasi kuat] harus, jika ada banyak dari mereka dan tidak ada yang memiliki varian yang substansial dibandingkan dengan varian dari Jumlah sisanya yang mungkin kita lihat distribusi cenderung terlihat lebih normal.

Teorema batas pusat (yaitu tentang konvergensi ke distribusi normal dari sampel standar berarti sebagai n menuju tak terhingga dalam beberapa kondisi ringan) setidaknya menunjukkan bahwa kita mungkin melihat kecenderungan menuju normalitas itu dengan ukuran sampel yang cukup besar tetapi terbatas.

Tentu saja jika cara standar sekitar normal, jumlah standar akan; ini adalah alasan untuk alasan "jumlah banyak efek". Jadi, jika ada banyak kontribusi kecil untuk variasi, dan mereka tidak sangat berkorelasi, Anda mungkin cenderung melihatnya.

Teorema Berry-Esseen memberi kita pernyataan tentang hal itu (konvergensi menuju distribusi normal) benar-benar terjadi dengan sarana sampel standar untuk data iid (di bawah kondisi yang sedikit lebih ketat daripada CLT, karena mengharuskan momen absolut ketiga terbatas), karena serta memberi tahu kami tentang seberapa cepat itu terjadi. Versi berikutnya dari teorema ini berhubungan dengan komponen-komponen yang tidak terdistribusi secara identik dalam penjumlahan , meskipun batas atas pada penyimpangan dari normalitas kurang ketat.

Kurang formal, perilaku konvolusi dengan distribusi yang cukup bagus memberi kita tambahan (meskipun terkait erat) alasan untuk mencurigai itu mungkin cenderung menjadi perkiraan yang adil dalam sampel terbatas dalam banyak kasus. Konvolusi bertindak sebagai semacam operator "mengolesi" yang orang-orang yang menggunakan estimasi kepadatan kernel di berbagai kernel akan terbiasa dengan; setelah Anda membuat standar hasilnya (sehingga varians tetap konstan setiap kali Anda melakukan operasi seperti itu), jelas ada perkembangan menuju bentuk bukit yang semakin simetris saat Anda berulang kali menghaluskan (dan tidak masalah jika Anda mengganti kernel setiap kali).

Terry Tao memberikan beberapa diskusi yang bagus tentang versi teorema limit Tengah dan teorema Berry-Esseen sini , dan di sepanjang jalan menyebutkan pendekatan ke versi Berry-Esseen yang tidak independen.

Jadi ada setidaknya satu kelas situasi di mana kita mungkin berharap melihatnya, dan alasan formal untuk berpikir itu akan cenderung terjadi dalam situasi itu. Namun, paling banter bahwa hasil dari "jumlah banyak efek" akan normal adalah perkiraan. Dalam banyak kasus ini adalah perkiraan yang cukup masuk akal (dan dalam kasus-kasus tambahan meskipun perkiraan distribusi tidak dekat, beberapa prosedur yang menganggap normalitas tidak terlalu sensitif terhadap distribusi nilai-nilai individual, setidaknya dalam sampel besar).

Ada banyak keadaan lain di mana efek tidak "menambah" dan di sana kita dapat mengharapkan hal-hal lain terjadi; misalnya, dalam banyak data keuangan, efek cenderung bersifat multiplikasi (efek akan memindahkan jumlah dalam persentase, seperti bunga dan inflasi dan nilai tukar misalnya). Di sana kita tidak mengharapkan normalitas, tetapi terkadang kita mungkin mengamati perkiraan kasar terhadap normalitas pada skala log. Dalam situasi lain tidak ada yang cocok, bahkan dalam arti kasar. Misalnya, waktu antar-peristiwa umumnya tidak akan didekati dengan baik oleh normalitas atau normalitas log; tidak ada "jumlah" atau "produk" dari efek untuk diperdebatkan di sini. Ada banyak fenomena lain yang bisa kita bahas untuk "hukum" tertentu dalam keadaan tertentu.


12
+1. Argumen Anda mulai menyarankan - cukup masuk akal, dalam pandangan saya - bahwa mungkin ada jawaban psikologis untuk pertanyaan, seperti groupthink: ketika semua orang di bidang Anda melihat distribusi normal, siapa yang akan Anda katakan sebaliknya? Ini akan berlaku terutama untuk bidang penyelidikan di mana prosedur statistik dipandang sebagai alat pejalan kaki, mungkin perlu untuk menguduskan makalah untuk publikasi, tetapi selain itu memiliki nilai atau kepentingan yang kecil.
whuber

2
Untuk memberikan contoh spesifik, ketika Quetelet menemukan BMI (Indeks Massa Tubuh), ia secara eksplisit melakukannya dengan cara yang menghasilkan kuantitas yang didistribusikan secara normal. Kami membicarakannya di sini: stats.stackexchange.com/questions/64171/…
Matt Krause

Tampaknya bagi saya bahwa semua orang mencoba untuk menghindari pertanyaan ini daripada menjawabnya.
Digio

Geary adalah ahli statistik, jadi tidak heran dia menganggap normalitas hanyalah mitos. Jika dia seorang fisikawan, dia akan melihatnya secara berbeda.
Aksakal

Komentar bukan untuk diskusi panjang; percakapan ini telah dipindahkan ke obrolan .
Glen_b -Reinstate Monica

20

Ada pepatah terkenal oleh Gabriel Lippmann (fisikawan, penerima hadiah Nobel), seperti yang diceritakan oleh Poincaré:

[Distribusi normal] tidak dapat diperoleh dengan deduksi yang ketat. Beberapa bukti diduga adalah [...]. Meskipun demikian, semua orang mempercayainya, seperti yang dikatakan M. Lippmann kepada saya suatu hari, karena para peneliti membayangkannya sebagai teorema matematika, sedangkan matematikawan membayangkannya sebagai fakta eksperimental.

- Henri Poincaré, Le calcul des Probabilités . 1896

[Cette loi] ne s'obtient pas par des déductions rigoureuses; ditambah d'une démonstration qu'on a voulu en donner est grossière [...]. Tout le monde y croit cependant, saya disait un jour M. Lippmann, mobil les expérimentateurs s'imaginent que c'est un théorème de mathématiques, dan les mathématiciens que c'est un fait expérimental.

Tampaknya kami tidak memiliki kutipan ini di utas Daftar Kutipan Statistik kami, itu sebabnya saya pikir akan lebih baik untuk mempostingnya di sini.


Sebuah downvote? Seseorang di sini diam-diam membenci Poincare?
Amuba kata Reinstate Monica

Pengetahuan fisika saya berakhir dengan apa yang saya pelajari di sekolah menengah, tetapi bukankah Gauss awalnya mempelajari distribusi dalam konteks persamaan normal dari fisika? Itu kesan saya di Wikipedia bahwa kesalahan Gaussian jatuh secara alami dari beberapa model fisika klasik
shadowtalker

2
Kita harus lebih menghormati Lippmann sebagai penulis bon mot ini . Gabriel Lippmann adalah pemenang Hadiah Nobel dalam Fisika. (M. di sini hanya berarti Tuan, naturellement.)
Nick Cox

3
@ssdecontrol Seingat saya, Gauss tertarik pada kesalahan pengamatan normal , terutama dalam astronomi dan geodesi, tetapi cukup pintar untuk mengetahui bahwa asumsi itu dipertanyakan. (Dia juga, misalnya, menggunakan deviasi absolut median dari median sebagai ukuran penyebaran yang resisten pada tahun 1816).
Nick Cox

Cukup adil, @Nick. Saya mengedit untuk mengklarifikasi.
Amuba kata Reinstate Monica

7

Apa hukum fisika dibuat sehingga begitu banyak fenomena alam memiliki distribusi normal? Tampaknya lebih intuitif bahwa mereka akan memiliki distribusi yang seragam.

Distribusi normal adalah tempat umum dalam ilmu alam. Penjelasan yang biasa adalah mengapa hal itu terjadi dalam kesalahan pengukuran adalah melalui beberapa bentuk sejumlah besar atau alasan sentral limit (CLT), yang biasanya berjalan seperti ini: "karena hasil percobaan dipengaruhi oleh gangguan dalam jumlah besar yang datang dari sumber yang tidak terkait CLT menunjukkan bahwa kesalahan biasanya terdistribusi ". Misalnya, inilah kutipan dari Metode Statistik dalam Analisis Data oleh WJ Metzger:

Sebagian besar yang kita ukur sebenarnya adalah jumlah dari banyak rv. Misalnya, Anda mengukur panjang meja dengan penggaris. Panjang Anda mengukur tergantung pada banyak efek kecil: paralaks optik, kalibrasi penggaris, suhu, tangan Anda yang gemetar, dll. Sebuah meter digital memiliki suara elektronik di berbagai tempat dalam sirkuitnya. Jadi, apa yang Anda ukur bukan hanya apa yang ingin Anda ukur, tetapi menambahkan sejumlah besar (semoga) kontribusi kecil. Jika jumlah kontribusi kecil ini besar, CLT memberi tahu kami bahwa jumlah totalnya didistribusikan secara Gaussian. Ini sering terjadi dan itulah alasan fungsi resolusi biasanya Gaussian.

Namun, karena Anda harus tahu ini tidak berarti bahwa setiap distribusi akan normal, tentu saja. Sebagai contoh, distribusi Poisson sama umum dalam fisika ketika berhadapan dengan proses penghitungan. Dalam spektroskopi, distribusi Cauchy (alias Breit Wigner) digunakan untuk menggambarkan bentuk spektrum radiasi dan sebagainya.

Saya menyadari hal ini setelah menulis: ketiga distribusi yang disebutkan sejauh ini (Gaussian, Poisson, Cauchy) adalah distribusi stabil , dengan Poisson menjadi diskrit stabil . Sekarang saya memikirkan hal ini, sepertinya kualitas penting dari suatu distribusi yang akan membuatnya bertahan dalam agregasi: jika Anda menambahkan banyak angka dari Poisson, jumlahnya adalah Poisson. Ini mungkin "menjelaskan" (dalam beberapa hal) mengapa begitu di mana-mana.

Dalam ilmu yang tidak alami, Anda harus sangat berhati-hati dalam menerapkan distribusi normal (atau lainnya) karena berbagai alasan. Terutama korelasi dan dependensi adalah masalah, karena mereka dapat mematahkan asumsi CLT. Sebagai contoh, di bidang keuangan diketahui bahwa banyak seri terlihat seperti normal tetapi memiliki ekor yang jauh lebih berat , yang merupakan masalah besar dalam manajemen risiko.

Akhirnya, ada alasan yang lebih kuat dalam ilmu pengetahuan alam untuk memiliki distribusi normal daripada alasan "melambaikan tangan" yang saya kutip sebelumnya. Coba perhatikan, gerak Brown. Jika guncangan benar-benar independen dan sangat kecil, maka tak terhindarkan distribusi jalur yang dapat diamati akan memiliki distribusi normal karena CLT, lihat misalnya Persamaan (10) dalam karya Einstein yang terkenal " INVESTIGASI TERHADAP TEORI GERAKAN BROWNIAN ". Dia bahkan tidak repot-repot menyebutnya dengan nama hari ini "Gaussian" atau "normal".

ΔxΔpΔxΔhal

Karenanya, jangan kaget untuk mendapatkan reaksi yang sangat berbeda terhadap penggunaan distribusi Gaussian dari para peneliti di berbagai bidang. Dalam beberapa bidang seperti fisika, fenomena tertentu diperkirakan akan dikaitkan secara alami dengan distribusi Gaussian berdasarkan teori yang sangat kuat yang didukung oleh sejumlah besar pengamatan. Di bidang lain, distribusi normal digunakan untuk kenyamanan teknis, sifat matematika praktis atau alasan yang dipertanyakan lainnya.


1
+1. Kutipan ini masuk akal, namun orang dapat mencatat bahwa panjang yang diukur tidak boleh negatif (yaitu dibatasi) sehingga tidak dapat benar - benar mengikuti distribusi normal. Itu selalu merupakan perkiraan.
Amuba kata Reinstate Monica

Ilmu tidak alami? Maksud Anda seperti eksperimen tidak wajar Dr. Frankenstein? ;-)
Sycorax berkata Reinstate Monica

1
@ user777, itu pemenang Nobel Landau 's lelucon : "ilmu dapat dibagi menjadi tiga jenis: alami, tidak wajar dan antinatural"
Aksakal

@Aksakal: Saya pikir tautan khusus ini salah; Landau mengatakan bahwa ilmu-ilmu dibagi menjadi "естественные, неестественные и противоестественные" (bukan "сверхъестестествственные"). Tidak tahu bagaimana menerjemahkannya.
Amuba kata Reinstate Monica

@amoeba, saya menerjemahkan "неестественные" sebagai "tidak wajar". "сверхъестественные" adalah "supernatural", pikir saya. Mungkin orang Rusia bisa memperbaiki saya.
Aksakal

2

ada banyak sekali penjelasan yang terlalu rumit di sini ...

Cara yang baik terkait dengan saya adalah sebagai berikut:

  1. Gulung satu dadu, dan Anda memiliki kemungkinan yang sama untuk menggulung setiap angka (1-6), dan karenanya, PDFnya konstan.

  2. Gulung dua dadu dan jumlahkan hasilnya, dan PDF tidak lagi konstan. Ini karena ada 36 kombinasi, dan rentang sumatif adalah 2 hingga 12. Kemungkinan 2 adalah kombinasi unik tunggal 1 + 1. Kemungkinan 12, juga unik karena hanya dapat terjadi dalam kombinasi tunggal 6 + 6. Sekarang, melihat 7, ada beberapa kombinasi, yaitu 3 + 4, 5 + 2, dan 6 + 1 ( dan permutasi baliknya). Ketika Anda bekerja jauh dari nilai tengah (yaitu 7), ada kombinasi yang lebih rendah untuk 6 & 8 dll sampai Anda tiba di kombinasi tunggal 2 dan 12. Contoh ini tidak menghasilkan distribusi normal yang jelas, tetapi semakin banyak Anda menambahkan, dan semakin banyak sampel yang Anda ambil, maka hasilnya akan cenderung ke distribusi normal.

  3. Oleh karena itu, ketika Anda menjumlahkan berbagai variabel independen yang tunduk pada variasi acak (yang masing-masing dapat memiliki PDF mereka sendiri), semakin banyak output yang dihasilkan akan cenderung normal. Ini dalam istilah Six Sigma memberi kita apa yang kita sebut 'Suara Proses'. Ini adalah apa yang kita sebut hasil dari 'variasi penyebab umum' dari suatu sistem, dan karenanya, jika output cenderung ke normalitas, maka kita menyebut sistem ini 'dalam pengendalian proses statistik'. Jika outputnya tidak normal (condong atau bergeser), maka kita katakan sistem tunduk pada 'variasi penyebab khusus' di mana telah ada beberapa 'sinyal' yang telah membiaskan hasilnya dengan beberapa cara.

Semoga itu bisa membantu.


1

Apa hukum fisika dibuat sehingga begitu banyak fenomena alam memiliki distribusi normal?

Tidak ada ide. Di sisi lain saya juga tidak tahu apakah itu benar, atau memang apa artinya 'begitu banyak'.

Namun, mengatur ulang masalah sedikit, ada alasan bagus untuk mengasumsikan (yaitu, memodelkan ) kuantitas kontinu yang Anda yakini memiliki mean tetap dan varians dengan distribusi Normal. Itu karena distribusi Normal adalah hasil dari memaksimalkan subjek entropi untuk kendala momen tersebut. Karena, secara kasar, entropi adalah ukuran ketidakpastian, yang menjadikan Normal sebagai pilihan distribusi yang paling non-komital atau tidak pasti maksimal.

Sekarang, gagasan bahwa seseorang harus memilih distribusi dengan memaksimalkan subjek entropi untuk kendala yang diketahui benar-benar memiliki beberapa dukungan fisika dalam hal jumlah cara yang mungkin untuk memenuhinya. Jaynes tentang mekanika statistik adalah referensi standar di sini.

Perhatikan bahwa sementara entropi maksimum memotivasi distribusi normal dalam kasus ini, berbagai jenis kendala dapat ditunjukkan untuk mengarah pada keluarga distribusi yang berbeda, misalnya eksponensial, poisson, binomial, dll.

Sivia dan Skilling 2005 bag.5 memiliki diskusi yang intuitif.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.