Apa pentingnya fungsi dalam statistik?


19

Di kelas kalkulus saya, kami menjumpai fungsi , atau "kurva lonceng", dan saya diberi tahu bahwa ia memiliki aplikasi yang sering dalam statistik.e-x2

Karena penasaran, saya ingin bertanya: Apakah fungsi benar-benar penting dalam statistik? Jika demikian, apa masalahnya dengan yang membuatnya berguna, dan apa saja beberapa aplikasinya? e - x 2e-x2e-x2

Saya tidak dapat menemukan banyak info tentang fungsi di internet, tetapi setelah melakukan penelitian, saya menemukan hubungan antara kurva lonceng secara umum, dan sesuatu yang disebut distribusi normal . Sebuah halaman Wikipedia menghubungkan jenis fungsi untuk aplikasi statistik, dengan menyoroti oleh saya, bahwa negara-negara:

"Distribusi normal dianggap sebagai distribusi probabilitas yang paling menonjol dalam statistik. Ada beberapa alasan untuk ini: 1 Pertama, distribusi normal muncul dari teorema batas pusat, yang menyatakan bahwa dalam kondisi ringan jumlah dari sejumlah besar variabel acak yang diambil dari distribusi yang sama didistribusikan kira-kira secara normal, terlepas dari bentuk distribusi aslinya . "

Jadi, jika saya mengumpulkan sejumlah besar data dari beberapa jenis survei atau sejenisnya, mereka dapat didistribusikan secara merata di antara fungsi seperti ? Fungsi ini simetris, jadi apakah simetrinya yaitu kegunaannya untuk distribusi normal, apa yang membuatnya sangat berguna dalam statistik? Saya hanya berspekulasi.e-x2

Secara umum, apa yang membuat berguna dalam statistik? Jika distribusi normal adalah satu-satunya area, lalu apa yang membuat unik atau berguna secara khusus di antara fungsi tipe gaussian lainnya dalam distribusi normal? e - x 2e-x2e-x2


Nah untuk memulai yang harus dibaca "berarti" bukan "jumlah".
Tristan

2
Jumlahnya juga. Lagi pula, itu hanya rata-rata dikalikan dengan jumlah sampel.
Erik

1
Kutipan menunjukkan bahwa kata-kata kunci untuk pencarian termasuk "distribusi normal." Melakukan pencarian itu di sini menemukan lebih dari 600 utas - rata-rata satu per hari sejak situs ini dimulai. Waktu singkat membaca hit ini akan dengan cepat membantu siapa pun menghargai peran "kurva lonceng" dalam statistik.
whuber

4
Dari utas terpilih teratas terkait dengan distribusi normal : "Semua orang percaya pada hukum kesalahan eksponensial [yaitu, distribusi Normal]: para peneliti, karena mereka pikir itu dapat dibuktikan dengan matematika, dan para ahli matematika, karena mereka percaya itu memiliki telah ditetapkan oleh observasi. "
whuber

Lihat jawaban atas pertanyaan saya "apa karakterisasi paling mengejutkan dari distribusi gaussian" stats.stackexchange.com/questions/4364/…
robin

Jawaban:


12

Alasan mengapa fungsi ini penting adalah memang distribusi normal dan pendamping yang terkait erat, teorema batas pusat (kami memiliki beberapa penjelasan yang baik tentang CLT dalam pertanyaan lain di sini).

Dalam statistik, CLT biasanya dapat digunakan untuk menghitung probabilitas sekitar, membuat pernyataan seperti "kami 95% yakin bahwa ..." mungkin (arti "95% percaya diri" sering disalahpahami, tapi itu masalah yang berbeda).

Fungsi adalah (versi skala) fungsi kepadatan dari distribusi normal. Jika kuantitas acak dapat dimodelkan menggunakan distribusi normal, fungsi ini menjelaskan seberapa besar kemungkinan perbedaan nilai kuantitas tersebut. Hasil di daerah dengan kepadatan tinggi lebih mungkin daripada hasil di daerah dengan kepadatan rendah.exp(-(x-μ)22σ2)

dan σ adalah parameter yang menentukan lokasi dan skala fungsi kerapatan. Ini simetris tentang μ , jadi mengubah μ berarti Anda menggeser fungsi ke kanan atau ke kiri. σ menentukan nilai fungsi kerapatan maksimum ( x = μ ) dan seberapa cepat ia pergi ke 0 saat x menjauh dari μ . Dalam pengertian itu, mengubah σ mengubah skala fungsi.μσμμσx=μxμσ

Untuk pilihan tertentu dan σ = 1 / μ=0 kerapatan (sebanding dengan)e - x 2 . Ini bukan pilihan yang sangat menarik dari parameter ini, tetapi memiliki manfaat menghasilkan fungsi kepadatan yang terlihat sedikit lebih sederhana daripada yang lainnya.σ=1/2e-x2

Di sisi lain, kita dapat beralih dari ke kepadatan normal lainnya dengan perubahan variabel x = u - μe-x2. Alasan bahwa buku teks Anda mengatakan bahwae-x2, dan bukanexp(-(x-μ)2x=kamu-μ2σe-x2, adalah fungsi yang sangat penting yaitu bahwae-x2lebih mudah untuk ditulis.exp(-(x-μ)22σ2)e-x2


1
(+1) Kalimat pertama dari paragraf kedua dari belakang: Saya bisa katakan proporsional dengan di tempat is .
kardinal

@ cardinal: Terima kasih, Anda benar! Saya mengedit jawabannya.
MånsT

1
12πσ22πσ2

3

exp(-x2)exp(-x2)

Dan distribusi normal adalah penting terutama karena ("dalam kondisi keteraturan ringan") jumlah dari banyak variabel acak independen dan terdistribusi identik mendekati normal, ketika "banyak" mendekati tak terbatas.

Tidak semuanya terdistribusi normal. Misalnya, hasil survei Anda mungkin tidak, setidaknya jika tanggapannya bahkan tidak pada skala berkelanjutan tetapi sesuatu seperti bilangan bulat 1-5. Tetapi rata - rata hasil secara normal didistribusikan melalui pengambilan sampel berulang, karena rata-rata hanyalah jumlah berskala (dinormalisasi) jumlah, dan tanggapan masing-masing independen satu sama lain. Dengan asumsi sampel cukup besar, tentu saja, karena secara tegas, normalitas hanya muncul ketika ukuran sampel menjadi tak terbatas.

Seperti yang Anda lihat dari contoh, distribusi normal dapat muncul sebagai hasil dari proses estimasi atau pemodelan, bahkan ketika data tidak terdistribusi secara normal. Karenanya distribusi normal ada di mana-mana dalam statistik. Dalam statistik bayesian, banyak distribusi parameter posterior kira-kira normal, atau dapat diasumsikan.


e-x2

Mereka tidak sama, terima kasih untuk menunjukkan ini. (Maksud saya adalah tidak tepat, hanya bisa dimengerti oleh non-ahli statistik. Sudah ada jawaban yang tepat dan tepat.)
scellus

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.