Distribusi normal dan transformasi monotonik


9

Saya pernah mendengar bahwa banyak jumlah yang terjadi di alam terdistribusi secara normal. Ini biasanya dibenarkan menggunakan teorema batas pusat, yang mengatakan bahwa ketika Anda rata-rata sejumlah besar variabel acak iid, Anda mendapatkan distribusi normal. Jadi, misalnya, suatu sifat yang ditentukan oleh efek aditif dari sejumlah besar gen mungkin kira-kira terdistribusi secara normal karena nilai-nilai gen mungkin berperilaku kira-kira seperti variabel acak iid.

Sekarang, yang membingungkan saya adalah bahwa properti yang terdistribusi normal jelas tidak invarian di bawah transformasi monoton. Jadi, jika ada dua cara untuk mengukur sesuatu yang terkait dengan transformasi monoton, keduanya tidak mungkin terdistribusi secara normal (kecuali jika transformasi monotonik itu linier). Misalnya, kita dapat mengukur ukuran curah hujan dengan diameter, berdasarkan luas permukaan, atau volume. Dengan asumsi bentuk yang sama untuk semua tetesan hujan, luas permukaan proporsional dengan kuadrat diameter, dan volume proporsional dengan kubus diameter. Jadi semua cara pengukuran ini tidak dapat didistribusikan secara normal.

Jadi pertanyaan saya adalah apakah cara penskalaan tertentu (yaitu, pilihan transformasi monotonik tertentu) di mana distribusi menjadi normal, harus membawa signifikansi fisik. Misalnya, haruskah ketinggian didistribusikan secara normal atau kuadrat tinggi, atau logaritma ketinggian, atau akar kuadrat tinggi? Apakah ada cara menjawab pertanyaan itu dengan memahami proses yang memengaruhi ketinggian?


Seperti yang selalu saya pahami, teorema limit pusat tidak mendalilkan sesuatu tentang rata-rata sejumlah besar variabel acak iid. Sebaliknya, ia menyatakan bahwa ketika pengambilan sampel berarti, distribusi rata-rata menjadi normal (independen dari distribusi yang mendasari sampel). Jadi saya mempertanyakan apakah anteseden untuk pertanyaan Anda berlaku.
Henrik

Tetapi, jika mean sampling menjadi normal terlepas dari distribusi distribusi yang mendasarinya, maka itu tidak sama dengan mengatakan 'rata-rata sejumlah besar variabel acak iid' membuat kita mendapatkan distribusi normal. Bagi saya itu sepertinya pernyataan yang setara.

Tidak di mata saya (tetapi saya ingin diyakinkan sebaliknya). Dalam satu kasus (yang saya pikir dimaksud dengan CLT) Anda mengambil sampel dari satu distribusi. Berarti mereka didistribusikan secara normal. Apa yang saya pahami dari pertanyaan dan kutipan "rata-rata sejumlah besar variabel acak iid" adalah berbeda: contoh individu dari berbagai variabel acak iid menentukan (atau mengarang) suatu sifat. Oleh karena itu, tidak ada rata-rata (yaitu, menghitung rata-rata) dari distribusi tunggal dan, karenanya, tidak ada aplikasi CLT. Saya pikir jawaban mbq menunjuk ke masalah yang sama.
Henrik

1
Nah distribusinya tidak harus identik jika beberapa kondisi bertahan. Lihat: en.wikipedia.org/wiki/…

1
@ Henrik Apakah ada perbedaan yang berarti antara sampel tunggal dari masing-masing N RV independen dan terdistribusi secara identik dan pengukuran N independen RV tunggal?
walkytalky

Jawaban:


5

Pertanyaan yang sangat bagus Saya merasa bahwa jawabannya tergantung pada apakah Anda dapat mengidentifikasi proses yang mendasari yang menimbulkan pengukuran yang dimaksud. Jika misalnya, Anda memiliki bukti bahwa ketinggian adalah kombinasi linear dari beberapa faktor (misalnya, tinggi orangtua, tinggi kakek-nenek, dll) maka wajar untuk mengasumsikan bahwa tinggi badan terdistribusi normal. Di sisi lain jika Anda memiliki bukti atau bahkan teori bahwa log tinggi adalah kombinasi linear dari beberapa variabel (misalnya, log tinggi orangtua, log ketinggian kakek-nenek dll) maka log tinggi akan didistribusikan secara normal.

Dalam kebanyakan situasi, kita tidak tahu proses mendasar yang mendorong pengukuran minat. Dengan demikian, kita dapat melakukan salah satu dari beberapa hal:

(a) Jika distribusi ketinggian secara empiris terlihat normal, maka kami menggunakan kerapatan normal untuk analisis lebih lanjut yang secara implisit mengasumsikan bahwa ketinggian adalah kombinasi linear dari beberapa variabel.

(B) Jika distribusi empiris tidak terlihat normal maka kita dapat mencoba beberapa transformasi seperti yang disarankan oleh mbq (misalnya log (tinggi)). Dalam kasus ini kami secara implisit menganggap bahwa variabel yang ditransformasikan (yaitu, log (tinggi)) adalah kombinasi linear dari beberapa variabel.

(c) Jika (a) atau (b) tidak membantu maka kita harus mengabaikan kelebihan yang diberikan CLT dan asumsi normalitas memberi kita dan memodelkan variabel menggunakan beberapa distribusi lain.


5

Penyesuaian ulang variabel tertentu harus, jika mungkin, berhubungan dengan beberapa skala yang dapat dipahami karena alasan itu membantu membuat model yang dihasilkan dapat ditafsirkan. Namun, transformasi yang dihasilkan tidak perlu mutlak membawa signifikansi fisik. Pada dasarnya Anda harus terlibat dalam pertukaran antara pelanggaran asumsi normalitas dan interpretabilitas model Anda. Yang ingin saya lakukan dalam situasi ini adalah memiliki data asli, data ditransformasikan dengan cara yang masuk akal, dan data ditransformasikan dengan cara yang paling normal. Jika data ditransformasikan dengan cara yang masuk akal sama dengan hasil ketika data ditransformasikan dengan cara yang membuatnya paling normal, Saya melaporkannya dengan cara yang dapat ditafsirkan dengan catatan samping bahwa hasilnya sama dalam kasus data yang diubah secara optimal (dan / atau tidak diubah). Ketika data yang tidak ditransformasi berperilaku sangat buruk, saya melakukan analisis saya dengan data yang diubah tetapi melakukan yang terbaik untuk melaporkan hasilnya dalam unit yang tidak diubah.

Juga, saya pikir Anda memiliki kesalahpahaman dalam pernyataan Anda bahwa "jumlah yang terjadi di alam terdistribusi secara normal". Ini hanya berlaku dalam kasus-kasus di mana nilai "ditentukan oleh efek aditif dari sejumlah besar" faktor independen. Artinya, rata-rata dan jumlah didistribusikan secara normal terlepas dari distribusi yang mendasari dari mana mereka menggambar, sedangkan nilai-nilai individu tidak diharapkan untuk didistribusikan secara normal. Seperti contohnya, penarikan undian individu dari distribusi binomial sama sekali tidak terlihat normal, tetapi distribusi dari jumlah undian 30 dari distribusi binomial memang terlihat agak normal.


5

Saya harus mengakui bahwa saya tidak terlalu mengerti pertanyaan Anda:

  • contoh tetesan hujan Anda tidak terlalu memuaskan karena ini tidak menggambarkan fakta bahwa perilaku Gaussian berasal dari "rata-rata sejumlah besar variabel acak iid".

  • jika jumlah yang Anda minati adalah rata-rata yang berfluktuasi di sekitar rata-rata dalam cara Gaussian, Anda juga dapat mengharapkan memiliki perilaku Gaussian.Y 1 + ... + Y NX f(Y1)+...+f(YN)Y1++YNNf(Y1)++f(YN)N

  • jika fluktuasi sekitar rata-rata sekitar Gaussian dan kecil, maka demikian juga fluktuasi sekitar rata-rata (dengan ekspansi Taylor)f ( X )Xf(X)

  • dapatkah Anda mengutip beberapa contoh nyata dari (kehidupan nyata) perilaku Gaussian yang berasal dari rata-rata: ini tidak terlalu umum! Perilaku Gaussian sering digunakan dalam statistik sebagai perkiraan kasar pertama karena perhitungannya sangat dapat ditelusuri. Karena fisikawan menggunakan pendekatan harmonik, ahli statistik menggunakan pendekatan Gaussian.


prinsip entropi maksimum juga merupakan alasan lain mengapa distribusi Gaussian digunakan. Sebagai contoh, apa alasan yang baik untuk menggunakan kesalahan Gaussian dalam model linier, kecuali traktabilitas?
Alekk

5

Vipul, Anda tidak sepenuhnya tepat dalam pertanyaan Anda.

Ini biasanya dibenarkan menggunakan teorema batas pusat, yang mengatakan bahwa ketika Anda rata-rata sejumlah besar variabel acak iid, Anda mendapatkan distribusi normal.

Saya tidak sepenuhnya yakin ini yang Anda katakan, tetapi perlu diingat bahwa tetesan air hujan dalam contoh Anda bukan variabel acak. Rerata yang dihitung dengan mengambil sampel sejumlah tetesan hujan tersebut adalah variabel acak, dan karena rerata dihitung menggunakan ukuran sampel yang cukup besar, distribusi rata-rata sampel itu normal.

Hukum bilangan besar mengatakan bahwa nilai rata-rata sampel konvergen dengan nilai rata-rata populasi (kuat atau lemah tergantung pada jenis konvergensi).

CLT mengatakan bahwa mean sampel, sebut saja XM (n), yang merupakan variabel acak, memiliki distribusi, katakanlah G (n). Ketika n mendekati infintity, distribusi itu adalah distribusi normal. CLT adalah tentang konvergensi dalam distribusi , bukan konsep dasar.

Pengamatan yang Anda gambar (diameter, luas, volume) tidak harus normal sama sekali. Mereka mungkin tidak akan melakukannya jika Anda merencanakannya. Tapi, mean sampel dari ketiga pengamatan akan memiliki distribusi normal. Dan, volumenya tidak akan menjadi kubus dari diameter, juga tidak akan area menjadi kuadrat dari diameter. Kuadrat dari jumlah tidak akan menjadi jumlah kuadrat, kecuali jika Anda beruntung.


4

CLT (atau teorema lainnya) tidak menyatakan bahwa setiap kuantitas di alam semesta terdistribusi secara normal. Memang, ahli statistik sering menggunakan transformasi monoton untuk meningkatkan normalitas, sehingga mereka dapat menggunakan alat favorit mereka.


4

Saya pikir Anda salah mengerti (setengah dari) penggunaan statistik menggunakan distribusi normal tapi saya sangat suka pertanyaan Anda.

Saya tidak berpikir itu ide yang baik untuk mengasumsikan normal secara sistematis dan saya akui itu kadang-kadang dilakukan (mungkin karena distribusi normal dapat ditelusuri, unimodal ...) tanpa verifikasi. Karenanya komentar Anda tentang peta monoton sangat bagus!

Namun penggunaan normalitas yang kuat terjadi ketika Anda membuat sendiri statistik baru seperti yang muncul ketika Anda menerapkan counter counter empiris dari ekspektasi: mean empiris . Oleh karena itu rata-rata empiris dan lebih umum smoothing adalah apa yang membuat normalitas muncul di mana-mana ...


2

Baik variabel acak maupun banyak transformasi dapat mendekati normal; memang jika variansnya kecil dibandingkan dengan rata-rata, bisa jadi variasi transformasi yang sangat luas terlihat cukup normal.

> a<-rgamma(10000,1000,1000)
> hist(a)
> hist(1/a)
> hist(a^2)
> hist(a^(3/2))

4 histogram menunjukkan hampir normal

( klik untuk versi yang lebih besar )

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.