Apakah standar deviasi sama sekali salah? Bagaimana Anda bisa menghitung std untuk ketinggian, jumlah dan lain-lain (angka positif)?

13

Katakanlah saya menghitung ketinggian (dalam cm) dan angkanya harus lebih tinggi dari nol.

Berikut daftar sampelnya:

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

Dalam contoh ini, menurut distribusi normal, 99,7% dari nilai harus antara ± 3 kali standar deviasi dari rata-rata. Namun, bahkan dua kali standar deviasi menjadi negatif:

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

Namun, angka saya harus positif. Jadi mereka harus di atas 0. Saya bisa mengabaikan angka negatif tapi saya ragu ini adalah cara yang benar untuk menghitung probabilitas menggunakan standar deviasi.

Dapatkah seseorang membantu saya untuk mengerti jika saya menggunakan ini dengan cara yang benar? Atau apakah saya perlu memilih metode yang berbeda?

Yah jujur saja, matematika itu matematika. Tidak masalah apakah itu distribusi normal atau tidak. Jika berfungsi dengan angka yang tidak ditandatangani, itu harus bekerja dengan angka positif juga! Apakah aku salah?

EDIT1: Menambahkan histogram

Agar lebih jelas, saya telah menambahkan histogram data nyata saya

EDIT2: Beberapa nilai

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05

— Don Coder
sumber

28

Saya pikir kesalahpahaman di sini adalah bahwa distribusi yang hanya dapat memiliki angka positif tidak normal, sehingga aturan 99,7% yang Anda nyatakan tidak berlaku. Kedua, dari rumus standar deviasi (sampel), Anda dapat melihat bahwa tidak ada kondisi pada nilai asli mana pun yang positif - jadi mengapa harus salah? Mungkin itu digunakan secara salah, tetapi statistik sebagian besar agnostik dan tidak boleh diterapkan tanpa berpikir.

— Momo

8

Keindahan 68-95-99.7 aturan, @Momo, adalah bahwa hal itu tidak berlaku meskipun untuk banyak distribusi jelas non-Normal. Dalam hal ini 50% dari angka berada dalam 1 sd dari rata-rata dan 100% berada dalam 2 sds dari rata-rata. Perhatikan bahwa 68% secara akurat mendekati 50% dan 95% secara akurat mendekati 100% dalam penyimpangan yang kita harapkan dari dataset kecil tersebut. Jadi, contoh ini menggambarkan aturan praktis, meskipun mungkin sedikit tidak meyakinkan karena ukurannya yang kecil.

— whuber

2

Saya setuju. Biarkan saya memperbaiki ini menjadi "jadi aturan 99,7% yang Anda sebutkan belum tentu berlaku". Sumber kebingungan di sini tampaknya menerapkan ini sebagai sesuatu yang lebih dari sekadar aturan praktis dan tidak dalam hal Anda yang bernuansa "kira-kira dalam penyimpangan yang kita harapkan". Komentar terakhir OP hanya menunjukkan itu.

— Momo

4

Haruskah judul diubah menjadi sesuatu seperti "Bagaimana cara menerapkan aturan 68-95-99.7 untuk data yang harus positif"? Saya pikir itu lebih menangkap semangat pertanyaan. (Ini bukan masalah dengan cara deviasi standar sedang dihitung, itulah yang disarankan judulnya, melainkan cara itu digunakan untuk menemukan probabilitas.)

— Silverfish

4

Standar deviasi tidak "salah". Yang kurang akurat adalah memperlakukan hal-hal normal yang bukan; proporsi di luar jumlah standar deviasi yang ditunjukkan oleh normalitas tidak akan selalu akurat untuk distribusi lainnya. Untuk distribusi unimodal kontinu, mendekati 2 standar deviasi, interval dua sisi seringkali cukup masuk akal, tetapi lebih jauh probabilitas ekor dapat memiliki kesalahan relatif yang sangat tinggi.

— Glen_b -Reinstate Monica

23

Jika angka Anda hanya bisa positif, maka memodelkannya sebagai distribusi normal mungkin tidak diinginkan tergantung pada kasus penggunaan Anda, karena distribusi normal didukung pada semua bilangan real.

Mungkin Anda ingin memodelkan tinggi sebagai distribusi eksponensial, atau mungkin distribusi normal terpotong?

EDIT: Setelah melihat data Anda, sepertinya cocok dengan distribusi eksponensial dengan baik! Anda bisa memperkirakan parameter dengan mengambil, misalnya, pendekatan kemungkinan maksimum. $\lambda$

— Kevin Li
sumber

10

Kalimat pertama tidak benar secara umum: Banyak kuantitas yang benar-benar positif seringkali dapat didekati dengan distribusi normal. Jika massa probabilitas di bawah 0 sangat kecil, tidak masalah untuk semua tujuan praktis. Dalam kasus khusus ini, itu pasti benar.

— COOLSerdash

13

-1 Jawaban ini mencerminkan kesalahpahaman yang dipegang secara luas (dan sangat merusak) tentang apa model statistik itu dan apa artinya sesungguhnya untuk memodelkan data dengan distribusi normal. Memang, jika kita mempercayai apa yang dikatakan posting ini, maka "tentu saja tidak benar" akan mendekati perkiraan distribusi Binomial dengan distribusi Normal - tetapi ini secara historis merupakan penggunaan asli dan kemungkinan paling luas dari distribusi Normal! (Sunting: Saya menghapus downvote karena Anda mengubah klaim asli menjadi yang jauh lebih tepat dan berguna.)

— whuber

4

Itu tergantung pada apa yang Anda maksud dengan "atasan." Bagian dari biaya model terletak pada apa yang diperlukan untuk mengimplementasikannya. Jika Anda mengadopsi model Normal terpotong, Anda mungkin melakukan banyak perhitungan numerik khusus alih-alih cepat, mudah, dan mungkin perhitungan analitik yang sangat akurat. Tujuan lain dari suatu model adalah untuk memberikan wawasan : orang berpikir, "jika alam berperilaku sekurang-kurangnya seperti asumsi-asumsi ini, maka konsekuensi apa yang dapat disimpulkan dari asumsi-asumsi itu?" Seringkali, membuat kesimpulan seperti itu lebih mudah dengan perkiraan sederhana.

— whuber

2

@whuber: setelah "sangat akurat" Saya secara mental menambahkan "salah". Maaf. Tentu saja, juga "tetapi bermanfaat" per Kotak.

— Stephan Kolassa

2

Meskipun data terdiri dari nilai-nilai non-integer?

— Kevin Li

19

"Apa cara yang benar untuk menerapkan 68-95-99.7 pada kasus saya?"

Seseorang seharusnya hanya mengharapkan aturan praktis untuk cakupan berlaku persis hanya jika Anda (1) melihat seluruh populasi (tak terbatas) atau distribusi probabilitas teoretis , dan (2) distribusi itu persis normal .

Jika Anda mengambil sampel acak ukuran 20, bahkan dari distribusi yang benar-benar normal, Anda tidak akan selalu menemukan bahwa 95% dari data (19 dari 20 item) berada dalam 2 (atau 1.960) standar deviasi rata-rata. Faktanya tidak ada jaminan bahwa 19 dari 20 item akan berada dalam 1.960 standar deviasi populasi dari rata-rata populasi, atau 19 dari 20 item berada dalam 1.960 standar deviasi sampel dari mean sampel.

Jika Anda mengambil sampel data dari distribusi yang tidak terdistribusi secara normal, maka orang tidak akan mengharapkan aturan 68-95-99.7 berlaku secara tepat. Tetapi mungkin hampir mendekati melakukannya, terutama jika ukuran sampel besar (aturan "cakupan 99,7%" mungkin tidak terlalu berarti dengan ukuran sampel di bawah 1000) dan distribusi cukup dekat dengan normalitas. Secara teori, banyak data seperti tinggi atau berat tidak dapat berasal dari distribusi normal yang tepat atau yang menyiratkan kemungkinan kecil, tetapi tidak nol, kemungkinan data tersebut negatif. Namun demikian, untuk data dengan distribusi yang hampir simetris dan unimodal, di mana nilai menengah lebih umum dan nilai yang sangat tinggi atau rendah turun dalam probabilitas, model distribusi normal mungkin memadai untuk tujuan praktis.Jika histogram saya menunjukkan kurva berbentuk lonceng, dapatkah saya mengatakan bahwa data saya terdistribusi secara normal?

Jika Anda ingin batas yang mengikat secara teoritis yang berlaku untuk distribusi apa pun, maka lihat ketidaksetaraan Chebyshev , yang menyatakan bahwa paling banyak nilai dapat terletak lebih dari $1/k^2$ $k$ standar deviasi dari mean. Ini menjamin bahwa setidaknya 75% data berada dalam dua standar deviasi rata-rata, dan 89% dalam tiga standar deviasi. Tetapi angka-angka itu hanya minimum yang dijamin secara teoritis. Untuk banyak distribusi berbentuk lonceng, Anda akan menemukan bahwa angka cakupan deviasi dua standar datang lebih dekat ke 95% daripada 75%, dan "aturan praktis" dari distribusi normal masih berguna. Di sisi lain, jika data Anda berasal dari distribusi yang tidak berbentuk lonceng, Anda mungkin dapat menemukan model alternatif yang menggambarkan data lebih baik dan memiliki aturan cakupan yang berbeda.

(Satu hal yang baik tentang 68-95-99.7 aturan adalah bahwa hal itu berlaku untuk setiap distribusi normal, terlepas dari parameter untuk deviasi rata-rata atau standar. Demikian pula, ketidaksamaan Chebyshev berlaku tanpa parameter, atau bahkan distribusi, meskipun hanya memberikan batas yang lebih rendah untuk cakupan. Tetapi jika Anda menerapkan, misalnya, model normal terpotong atau condong , maka tidak ada padanan sederhana dari cakupan "68-95-99.7", karena itu akan tergantung pada parameter distribusi .)

— Gegat
sumber

7

Dapatkah seseorang membantu saya untuk memahami jika saya menggunakan ini dengan cara yang benar?

Oh, itu mudah. Tidak, Anda tidak menggunakannya dengan benar.

Pertama, Anda menggunakan kumpulan data yang agak kecil. Mencoba untuk menghapus perilaku statistik dari set ukuran ini tentu mungkin, tetapi batas kepercayaan (ahem) agak besar. Untuk set data kecil, penyimpangan dari distribusi yang diharapkan setara untuk kursus, dan semakin kecil set semakin besar masalahnya. Ingat, "Hukum Rata-rata tidak hanya mengizinkan kebetulan yang paling keterlaluan, itu juga mengharuskan mereka."

Lebih buruk lagi, kumpulan data tertentu yang Anda gunakan tidak terlihat seperti distribusi normal. Pikirkan tentang hal ini - dengan rata-rata 0,498 Anda punya dua sampel di bawah 0,1, dan tiga lagi di 0,748 atau lebih tinggi. Maka Anda memiliki sekelompok 3 poin antara 0,17 dan 0,22. Melihat kumpulan data khusus ini dan berpendapat bahwa itu harus berdistribusi normal adalah kasus argumen Procrustean yang cukup bagus. Apakah itu terlihat seperti kurva lonceng untuk Anda? Sangat mungkin bahwa populasi yang lebih besar mengikuti distribusi yang normal, atau yang dimodifikasi, dan ukuran sampel yang lebih besar akan mengatasi masalah ini, tetapi saya tidak akan bertaruh untuk itu, terutama tanpa mengetahui lebih banyak tentang populasi.

Saya katakan dimodifikasi normal, karena seperti yang ditunjukkan Kevin Li, secara teknis distribusi normal mencakup semua bilangan real. Seperti yang juga ditunjukkan dalam komentar atas jawabannya, ini tidak mencegah penerapan distribusi semacam itu dalam rentang terbatas dan mendapatkan hasil yang bermanfaat. Seperti kata pepatah, "Semua model salah. Beberapa berguna."

Tetapi kumpulan data khusus ini tidak terlihat seperti menyimpulkan distribusi normal (bahkan dalam rentang terbatas) adalah ide yang sangat bagus. Jika 10 poin data Anda tampak seperti .275, .325, .375, .425, .575, .575, .675, .675, .725 (rata-rata 0.500), apakah Anda akan menganggap distribusi normal?

— James Martin
sumber

Saya telah menggunakan data acak untuk dapat menjelaskan kebutuhan dan masalah saya

— Don Coder

1

@DonCoder Data acak (kecuali Anda mengubahnya dengan beberapa cara) akan mengikuti distribusi yang seragam, bukan distribusi normal.

— barrycarter

5

Data acak perlu dihasilkan dari beberapa distribusi. Yang mana yang kamu pilih?

— Peter Flom - Pasang kembali Monica

Saya telah menambahkan histogram data asli saya

— Don Coder

2

Dalam salah satu komentar Anda mengatakan Anda menggunakan "data acak" tetapi Anda tidak mengatakan dari distribusi apa. Jika Anda berbicara tentang ketinggian manusia, mereka biasanya terdistribusi secara normal, tetapi data Anda tidak sesuai untuk ketinggian manusia - Anda hanya sebagian kecil dari satu cm!

Dan data Anda tidak normal dari jarak jauh. Saya kira Anda menggunakan distribusi seragam dengan batas 0 dan 1. Dan Anda menghasilkan sampel yang sangat kecil. Mari kita coba dengan sampel yang lebih besar:

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

jadi, tidak ada data yang melebihi 2 sd dari mean, karena itu di luar batas data. Dan porsi dalam 1 sd akan menjadi sekitar 0,56.

— Peter Flom - Pasang kembali Monica
sumber

1

Seringkali, ketika Anda memiliki batasan bahwa sampel Anda semuanya harus positif, perlu melihat logaritma data Anda untuk melihat apakah distribusi Anda dapat diperkirakan dengan distribusi lognormal.

— rinspy
sumber

1

Perhitungan standar deviasi relatif terhadap rata-rata. Bisakah Anda menerapkan standar deviasi ke angka yang selalu positif? Benar. Jika Anda menambahkan 1000 untuk masing-masing nilai dalam set sampel Anda, Anda akan melihat nilai standar deviasi yang sama, tetapi Anda akan memberi diri Anda lebih banyak ruang bernapas di atas nol.

s = \sqrt{\frac{\sum_{i = 1}^{N} (x_{i} - \bar{x})^{2}}{N - 1}} = \sqrt{\frac{\sum_{i = 1}^{N} ((x_{i} + k) - (\bar{x} + k))^{2}}{N - 1}}

$\displaystyle s={\sqrt {\frac {\sum _{i=1}^{N}(x_{i}-{\overline {x}})^{2}}{N-1}}} = {\sqrt {\frac {\sum _{i=1}^{N}((x_{i}+k)-({\overline {x}}+k))^{2}}{N-1}}}$

Namun, menambahkan konstanta sembarang ke data Anda adalah dangkal. Saat menggunakan standar deviasi untuk kumpulan data yang sangat kecil, Anda harus mengharapkan output yang tidak diolah. Pertimbangkan deviasi standar seperti lensa kamera fokus otomatis: semakin banyak waktu (data) yang Anda berikan, semakin jelas gambarnya. Jika setelah Anda melacak 10.000 data poin, mean dan standar deviasi Anda tetap sama dengan 10, maka saya dapat mulai mempertanyakan validitas eksperimen Anda.

— Ian MacDonald
sumber

1

Histogram Anda menunjukkan bahwa distribusi normal tidak cocok. Anda dapat mencoba lognormal atau sesuatu yang asimetris dan sangat positif

— Aksakal
sumber

1

Intinya adalah bahwa banyak dari kita yang malas *, dan distribusi normal nyaman untuk bekerja dengan bagi kita orang malas. Mudah melakukan perhitungan menggunakan distribusi normal dan memiliki dasar matematika yang bagus. Karena itu merupakan "model" untuk cara bekerja pada data. Model ini sering bekerja dengan sangat baik, dan terkadang jatuh datar di wajahnya.

Sangat jelas bahwa sampel Anda tidak menunjukkan distribusi normal dalam data. Jadi solusi untuk Anda dilema adalah memilih "model" yang berbeda, dan bekerja dengan distribusi yang berbeda. Distribusi Weibull mungkin ada di arah, ada yang lain.

malas tidak benar-benar mengenal data dan memilih model yang lebih baik bila perlu.

— ghellquist
sumber

0

Pada dasarnya Anda menggunakan data Rasio sebagai lawan dari data Interval. Para ahli geografi melewati ini setiap saat ketika menghitung S / D untuk curah hujan tahunan di lokasi tertentu (100+ tahun titik sampel di katakanlah LA Civic Center) atau hujan salju (100+ tahun sampel salju di Danau Big Bear). Kami hanya dapat memiliki angka positif, begitulah adanya.

— Jim Woods
sumber

0

Dalam meteorologi, distribusi kecepatan angin memang terlihat seperti ini. Menurut definisi, kecepatan angin juga tidak negatif.

Jadi dalam kasus Anda, saya pasti akan melihat distribusi Weibull .

— boseki
sumber

0

Anda mulai dengan "menurut distribusi normal" ketika data Anda jelas tidak terdistribusi normal, itu masalah pertama. Anda berkata "Tidak masalah apakah itu distribusi normal atau tidak." Itu omong kosong. Anda tidak dapat menggunakan pernyataan tentang data terdistribusi normal jika data Anda tidak terdistribusi normal.

Dan Anda salah mengartikan pernyataan itu. "99,7% harus dalam tiga standar deviasi". Dan 99,7% dari data Anda memang dalam tiga standar deviasi. Bahkan lebih baik, itu 100% dalam dua standar deviasi. Jadi pernyataan itu benar .

— gnasher729
sumber