Rentang nilai skewness dan kurtosis untuk distribusi normal

Saya ingin tahu bahwa berapa kisaran nilai skewness dan kurtosis dimana data dianggap terdistribusi secara normal.

Saya telah membaca banyak argumen dan sebagian besar jawaban saya campur aduk. Beberapa mengatakan untuk kemiringan dan untuk kurtosis adalah kisaran yang dapat diterima untuk didistribusikan secara normal. Beberapa mengatakan untuk kemiringan adalah rentang yang dapat diterima. Saya menemukan diskusi terperinci di sini: Apa kisaran kemiringan dan kurtosis yang dapat diterima untuk distribusi data normal mengenai masalah ini. Tetapi saya tidak dapat menemukan pernyataan yang menentukan. $(-1,1)$ $(-2,2)$ $(-1.96,1.96)$

Apa dasar untuk memutuskan interval seperti itu? Apakah ini pilihan subjektif? Atau adakah penjelasan matematis di balik interval ini?

normal-distribution skewness kurtosis

— Kesatria Kegelapan
sumber

Apa atau siapa yang mendefinisikan "dapat diterima"?

— Glen_b -Reinstate Monica

Itu pertanyaan yang bagus. Saya tidak punya jawaban yang jelas untuk ini.

— Dark_Knight

Apakah saya benar dalam berpikir bahwa meletakkan di belakang pertanyaan Anda adalah beberapa metode tersirat, sesuatu di sepanjang baris: "Sebelum memperkirakan model ini / melakukan tes itu, periksa kemiringan sampel dan kurtosis. Jika keduanya dalam rentang yang ditentukan sebelumnya gunakan beberapa prosedur teori normal, kalau tidak gunakan sesuatu yang lain. " ...?

— Glen_b -Reinstate Monica

Jika demikian, apa prosedur-dengan-asumsi-normal yang dapat Anda gunakan pada pendekatan seperti itu? Variabel apa yang akan Anda periksa ini? Apa prosedur alternatif yang akan Anda gunakan jika Anda menyimpulkan bahwa mereka tidak "dapat diterima" oleh beberapa kriteria?

— Glen_b -Reinstate Monica

Juga - dan ini mungkin penting untuk konteks, khususnya dalam kasus di mana beberapa alasan ditawarkan untuk memilih beberapa batasan - dapatkah Anda menyertakan kutipan yang berasal dari rentang yang dapat Anda peroleh (terutama di mana kisaran yang disarankan cukup berbeda)? Satu hal yang akan berguna untuk diketahui dari konteks seperti itu - untuk situasi apa mereka menggunakan hal semacam ini?

— Glen_b -Reinstate Monica

Jawaban:

Posting asli melewatkan beberapa poin utama: (1) Tidak ada "data" yang dapat didistribusikan secara normal. Data harus diskrit. Pertanyaan yang valid adalah, "apakah proses yang menghasilkan data merupakan proses yang terdistribusi normal?" Tetapi (2) jawaban untuk pertanyaan kedua selalu "tidak", terlepas dari apa yang diberikan tes statistik atau penilaian lain berdasarkan data. Proses yang terdistribusi secara normal menghasilkan data dengan kontinuitas tak terbatas, simetri sempurna, dan probabilitas yang ditentukan secara tepat dalam rentang standar deviasi (mis. 68-95-99.7), tidak ada yang benar-benar tepat untuk proses yang menimbulkan data yang dapat kita ukur dengan apa pun perangkat pengukuran yang dapat digunakan manusia.

Jadi Anda tidak pernah dapat mempertimbangkan data untuk didistribusikan secara normal, dan Anda tidak pernah dapat mempertimbangkan proses yang menghasilkan data sebagai proses yang terdistribusi secara normal. Tapi, seperti yang ditunjukkan Glen_b, itu mungkin tidak terlalu penting, tergantung pada apa yang Anda coba lakukan dengan data.

Statistik kemiringan dan kurtosis dapat membantu Anda menilai beberapa jenis penyimpangan dari normalitas proses pembuatan data Anda. Mereka adalah statistik yang sangat bervariasi. Kesalahan standar yang diberikan di atas tidak berguna karena mereka hanya valid di bawah normalitas, yang berarti mereka hanya berguna sebagai tes untuk normalitas, latihan yang pada dasarnya tidak berguna. Akan lebih baik menggunakan bootstrap untuk menemukan se, meskipun sampel besar akan diperlukan untuk mendapatkan se's yang akurat.

Juga, kurtosis sangat mudah untuk ditafsirkan, bertentangan dengan posting di atas. Ini adalah rata-rata (atau nilai yang diharapkan) dari nilai Z, masing-masing diambil ke kekuatan keempat. Besar | Z | nilai-nilai adalah outlier dan berkontribusi besar terhadap kurtosis. Kecil | Z | nilai-nilai, di mana "puncak" dari distribusi adalah, memberikan nilai Z ^ 4 yang kecil dan pada dasarnya tidak memberikan kontribusi apa pun untuk kurtosis. Saya membuktikan dalam artikel saya https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ bahwa kurtosis didekati dengan sangat baik oleh rata-rata nilai Z ^ 4 * I (| Z |> 1). Oleh karena itu kurtosis mengukur kecenderungan proses pembuatan data untuk menghasilkan outlier.

— Peter Westfall
sumber

Hanya untuk membersihkan, apa yang sebenarnya Anda maksud dengan "proses terdistribusi normal"? Saya mendapatkan apa yang Anda katakan tentang diskrititas dan kontinuitas variabel acak tetapi bagaimana dengan asumsi mengenai distribusi normal yang dapat dibuat menggunakan teorema Central Limit?

— Dark_Knight

CLT tidak relevan di sini - kita berbicara tentang distribusi yang menghasilkan nilai data individual, bukan rata-rata. "Proses terdistribusi normal" adalah proses yang menghasilkan variabel acak berdistribusi normal. Sebuah generator bilangan acak komputer normal yang sempurna akan menjadi contoh (hal seperti itu tidak ada, tetapi mereka sangat baik dalam perangkat lunak yang kami gunakan.)

— Peter Westfall

Juga, karena tidak ada proses yang menghasilkan data yang dapat kita analisis adalah proses normal, maka juga mengikuti bahwa distribusi rata-rata yang dihasilkan oleh proses semacam itu juga tidak pernah benar-benar normal, terlepas dari ukuran sampel. Tapi ya, distribusi rata-rata seperti itu mungkin dekat dengan distribusi normal sesuai CLT. Kedekatan distribusi tersebut dengan normal tergantung pada (i) ukuran sampel dan (ii) tingkat ketidaknormalan proses pembuatan data yang menghasilkan nilai data individual.

— Peter Westfall

Hai Peter - dapatkah Anda menghindari referensi seperti "di atas" karena urutan pengurutannya akan berubah. Apa yang di atas untuk Anda mungkin tidak di atas untuk dilihat orang berikutnya. Jika yang Anda maksud adalah posting gung atau posting saya (masih dalam pengeditan, karena saya sedang mengerjakan sejumlah aspeknya), Anda dapat mengidentifikasinya oleh penulisnya.

— Glen_b -Reinstate Monica

Anda tampaknya di atas menyatakan bahwa kurtosis lebih tinggi menyiratkan kecenderungan yang lebih tinggi untuk menghasilkan outlier. Kecuali Anda mendefinisikan outlier secara tautologis (yaitu untuk membuat klaim itu benar), ini bukan pernyataan yang benar dalam kasus umum. Misalnya, cukup mudah untuk membangun pasangan distribusi di mana yang memiliki ekor lebih berat memiliki kurtosis yang lebih rendah.

— Glen_b -Reinstate Monica

Apa yang tampaknya Anda tanyakan di sini adalah kesalahan standar untuk skewness dan kurtosis dari sampel yang diambil dari populasi normal. Perhatikan bahwa ada berbagai cara untuk memperkirakan hal-hal seperti kemiringan atau lemak-ekor (kurtosis), yang jelas akan memengaruhi apa kesalahan standarnya. Langkah-langkah paling umum yang dipikirkan orang lebih dikenal secara teknis sebagai momen standar ke-3 dan ke-4.

$[1, \infty)$ $3$ ${\rm kurtosis} - 3$ $[-2, \infty)$ ${\rm skewness}^2 + 1$ $24/N$ $0$

Untuk apa nilainya, kesalahan standar adalah:

\begin{aligned} S E (s k e w n e s s) & = \sqrt{\frac{6 N (N - 1)}{(N - 2) (N + 1) (N + 3)}} \\ S E (k u r t o s i s) & = 2 \times S E (s k e w n e s s) \sqrt{\frac{N^{2} - 1}{(N - 3) (N + 5)}} \end{aligned}

$\begin{align} SE({\rm skewness}) &= \sqrt{\frac{6N(N-1)}{(N-2)(N+1)(N+3)}} \\[10pt] SE({\rm kurtosis}) &= 2\times SE({\rm skewness})\sqrt{\frac{N^2-1}{(N-3)(N+5)}} \end{align}$

$0$

$<|.5|$
$[|.5|, |1|)$
$\ge |1|$

Ikhtisar pengantar yang baik tentang skewness dan kurtosis dapat ditemukan di sini .

— gung - Pasang kembali Monica
sumber

[Dalam penjelasan berikut, saya berasumsi Anda mengusulkan sesuatu seperti "periksa skewness sampel dan kurtosis, jika keduanya berada dalam beberapa rentang yang ditentukan sebelumnya menggunakan beberapa prosedur teori normal, jika tidak gunakan sesuatu yang lain".]

Ada sejumlah aspek untuk ini, yang mana kita hanya akan memiliki ruang untuk beberapa pertimbangan. Saya akan mulai dengan membuat daftar apa yang menurut saya masalah-masalah penting yang mungkin perlu dilihat sebelum melompat menggunakan kriteria seperti ini. Saya akan berusaha untuk kembali dan menulis sedikit tentang setiap item nanti:

Masalah yang harus dipertimbangkan

Seberapa parah berbagai jenis ketidaknormalan itu penting terhadap apa pun yang kita lakukan?
Seberapa sulit untuk mengambil penyimpangan tersebut menggunakan rentang pada kemiringan dan kurtosis sampel?

Satu hal yang saya setujui dalam proposal - ia melihat sepasang tindakan yang berkaitan dengan ukuran efek ( berapa banyak penyimpangan dari normalitas) daripada signifikansi. Dalam hal itu akan lebih dekat untuk mengatasi sesuatu yang berguna bahwa tes hipotesis formal akan, yang akan cenderung untuk menolak penyimpangan bahkan sepele pada ukuran sampel besar, sambil menawarkan penghiburan palsu dari penolakan terhadap penyimpangan yang jauh lebih besar (dan lebih berdampak) di ukuran sampel kecil. (Tes hipotesis menjawab pertanyaan yang salah di sini.)

Tentu saja pada ukuran sampel kecil itu masih bermasalah dalam arti bahwa langkah-langkahnya sangat "berisik", jadi kita masih bisa tersesat di sana (interval kepercayaan akan membantu kita melihat seberapa buruk itu sebenarnya).

Itu tidak memberi tahu kita bagaimana penyimpangan dalam skewness atau kurtosis berhubungan dengan masalah dengan apa pun yang kita inginkan normalitas - dan prosedur yang berbeda bisa sangat berbeda dalam tanggapannya terhadap non-normalitas.

Itu tidak membantu kita jika penyimpangan kita dari keadaan normal adalah jenis kemiringan dan kurtosis yang menjadi buta.
Jika Anda menggunakan statistik sampel ini sebagai dasar untuk memutuskan antara dua prosedur, apa dampaknya pada sifat-sifat inferensi yang dihasilkan (misalnya untuk tes hipotesis, seperti apa tingkat signifikansi dan kekuatan Anda seperti melakukan ini?)
Ada jumlah tak terbatas dari distribusi yang memiliki kemiringan dan kurtosis yang persis sama dengan distribusi normal tetapi jelas non-normal. Mereka bahkan tidak perlu simetris! Bagaimana keberadaan hal-hal tersebut berdampak pada penggunaan prosedur tersebut? Apakah perusahaan akan hancur sejak awal?
Berapa banyak variasi dalam kemiringan dan kurtosis sampel yang dapat Anda lihat dalam sampel yang diambil dari distribusi normal? (Berapa proporsi sampel normal yang pada akhirnya akan kita buang dengan aturan tertentu?)

[Sebagian masalah ini terkait dengan beberapa hal yang dibahas gung dalam jawabannya.]
Mungkinkah ada sesuatu yang lebih baik untuk dilakukan?

Akhirnya, jika setelah mempertimbangkan semua masalah ini, kami memutuskan bahwa kami harus melanjutkan dan menggunakan pendekatan ini, kami tiba pada pertimbangan yang berasal dari pertanyaan Anda:

apa batas yang baik untuk ditempatkan pada kemiringan dan pada kurtosis untuk berbagai prosedur? Variabel apa yang perlu kita khawatirkan dalam prosedur apa?

(misalnya jika kita sedang melakukan regresi, perhatikan bahwa tidak tepat untuk berurusan dengan IV apa pun dan bahkan DV mentah dengan cara ini - tidak ada yang diasumsikan diambil dari distribusi normal yang sama)

Saya akan kembali dan menambahkan beberapa pemikiran, tetapi komentar / pertanyaan yang Anda miliki sementara itu mungkin berguna.

— Glen_b -Reinstate Monica
sumber

0

$0$

Dan saya juga tidak mengerti mengapa kita perlu rentang nilai tertentu untuk skewness & kurtosis untuk melakukan tes normalitas?

— Dark_Knight