Apa itu normalitas?


Jawaban:


29

Asumsi normalitas hanyalah anggapan bahwa variabel kepentingan acak yang mendasarinya didistribusikan secara normal , atau kira-kira demikian. Secara intuitif, normalitas dapat dipahami sebagai hasil dari sejumlah besar peristiwa acak independen.

Lebih khusus lagi, distribusi normal ditentukan oleh fungsi berikut:

teks alternatif

di mana μ dan σ2 adalah rata-rata dan varians, masing-masing, dan yang muncul sebagai berikut:

teks alternatif

Ini dapat diperiksa dalam berbagai cara , yang mungkin lebih atau kurang cocok untuk masalah Anda dengan fitur-fiturnya, seperti ukuran n. Pada dasarnya, mereka semua menguji fitur yang diharapkan jika distribusinya normal (misalnya distribusi kuantil yang diharapkan ).


33

Satu catatan: Asumsi normal sering BUKAN tentang variabel Anda, tetapi tentang kesalahan, yang diperkirakan oleh residual. Misalnya, dalam regresi linier ; tidak ada asumsi bahwa terdistribusi secara normal, hanya itu yang .Y=a+bx+eYe


16
+1. Akhirnya seseorang telah menunjukkan apa yang mungkin merupakan aspek paling penting dari pertanyaan ini: dalam kebanyakan situasi, "normalitas" penting dalam hal residu atau sampling distribusi statistik, bukan dalam hal distribusi populasi!
whuber

4
Saya akan menambahkan bahwa jika terdistribusi secara normal, maka Y setidaknya kondisional juga. Saya pikir ini yang terlewatkan - orang berpikir bahwa Y adalah marginal normal tetapi sebenarnya kondisionalitas yang diperlukan. Contoh paling sederhana dari ini adalah ANOVA satu arah. e
probabilityislogic

Persyaratan apa?
bill_e

1
@bill_e variabel bebas
Glen_b -Reinstate Monica

10

Pertanyaan terkait dapat ditemukan di sini tentang asumsi normal kesalahan (atau lebih umum dari data jika kita tidak memiliki pengetahuan sebelumnya tentang data).

Pada dasarnya,

  1. Secara matematis nyaman untuk menggunakan distribusi normal. (Ini terkait dengan fitting Least Squares dan mudah diselesaikan dengan pseudoinverse)
  2. Karena Teorema Limit Sentral, kita dapat berasumsi bahwa ada banyak fakta mendasar yang memengaruhi proses dan jumlah efek individu ini cenderung berperilaku seperti distribusi normal. Dalam praktiknya, sepertinya begitu.

Sebuah catatan penting dari sana adalah bahwa, seperti yang dinyatakan oleh Terence Tao di sini , "Secara kasar, teorema ini menegaskan bahwa jika seseorang mengambil statistik yang merupakan kombinasi dari banyak komponen independen dan berfluktuasi secara acak, tanpa satu komponen yang memiliki pengaruh yang menentukan pada keseluruhan , maka statistik itu akan didistribusikan kira-kira sesuai dengan hukum yang disebut distribusi normal ".

Untuk memperjelas ini, izinkan saya menulis cuplikan kode Python

# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem

@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""

import scipy, scipy.stats
import numpy as np
import pylab

#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random

y = y / sum(y);

N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)

# Plotting details 
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])

#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
    y = np.convolve(y,y)
    y = y / sum(y);    

    x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
    ax = pylab.subplot(N+1,1,i+1)
    pylab.plot(x,y)
    ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
    ax.set_xticks([2**i * 10])
    ax.set_yticks([round(np.max(y),3)])

pylab.show()

Distribusi acak

Distribusi eksponensial

Distribusi seragam

Seperti dapat dilihat dari gambar, distribusi yang dihasilkan (penjumlahan) cenderung ke arah distribusi normal terlepas dari jenis distribusi individu. Jadi, jika kita tidak memiliki informasi yang cukup tentang efek yang mendasari data, asumsi normalitas wajar.


1
CLT tidak memungkinkan kita untuk mengasumsikan ada banyak efek individu dalam setiap proses yang diberikan - jika kita diberi bahwa ada banyak faktor individu yang tidak terlalu tergantung berkontribusi pada pengukuran (tidak ada yang memiliki terlalu banyak dari total variasi), kita dapat dibenarkan dengan asumsi normalitas dengan menggunakan CLT. Asumsi banyak kontribusi mendahului penerapan CLT, itu sama sekali bukan hasil dari CLT. Kalau tidak semuanya akan normal, padahal sebenarnya itu hanya kadang-kadang benar.
Glen_b -Reinstate Monica

5

Anda tidak bisa tahu apakah ada normalitas dan itu sebabnya Anda harus membuat asumsi yang ada di sana. Anda hanya dapat membuktikan tidak adanya normal dengan tes statistik.

Lebih buruk lagi, ketika Anda bekerja dengan data dunia nyata, hampir pasti bahwa tidak ada normalitas sejati dalam data Anda.

Itu berarti bahwa uji statistik Anda selalu sedikit bias. Pertanyaannya adalah apakah Anda bisa hidup dengan bias itu. Untuk melakukan itu, Anda harus memahami data dan jenis normalitas yang diasumsikan oleh alat statistik Anda.

Itulah alasan mengapa alat Frequentist sama subjektifnya dengan alat Bayesian. Anda tidak dapat menentukan berdasarkan data yang terdistribusi secara normal. Anda harus menganggap normalitas.


5
Anda tidak dapat membuktikan apa pun menggunakan statistik. Sebuah bukti harus tepat. Statistik adalah tentang probabilitas. Bahkan ap = 0,99 hasil dari Chi kuadrat tidak "membuktikan" bahwa distribusi yang mendasarinya tidak normal. Sangat tidak mungkin itu normal.
xmjx

@xmjx: Anda bahkan tidak bisa mengatakan bahwa distribusi yang diberikan mungkin terdistribusi normal. Jika Anda memiliki distribusi dengan di mana 99,99% dari nilai Anda adalah 1 tetapi 0,01% dari nilai Anda adalah 1000000, uji statistik bahwa sampel 100 nilai memiliki peluang bagus untuk memberi tahu Anda secara salah bahwa distribusi Anda terdistribusi secara normal.
Christian

2
Saya tidak banyak ahli statistik, jadi ini mungkin tampak seperti pertanyaan konyol ... bukankah "normalitas sejati" ada dalam proses yang mendasari yang menghasilkan variabel daripada data? Ini mungkin tampak seperti perbedaan konyol, tetapi mungkin bisa menyelamatkan beberapa pencarian jiwa. Jika data yang dikumpulkan tidak sepenuhnya normal, tetapi proses acak yang mendasarinya bekerja pada dasarnya normal, apakah itu situasi di mana Anda dapat memutuskan untuk "hidup dengan bias"?
Jonathan

@Christian - komentar Anda bahwa "... 100 nilai berpeluang bagus ..." sama sekali tidak didukung oleh peretasan saya: x = c (rep (1,99), rep (1000000,1)); ks.test (x, pnorm)> Asumsi normal masih "ditolak" oleh Uji KS.
rolando2

Saya suka jawaban ini (+1) tetapi agak pesimis tentang apa yang dapat dilakukan dengan asumsi normalitas. Ini biasanya merupakan titik awal yang baik untuk pemodelan apa pun, dan Anda dapat menggeneralisasi ke kelas distribusi yang sangat luas dengan mengambil campuran atau fungsi variabel acak yang terdistribusi normal.
probabilityislogic

4

Asumsi normalitas mengasumsikan data Anda terdistribusi normal (kurva lonceng, atau distribusi gaussian). Anda dapat memeriksanya dengan memplot data atau memeriksa pengukuran untuk kurtosis (seberapa tajam puncaknya) dan skewdness (?) (Jika lebih dari separuh data berada di satu sisi puncak).


2
Tingkat kurtosis dan skewdness apa yang dapat diterima untuk memenuhi asumsi normalitas?
A Lion

5
Sebagian besar metode statistik mengasumsikan normalitas, bukan data, tetapi lebih dari variabel acak yang diasumsikan, misalnya istilah kesalahan dalam regresi linier. Memeriksa melibatkan melihat residu, bukan data asli!

3

Jawaban lain telah membahas apa itu normalitas dan menyarankan metode uji normalitas. Christian menyoroti bahwa dalam praktiknya, normalitas sempurna nyaris tidak ada.

Saya menyoroti bahwa penyimpangan yang diamati dari normalitas tidak selalu berarti bahwa metode dengan asumsi normalitas tidak dapat digunakan, dan uji normalitas mungkin tidak terlalu berguna.

  1. Penyimpangan dari normalitas mungkin disebabkan oleh pencilan yang disebabkan oleh kesalahan dalam pengumpulan data. Dalam banyak kasus memeriksa log pengumpulan data Anda dapat memperbaiki angka-angka ini dan normalitas sering membaik.
  2. Untuk sampel besar, uji normalitas akan dapat mendeteksi deviasi yang dapat diabaikan dari normalitas.
  3. Metode dengan asumsi normalitas mungkin kuat untuk non-normalitas dan memberikan hasil akurasi yang dapat diterima. Uji-t dikenal kuat dalam hal ini, sedangkan uji F bukan sumber ( permalink ) . Mengenai metode spesifik, yang terbaik adalah memeriksa literatur tentang ketahanan.

1
Saya pikir alasan mengapa normalitas adalah asumsi yang baik adalah karena relatif kurangnya penggunaan data - hanya dua momen pertama yang digunakan dalam estimasi dengan distribusi normal. Ini membuat pemeriksaan diagnostik model kuadrat terkecil sangat mudah - pada dasarnya Anda hanya mencari outlier yang dapat mempengaruhi statistik yang cukup.
probabilityislogic

3

Untuk menambah jawaban di atas: "Asumsi normalitas" adalah bahwa, dalam model , istilah residuak didistribusikan secara normal. Asumsi ini (seperti yang saya ANOVA) sering sejalan dengan yang lain: 2) Varians dari adalah konstan, 3) independensi pengamatan.Y=μ+Xβ+ϵϵσ2ϵ

Dari tiga asumsi ini, 2) dan 3) sebagian besar sangat penting daripada 1)! Jadi, Anda harus lebih menyibukkan diri dengan mereka. George Box mengatakan sesuatu di baris "" Untuk membuat tes pendahuluan pada varian agak seperti melaut di perahu baris untuk mengetahui apakah kondisinya cukup tenang bagi kapal laut untuk meninggalkan pelabuhan! "- [Box," Non -normalitas dan tes pada varian ", 1953, Biometrika 40, hlm. 318-335]"

Ini berarti bahwa, varians yang tidak merata sangat memprihatinkan, tetapi sebenarnya pengujian untuk mereka sangat sulit, karena tes dipengaruhi oleh non-normal sehingga sangat kecil sehingga tidak penting untuk pengujian rata-rata. Hari ini, ada tes non-parametrik untuk varian yang tidak sama yang PASTI harus digunakan.

Singkatnya, sibukkan diri Anda terlebih dahulu tentang varians yang tidak setara, kemudian tentang normalitas. Ketika Anda telah membuat diri Anda berpendapat tentang mereka, Anda dapat berpikir tentang normalitas!

Berikut ini banyak saran bagus: http://rfd.uoregon.edu/files/rfd/StatributionResources/glm10_homog_var.txt


Saya yakin interpretasi saya benar. Box juga telah menulis panjang lebar tentang ini di Box, Hunter & Hunter: Statistik untuk Eksperimen yang telah saya baca dengan seksama. Tetapi sekarang saya melihat bahwa apa yang saya tulis tentang apa yang tidak saya maksudkan, seharusnya mengatakan ... lalu tentang normalitas! varians yang tidak sama jauh lebih penting daripada normalitas. Tentu saja, independensi adalah ibu dari semua asumsi.
kjetil b halvorsen
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.