Jawaban:
Asumsi normalitas hanyalah anggapan bahwa variabel kepentingan acak yang mendasarinya didistribusikan secara normal , atau kira-kira demikian. Secara intuitif, normalitas dapat dipahami sebagai hasil dari sejumlah besar peristiwa acak independen.
Lebih khusus lagi, distribusi normal ditentukan oleh fungsi berikut:
di mana dan adalah rata-rata dan varians, masing-masing, dan yang muncul sebagai berikut:
Ini dapat diperiksa dalam berbagai cara , yang mungkin lebih atau kurang cocok untuk masalah Anda dengan fitur-fiturnya, seperti ukuran n. Pada dasarnya, mereka semua menguji fitur yang diharapkan jika distribusinya normal (misalnya distribusi kuantil yang diharapkan ).
Satu catatan: Asumsi normal sering BUKAN tentang variabel Anda, tetapi tentang kesalahan, yang diperkirakan oleh residual. Misalnya, dalam regresi linier ; tidak ada asumsi bahwa terdistribusi secara normal, hanya itu yang .
Pertanyaan terkait dapat ditemukan di sini tentang asumsi normal kesalahan (atau lebih umum dari data jika kita tidak memiliki pengetahuan sebelumnya tentang data).
Pada dasarnya,
Sebuah catatan penting dari sana adalah bahwa, seperti yang dinyatakan oleh Terence Tao di sini , "Secara kasar, teorema ini menegaskan bahwa jika seseorang mengambil statistik yang merupakan kombinasi dari banyak komponen independen dan berfluktuasi secara acak, tanpa satu komponen yang memiliki pengaruh yang menentukan pada keseluruhan , maka statistik itu akan didistribusikan kira-kira sesuai dengan hukum yang disebut distribusi normal ".
Untuk memperjelas ini, izinkan saya menulis cuplikan kode Python
# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem
@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""
import scipy, scipy.stats
import numpy as np
import pylab
#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random
y = y / sum(y);
N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)
# Plotting details
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])
#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
y = np.convolve(y,y)
y = y / sum(y);
x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
ax = pylab.subplot(N+1,1,i+1)
pylab.plot(x,y)
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_xticks([2**i * 10])
ax.set_yticks([round(np.max(y),3)])
pylab.show()
Seperti dapat dilihat dari gambar, distribusi yang dihasilkan (penjumlahan) cenderung ke arah distribusi normal terlepas dari jenis distribusi individu. Jadi, jika kita tidak memiliki informasi yang cukup tentang efek yang mendasari data, asumsi normalitas wajar.
Anda tidak bisa tahu apakah ada normalitas dan itu sebabnya Anda harus membuat asumsi yang ada di sana. Anda hanya dapat membuktikan tidak adanya normal dengan tes statistik.
Lebih buruk lagi, ketika Anda bekerja dengan data dunia nyata, hampir pasti bahwa tidak ada normalitas sejati dalam data Anda.
Itu berarti bahwa uji statistik Anda selalu sedikit bias. Pertanyaannya adalah apakah Anda bisa hidup dengan bias itu. Untuk melakukan itu, Anda harus memahami data dan jenis normalitas yang diasumsikan oleh alat statistik Anda.
Itulah alasan mengapa alat Frequentist sama subjektifnya dengan alat Bayesian. Anda tidak dapat menentukan berdasarkan data yang terdistribusi secara normal. Anda harus menganggap normalitas.
Asumsi normalitas mengasumsikan data Anda terdistribusi normal (kurva lonceng, atau distribusi gaussian). Anda dapat memeriksanya dengan memplot data atau memeriksa pengukuran untuk kurtosis (seberapa tajam puncaknya) dan skewdness (?) (Jika lebih dari separuh data berada di satu sisi puncak).
Jawaban lain telah membahas apa itu normalitas dan menyarankan metode uji normalitas. Christian menyoroti bahwa dalam praktiknya, normalitas sempurna nyaris tidak ada.
Saya menyoroti bahwa penyimpangan yang diamati dari normalitas tidak selalu berarti bahwa metode dengan asumsi normalitas tidak dapat digunakan, dan uji normalitas mungkin tidak terlalu berguna.
Untuk menambah jawaban di atas: "Asumsi normalitas" adalah bahwa, dalam model , istilah residuak didistribusikan secara normal. Asumsi ini (seperti yang saya ANOVA) sering sejalan dengan yang lain: 2) Varians dari adalah konstan, 3) independensi pengamatan.
Dari tiga asumsi ini, 2) dan 3) sebagian besar sangat penting daripada 1)! Jadi, Anda harus lebih menyibukkan diri dengan mereka. George Box mengatakan sesuatu di baris "" Untuk membuat tes pendahuluan pada varian agak seperti melaut di perahu baris untuk mengetahui apakah kondisinya cukup tenang bagi kapal laut untuk meninggalkan pelabuhan! "- [Box," Non -normalitas dan tes pada varian ", 1953, Biometrika 40, hlm. 318-335]"
Ini berarti bahwa, varians yang tidak merata sangat memprihatinkan, tetapi sebenarnya pengujian untuk mereka sangat sulit, karena tes dipengaruhi oleh non-normal sehingga sangat kecil sehingga tidak penting untuk pengujian rata-rata. Hari ini, ada tes non-parametrik untuk varian yang tidak sama yang PASTI harus digunakan.
Singkatnya, sibukkan diri Anda terlebih dahulu tentang varians yang tidak setara, kemudian tentang normalitas. Ketika Anda telah membuat diri Anda berpendapat tentang mereka, Anda dapat berpikir tentang normalitas!
Berikut ini banyak saran bagus: http://rfd.uoregon.edu/files/rfd/StatributionResources/glm10_homog_var.txt