Apa perbedaan antara plot probabilitas, plot PP dan plot QQ ketika mencoba menganalisis distribusi yang sesuai dengan data?
Apa perbedaan antara plot probabilitas, plot PP dan plot QQ ketika mencoba menganalisis distribusi yang sesuai dengan data?
Jawaban:
Sebagai @ vector07 catatan , plot probabilitas adalah kategori yang lebih abstrak yang pp-plot dan qq-plot adalah anggota. Jadi, saya akan membahas perbedaan antara keduanya. Cara terbaik untuk memahami perbedaan adalah dengan memikirkan bagaimana mereka dibangun, dan untuk memahami bahwa Anda perlu mengenali perbedaan antara kuantil suatu distribusi dan proporsi distribusi yang telah Anda lewati ketika Anda mencapai jumlah tertentu. Anda dapat melihat hubungan antara ini dengan merencanakan fungsi distribusi kumulatif (CDF) dari suatu distribusi. Sebagai contoh, pertimbangkan distribusi normal standar:
Kita melihat bahwa sekitar 68% dari sumbu y (wilayah antara garis merah) sesuai dengan 1/3 dari sumbu x (wilayah antara garis biru). Itu berarti bahwa ketika kita menggunakan proporsi distribusi yang telah kita lewati untuk mengevaluasi kecocokan antara dua distribusi (yaitu, kita menggunakan plot-pp), kita akan mendapatkan banyak resolusi di pusat distribusi, tetapi kurang pada ekornya. Di sisi lain, ketika kita menggunakan kuantil untuk mengevaluasi kecocokan antara dua distribusi (yaitu, kita menggunakan plot-qq), kita akan mendapatkan resolusi yang sangat baik di bagian akhir, tetapi lebih sedikit di bagian tengah. (Karena analis data biasanya lebih peduli tentang ekor distribusi, yang akan lebih berpengaruh pada inferensi misalnya, plot qq jauh lebih umum daripada pp-plot.)
Untuk melihat fakta-fakta ini dalam tindakan, saya akan berjalan melalui konstruksi plot-plot dan plot-qq. (Saya juga berjalan melalui konstruksi qq-plot secara verbal / lebih lambat di sini: QQ-plot tidak cocok dengan histogram .) Saya tidak tahu apakah Anda menggunakan R, tetapi mudah-mudahan itu akan cukup jelas:
set.seed(1) # this makes the example exactly reproducible
N = 10 # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1)) # from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x)) # here I calculate the probabilities associated
# w/ these data if they came from a normal
# distribution w/ the same mean & SD
# I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x)) # this calculates the quantiles (ie
# z-scores) associated w/ the props
my.data = data.frame(x=x, props=props, # here I bundle them together
normal.proportions=n.props,
normal.quantiles=n.quantiles)
round(my.data, digits=3) # & display them w/ 3 decimal places
# x props normal.proportions normal.quantiles
# 1 -0.836 0.091 0.108 -0.910
# 2 -0.820 0.182 0.111 -0.577
# 3 -0.626 0.273 0.166 -0.340
# 4 -0.305 0.364 0.288 -0.140
# 5 0.184 0.455 0.526 0.043
# 6 0.330 0.545 0.600 0.221
# 7 0.487 0.636 0.675 0.404
# 8 0.576 0.727 0.715 0.604
# 9 0.738 0.818 0.781 0.841
# 10 1.595 0.909 0.970 1.174
Sayangnya, plot-plot ini tidak terlalu berbeda, karena hanya ada sedikit data dan kami membandingkan normal normal dengan distribusi teoretis yang benar, sehingga tidak ada sesuatu yang istimewa untuk dilihat baik di pusat maupun di ujung distribusi. Untuk menunjukkan perbedaan-perbedaan ini dengan lebih baik, saya merencanakan distribusi t (tail-tail) dengan 4 derajat kebebasan, dan distribusi bi-modal di bawah ini. Ekor lemak jauh lebih khas dalam plot-qq, sedangkan bi-modalitas lebih khas dalam plot-pp.
Berikut adalah definisi dari v8doc.sas.com :
Plot PP membandingkan fungsi distribusi kumulatif empiris dari kumpulan data dengan fungsi distribusi kumulatif teoretis yang ditentukan F (·). Plot QQ membandingkan kuantil dari distribusi data dengan kuantil dari distribusi teoritis standar dari keluarga distribusi tertentu.
Dalam teks, mereka juga menyebutkan:
Referensi :
SAS Institute Inc., SAS OnlineDoc®, Versi 8, Cary, NC: SAS Institute Inc., 1999