Akankah dua distribusi dengan ringkasan 5-angka yang identik selalu memiliki bentuk yang sama?

Saya tahu bahwa jika saya dapat memiliki dua distribusi dengan mean dan varians yang sama, bentuk yang berbeda, karena saya dapat memiliki N (x, s) dan U (x, s)

Tetapi bagaimana jika min, Q1, median, Q3, dan maks mereka identik?

Dapatkah distribusi terlihat berbeda saat itu, atau akankah mereka diminta untuk mengambil bentuk yang sama?

Logika saya satu-satunya di balik ini adalah jika mereka memiliki ringkasan 5-angka yang sama persis mereka harus mengambil bentuk distribusi yang sama persis.

distributions descriptive-statistics

— Marcin
sumber

Jawaban atas pertanyaan ini dalam beberapa hal sudah jelas - jika kita bisa sepenuhnya menkarakterisasi distribusi apa pun hanya dengan mengutip lima angka tentangnya, maka semua ujian pada distribusi probabilitas akan jauh lebih mudah! Tapi itu meningkatkan poin menarik dari seberapa banyak informasi yang hilang ketika kita mengutip ringkasan lima angka atau menyajikan data secara grafik dalam plot kotak.

— Silverfish

Berhati-hatilah

U (x, s)

$U(x,s)$ biasanya tidak digunakan untuk distribusi seragam dengan mean

x

$x$ dan standar deviasi

s

$s$ , melainkan untuk distribusi seragam pada interval yang dimulai pada

x

$x$ dan berakhir pada

s

$s$ . Juga notasi

N (x, s)

$N(x,s)$ jarang digunakan untuk distribusi normal (meskipun saya telah melihat beberapa buku teks yang melakukannya); itu jauh lebih umum untuk parameter kedua untuk mewakili varians daripada standar deviasi.

— Silverfish

Jawaban:

Hanya karena ringkasan lima angka itu identik, tidak berarti bahwa distribusinya sama. Ini memberi tahu Anda berapa banyak informasi yang hilang ketika kami menyajikan data secara grafik dalam plot kotak!

Mungkin cara termudah untuk melihat masalahnya adalah bahwa ringkasan lima angka tidak memberi tahu Anda apa pun tentang distribusi nilai antara kuartil minimum dan kuartil rendah, atau antara kuartil bawah dan median, dan sebagainya. Anda tahu bahwa frekuensi antara kuartil minimum dan terendah harus cocok dengan frekuensi antara kuartil rendah dan median (dengan pengecualian yang jelas, misalnya jika kita memiliki data yang terletak di kuartil, atau lebih buruk, jika dua kuartil terikat) tetapi tidak tahu untuk nilai variabel frekuensi mana yang dialokasikan. Kita dapat memiliki situasi seperti ini:

Distribusi berbeda dengan ringkasan lima angka dan plot kotak yang sama

Dua distribusi ini memiliki ringkasan lima angka yang sama, sehingga plot kotak mereka identik, tetapi saya telah memilih $X$ untuk memiliki distribusi yang seragam antara setiap kuartil sedangkan $Y$ memiliki distribusi dengan frekuensi rendah dekat dengan kuartil dan frekuensi tinggi di tengah dua kuartil. Secara efektif distribusi $Y$ telah dibentuk dengan mengambil distribusi $X$ dan memindahkan sebagian besar data yang dekat dengan kuartil lebih jauh darinya; Rkode saya sebenarnya melakukan ini secara terbalik, dimulai dengan distribusi tidak teratur $Y$ dan meratakan frekuensi dengan mengalokasikan kembali data dari puncak untuk mengisi palung.

EDIT: Seperti yang dikatakan @Glen_b, ini menjadi lebih jelas ketika Anda melihat distribusi kumulatif. Saya telah menambahkan garis kisi untuk menunjukkan lokasi kuartil, yang sama untuk dua distribusi sehingga CDFs empiris mereka bersinggungan.

CDF empiris dari dua distribusi dengan ringkasan lima angka yang sama

Kode r

yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))

x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)

ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n", 
    main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
    yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
       lty = "solid", lwd=2, bty="n")

par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")

summary(x)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00 

summary(y)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00

— Gegat
sumber

+1 Contoh Anda sangat bagus, karena pada awalnya orang mungkin berpikir: well, tentu saja suatu distribusi tidak dapat sepenuhnya dijelaskan oleh lima angka karena itu adalah objek berdimensi tak terbatas, tetapi pasti semua distribusi dengan mean / median / kuartil / etc yang sama. setidaknya sangat mirip! Ya, tidak. Omong-omong, PDF Anda menunjukkannya jauh lebih mencolok daripada CDF.

— amoeba

@amoeba Terima kasih, secara visual histogram jauh lebih mencolok. CDF, saya pikir, menunjukkan dengan lebih jelas apa yang terjadi, dalam arti bagaimana kita bisa menggeneralisasikannya.

— Silverfish

@amoeba Saya tidak yakin saya mengerti "baik, pasti distribusi tidak dapat sepenuhnya dijelaskan oleh lima angka karena ini adalah objek dimensi tak terbatas" apakah Anda menulis itu sebagai contoh dari ide yang keliru? Misalnya, PDF normal adalah objek dua dimensi (atau mungkin satu atau dua dimensi lebih jika Anda ingin menagih untuk konstanta seperti

π

$\pi$ ) ... sedikit lebih kecil dari yang tak terbatas! Maaf jika saya tumpul.

— Alexis

@Alexis Saya pikir saya maksudkan "distribusi [sewenang-wenang]" dalam komentar itu, bukan distribusi dari beberapa keluarga parametrik tertentu ...

— amoeba

@amoeba Itu adil. Terutama karena itu adalah penggunaan retorika. Namun, kita harus berhati-hati tentang melemparkan "tak terhingga" di sekitar ... Saya pikir jika seseorang benar-benar bersikeras pada tak terbatas sebagai bagian dari sistem mereka, mungkin ada arbitrase yang bisa didapat dalam ketidakseimbangan di suatu tempat. :)

— Alexis

Ini paling jelas dijawab dengan mempertimbangkan fungsi distribusi (kumulatif).

Menentukan minimum, maksimum, dan tiga kuartil menentukan dengan tepat 5 poin pada cdf, tetapi cdf di antara titik-titik tersebut dapat berupa fungsi nondecreasing monotonik di antara yang masih melewati titik-titik tersebut:

masukkan deskripsi gambar di sini

Dalam gambar, baik CDF merah dan hitam memiliki minimum, maksimum, dan kuartil yang sama, tetapi jelas merupakan distribusi yang berbeda. Jelas sejumlah CDF lain dapat ditentukan yang juga melewati lima poin yang sama.

Faktanya, yang kami lakukan hanyalah membatasi fungsi distribusi kami menjadi empat kotak:

$\qquad$ masukkan deskripsi gambar di sini

(selama itu juga terus memenuhi persyaratan lain untuk CDF). Itu tidak terlalu banyak pembatasan.

Gagasan yang sama dapat diterapkan pada jumlah sampel - dua CDF empiris yang berbeda mungkin memiliki ringkasan lima angka yang sama.

— Glen_b -Reinstate Monica
sumber

Tidak, jelas bukan itu masalahnya. Sebagai contoh penghitung sederhana, bandingkan distribusi seragam kontinu pada $[0, 3]$ dengan distribusi seragam diskrit pada $\{0, 1, 2, 3\}$ .

Contoh terkait adalah kuartet Anscombe yang terkenal, di mana ada 4 dataset dengan 6 properti sampel yang identik (meskipun berbeda dari yang Anda sebutkan) terlihat sangat berbeda. Lihat: http://en.wikipedia.org/wiki/Anscombe%27s_quartet

— Sven
sumber