Jika kita ingin melihat distribusi data secara terus-menerus, yang manakah di antara histogram dan pdf yang harus digunakan?
Apa perbedaannya, bukan berdasarkan rumus, antara histogram dan pdf?
Jika kita ingin melihat distribusi data secara terus-menerus, yang manakah di antara histogram dan pdf yang harus digunakan?
Apa perbedaannya, bukan berdasarkan rumus, antara histogram dan pdf?
Jawaban:
Untuk memperjelas poin Dirks:
Katakanlah data Anda adalah sampel dari distribusi normal. Anda dapat membuat plot berikut:
Garis merah adalah estimasi kepadatan empiris, garis biru adalah pdf teoritis dari distribusi normal yang mendasarinya. Perhatikan bahwa histogram dinyatakan dalam kepadatan dan bukan dalam frekuensi di sini. Ini dilakukan untuk keperluan merencanakan, frekuensi umum digunakan dalam histogram.
Jadi untuk menjawab pertanyaan Anda: Anda menggunakan distribusi empiris (yaitu histogram) jika Anda ingin menggambarkan sampel Anda, dan pdf jika Anda ingin menggambarkan distribusi yang mendasarinya dihipotesiskan.
Plot dihasilkan oleh kode berikut dalam R:
x <- rnorm(100)
y <- seq(-4,4,length.out=200)
hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Histogram adalah perkiraan usia pra-komputer dari kepadatan. Estimasi kepadatan adalah alternatif.
Saat ini kami menggunakan keduanya, dan ada literatur yang kaya tentang default yang harus digunakan.
Pdf, di sisi lain, adalah ekspresi bentuk tertutup untuk distribusi yang diberikan . Itu berbeda dari menggambarkan dataset Anda dengan perkiraan kepadatan atau histogram.
Tidak ada aturan yang keras dan cepat di sini. Jika Anda mengetahui kepadatan populasi Anda, maka PDF lebih baik. Di sisi lain, sering kita berurusan dengan sampel dan histogram mungkin menyampaikan beberapa informasi yang diperkirakan menutupi kepadatan. Sebagai contoh, Andrew Gelman menyatakan hal ini:
Manfaat utama histogram adalah bahwa, sebagai sebidang data mentah, ia berisi benih penilaian kesalahannya sendiri. Atau, dengan kata lain, kekerabatan dari histogram yang sedikit kurang mulus melakukan layanan yang bermanfaat dengan secara visual menunjukkan variabilitas pengambilan sampel. Itu sebabnya, jika Anda melihat histogram di buku saya dan artikel yang diterbitkan, saya hampir selalu menggunakan banyak tempat sampah. Saya juga hampir tidak pernah menyukai estimasi kepadatan kernel yang kadang-kadang digunakan orang untuk menampilkan distribusi satu dimensi. Saya lebih suka melihat histogram dan tahu di mana datanya.
Histogram frekuensi relatif ( diskrit )
Histogram Kerapatan ( diskrit )
Fungsi Probability Density PDF ( berkelanjutan )
Referensi ini sangat membantu :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function
Continuous_probability_distribution dari situs di atas
http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html