Saya sedang belajar tentang Fungsi Distribusi Kumulatif Empiris. Tapi saya masih belum mengerti
Mengapa disebut 'Empiris'?
Apakah ada perbedaan antara CDF Empiris dan CDF?
Saya sedang belajar tentang Fungsi Distribusi Kumulatif Empiris. Tapi saya masih belum mengerti
Mengapa disebut 'Empiris'?
Apakah ada perbedaan antara CDF Empiris dan CDF?
Jawaban:
Biarkan menjadi variabel acak.
Perbedaannya adalah ukuran probabilitas yang digunakan. Untuk CDF empiris, Anda menggunakan ukuran probabilitas yang ditentukan oleh jumlah frekuensi dalam sampel empiris.
Misalkan adalah variabel acak yang menunjukkan hasil flip koin tunggal di mana menunjukkan kepala dan menunjukkan ekor.
CDF untuk koin yang adil diberikan oleh:
Jika Anda membalik 2 kepala dan 1 ekor, CDF empiris akan menjadi:
Empiris CDF akan mencerminkan bahwa dalam sampel Anda, dari membalik Anda adalah kepala.
Misalkan adalah variabel acak yang terdistribusi normal dengan rata-rata dan standar deviasi .
CDF diberikan oleh:
Dengan penarikan IID yang cukup (dan kondisi keteraturan tertentu terpenuhi), CDF empiris akan menyatu pada CDF yang mendasari populasi.
Apakah ada perbedaan antara CDF Empiris dan CDF?
Ya, mereka berbeda. Cdf empiris adalah cdf yang tepat, tetapi cdf empiris akan selalu terpisah bahkan ketika tidak diambil dari distribusi diskrit, sedangkan cdf dari distribusi dapat berupa hal-hal lain selain diskrit.
Jika Anda memperlakukan sampel seolah-olah itu adalah populasi nilai, masing-masing kemungkinan sama (yaitu menempatkan probabilitas 1 / n pada setiap pengamatan) maka cdf dari distribusi itu akan menjadi ECDF dari data.
Mengapa itu disebut 'Empiris'?
Ini adalah perkiraan populasi berdasarkan pada sampel; khususnya jika Anda memperlakukan proporsi sampel pada setiap nilai data yang berbeda dan memperlakukannya seperti kemungkinan dalam populasi, Anda mendapatkan ECDF.
Empiris memiliki arti sesuatu seperti "dengan mengamati daripada teori", dan itulah yang artinya dalam kasus ini ... menggunakan pengamatan untuk menentukan fungsi distribusi.
CDF empiris dibangun dari kumpulan data aktual (dalam plot di bawah ini, saya menggunakan 100 sampel dari distribusi normal standar). CDF adalah konstruksi teoretis - ini adalah apa yang akan Anda lihat jika Anda bisa mengambil banyak sampel.
CDF empiris biasanya mendekati CDF dengan cukup baik, terutama untuk sampel besar (pada kenyataannya, ada teorema tentang seberapa cepat konvergen ke CDF ketika ukuran sampel meningkat).
Empiris adalah sesuatu yang Anda bangun dari data dan pengamatan. Misalnya, Anda ingin tahu tentang distribusi ketinggian orang di suatu negara. Anda mulai dengan mengukur orang dan menghasilkan histogram yang dapat diperkirakan mendekati suatu distribusi. Kemudian Anda menghitung CDF empiris.
Jika Anda menggunakan distribusi statistik (rumus deterministik yang memberikan output yang sama persis dengan parameter yang sama), Anda juga dapat menghitung CDF-nya.
Anda dapat mengatakan "Tinggi orang di negara ini terdistribusi mirip dengan distribusi normal dengan rata-rata 1,75 m dan standar deviasi 0,1 m. Kemudian Anda dapat menggunakan CDF ~ bukannya CDF yang dibangun dari distribusi empiris.
Menurut Dictionary.com , definisi "empiris" meliputi:
berasal dari atau dibimbing oleh pengalaman atau percobaan.
Karenanya, CDF Empiris adalah CDF yang Anda peroleh dari data Anda. Ini kontras dengan CDF teoretis (sering hanya disebut "CDF"), yang diperoleh dari model statistik atau probabilistik seperti distribusi Normal.