Jumlah optimal tempat sampah dalam histogram oleh aturan Freedman-Diaconis: perbedaan antara tingkat teoritis dan jumlah aktual


8

Wikipedia melaporkan bahwa di bawah aturan Freedman dan Diaconis, jumlah optimal tempat sampah dalam histogram, harus tumbuh sebagaik

kn1/3

di mana adalah ukuran sampel.n

Namun, Jika Anda melihat nclass.FDfungsi dalam R, yang mengimplementasikan aturan ini, setidaknya dengan data Gaussian dan ketika , jumlah tampaknya tumbuh pada tingkat yang lebih cepat daripada , lebih dekat ke (sebenarnya, yang paling cocok menyarankan ). Apa alasan untuk perbedaan ini?catatan(n)(8,16)n1/3n1-1/3mn0,4


Edit: info lebih lanjut:

masukkan deskripsi gambar di sini

Garis adalah OLS satu, dengan mencegat 0.429 dan kemiringan 0.4. Dalam setiap kasus, data ( x) dihasilkan dari gaussian standar dan dimasukkan ke dalam nclass.FD. Plot menggambarkan ukuran (panjang) vektor vs jumlah kelas optimal yang dikembalikan oleh nclass.FDfungsi.

Mengutip dari wikipedia:

Alasan yang bagus mengapa jumlah sampah harus proporsional n1/3 adalah sebagai berikut: anggaplah bahwa data diperoleh sebagai realisasi n independen dari distribusi probabilitas terbatas dengan kepadatan halus. Maka histogram tetap sama "kasar" karena n cenderung tak hingga. Jikas adalah »lebar« dari distribusi (mis., standar deviasi atau kisaran antar kuartil), maka jumlah unit dalam nampan (frekuensi) sesuai urutan nh/s dan kesalahan standar relatif adalah urutan s/(nh). Dibandingkan dengan tempat sampah berikutnya, perubahan relatif dari frekuensi adalah urutanh/sdengan ketentuan bahwa turunan dari kerapatan adalah bukan nol. Keduanya memiliki urutan yang sama jikah teratur s/n1/3, maka k teratur n1/3.

Aturan Freedman – Diaconis adalah:

h=2IQR(x)n1/3

Seingat saya nomor bin sebanding dengan n1/3, tidak seperti yang dilaporkan di atas.
Nick Cox

1
Sudah larut malam bagi saya untuk memeriksa literatur, tetapi formula Anda tidak berbunyi dengan saya.
Nick Cox

Tentunya ini tidak lebih dari aturan praktis yang masuk akal, dan karenanya perbedaan tidak ada impor teoretis. Apakah ada yang lebih dari itu?
Michael Lew

1
Anda tidak merencanakan h; Anda tampaknya merencanakank=Jarak n1/3/(2 IQR)(tercakup). Kecuali Anda menstandarkan data ke nilai konstanJarak/IQR, maka plot ini mengacaukan perubahan dalam kisaran dengan perubahan dalam k(mungkin IQR akan cukup stabil). Jadi apa yang Anda lakukan untuk menghasilkan plot ini?
whuber

2
@whuber: ya itulah yang menyebabkan perbedaan: Saya lupa menyesuaikan kenaikan kisaran.
user603

Jawaban:


8

Alasannya berasal dari fakta bahwa fungsi histogram diharapkan mencakup semua data, sehingga harus menjangkau rentang data.

Aturan Freedman-Diaconis memberikan rumus untuk lebar tempat sampah.

Fungsi ini memberikan formula untuk jumlah nampan.

Hubungan antara jumlah tempat sampah dan lebar tempat sampah akan dipengaruhi oleh rentang data.

Dengan data Gaussian, rentang yang diharapkan meningkat dengan n.

Inilah fungsinya:

> nclass.FD
function (x) 
{
    h <- stats::IQR(x)
    if (h == 0) 
        h <- stats::mad(x, constant = 2)
    if (h > 0) 
        ceiling(diff(range(x))/(2 * h * length(x)^(-1/3)))
    else 1L
}
<bytecode: 0x086e6938>
<environment: namespace:grDevices>

diff(range(x)) adalah rentang data.

Jadi seperti yang kita lihat, ia membagi rentang data dengan rumus FD untuk lebar bin (dan dibulatkan ke atas) untuk mendapatkan jumlah sampah.

Sepertinya saya bisa lebih jelas, jadi inilah penjelasan yang lebih terperinci:
Aturan Freedman-Diaconis yang sebenarnya bukan aturan untuk jumlah tempat sampah, tetapi untuk lebar tempat sampah. Dengan analisis mereka, lebar bin harus sebanding dengann-1/3. Karena lebar total histogram harus terkait erat dengan rentang sampel (mungkin sedikit lebih lebar, karena pembulatan ke angka yang bagus), dan rentang yang diharapkan berubah dengann, jumlah tempat sampah tidak berbanding terbalik dengan lebar bin, tetapi harus meningkat lebih cepat dari itu. Jadi jumlah tempat sampah seharusnya tidak bertambahn1/3 - Dekat dengan itu, tetapi sedikit lebih cepat, karena cara rentang masuk ke dalamnya.

Melihat data dari tabel 1925 Tippett [1], kisaran yang diharapkan dalam sampel normal standar tampaknya tumbuh cukup lambat n, meskipun - lebih lambat dari catatan(n):

masukkan deskripsi gambar di sini

(Memang, amuba menunjukkan dalam komentar di bawah ini bahwa itu harus proporsional - atau hampir begitu - untuk catatan(n), yang tumbuh lebih lambat dari yang tampaknya disarankan oleh analisis Anda. Ini membuat saya bertanya-tanya apakah ada masalah lain yang masuk, tetapi saya belum menyelidiki apakah efek rentang ini sepenuhnya menjelaskan data Anda.)

Pandangan cepat pada angka Tippett (yang naik ke n = 1000) menunjukkan bahwa kisaran yang diharapkan dalam Gaussian sangat dekat dengan linear pada catatan(n) lebih 10n1000, tetapi tampaknya tidak proporsional untuk nilai dalam rentang ini.

masukkan deskripsi gambar di sini

[1]: LHC Tippett (1925). "Pada Individu Ekstrim dan Rentang Sampel Diambil dari Populasi Normal". Biometrika 17 (3/4): 364-387


1
Tidak juga, tidak. Lebih detail ditambahkan.
Glen_b -Reinstate Monica

1
Aturan Freedman-Diaconis yang sebenarnya bukan aturan untuk jumlah tempat sampah, tetapi untuk lebar bin. Dengan analisis mereka, lebar bin harus sebanding dengann-1/3. Karena lebar total histogram harus terkait erat dengan rentang sampel (mungkin sedikit lebih lebar, karena pembulatan ke angka yang bagus), dan rentang yang diharapkan berubah dengann, jumlah tempat sampah tidak berbanding terbalik dengan lebar bin. Jadi jumlah tempat sampah seharusnya tidak bertambahn1/3- setidaknya tidak cukup, karena cara rentang masuk ke dalamnya.
Glen_b -Reinstate Monica

3
Alasan yang Anda kutip dari wikipedia dalam pertanyaan Anda tidak mempertimbangkan efek rentang sampel.
Glen_b -Reinstate Monica

1
Saya pikir ini menyelesaikannya.
user603

2
Jika saya menerapkan posting math.SE ini dengan benar, rentangnya akan bertambah sebagaicatatan(n).
amoeba
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.