Apa yang disebut "fenomena" ini?


8

Di bawah ini adalah histogram dari beberapa data, nampan adalah bilangan bulat, parameter lainnya tidak relevan.

Distribusi yang tumpang tindih

Seperti yang Anda lihat, tampaknya ada dua distribusi normal yang terpisah tetapi tumpang tindih untuk angka ganjil dan genap.

Probabilitas menjadi bilangan genap adalah 1/3, juga 2/3 untuk bilangan ganjil.

Saya tidak memiliki gagasan tentang signifikansi statistik aktual ini agar jujur, jadi saya mencoba mencari tahu apa artinya mempelajari lebih lanjut, tetapi saya tidak dapat menemukan apa pun, saya sudah mencoba banyak istilah pencarian untuk menemukan ini dan bahkan membalikkan pencarian gambar tetapi yang saya dapatkan hanyalah informasi tentang distribusi multimodal dll. dan saya tidak dapat menemukan apa pun ketika distribusi multimoda benar-benar tumpang tindih dengan cara ini

Apakah ada nama untuk ini?

Bagi mereka yang tertarik datanya dari 1.000.000 game acak goofspiel (N = 13) menggunakan skrip matlab

N = 1000000;
random = zeros(1,N);
for i = 1 : N
    pc = randperm(13);
    p1 = randperm(13);
    p2 = randperm(13);
    random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')

Contoh yang lebih umum (meskipun buatan) adalah sebagai berikut

a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
    if(d(i)) 
        c(i) = b(i);
    end
end
bar(c)

Contoh Umum

Seperti contoh pertama ada dua distribusi yang tumpang tindih (segitiga dan normal), tetapi dalam hal ini alih-alih berganti pada setiap titik, itu acak.

Saya tahu ini adalah contoh yang dilebih-lebihkan (dan bahkan bukan histogram) tetapi harus ada contoh hal semacam ini yang benar-benar terjadi dengan data statistik bukan? Kemudian lagi mungkin tidak, atau itu sama sekali tidak relevan?

Pertanyaan sebenarnya ada dua:
Pertanyaan umum - Apa jenis "benda" ini, jika ada? - agar saya (atau siapa pun yang mungkin akan menemukannya) dapat mempelajari lebih lanjut tentang hal itu dan jika ada penyesuaian yang perlu dilakukan.
Pertanyaan yang secara spesifik berkaitan dengan dataset pertama saya - haruskah saya memisahkan nilai ganjil dan genap atau cocok dengan distribusi normal ke seluruh rangkaian?


Sepertinya beberapa model campuran yang funky, di mana pdf adalah 1/3 (pdf of evens) +2/3 (pdf of odds). Saya tidak tahu bagaimana mengerjakan distribusi normal ke dalamnya karena itu jelas tidak kontinu.
Huy Pham

Apa sebenarnya pertanyaannya? Anda tampaknya mensimulasikan beberapa data, yang mengikuti beberapa distribusi aneh, tetapi apa sebenarnya masalahnya?
Tim

1
@Tim saya sudah mengeditnya agar sedikit lebih jelas. Saya kira saya di bawah asumsi bahwa ini lebih jarang daripada sebelumnya, dan telah dipelajari sebelumnya. Jika bukan itu masalahnya maka pertanyaannya adalah bagaimana saya akan menjelaskan / memodelkan distribusi set data pertama saya
Benjamin Tilbury

@BenjaminTilbury tentang pertanyaan terakhir Anda, pas. Anda bisa lebih mudah memasukkan kurva kepadatan normal ke histogram saat Anda menambah ukuran nampan menjadi dua. Pendekatan lain adalah agar sesuai dengan distribusi kumulatif. Pilihan mana yang Anda pilih sedikit tergantung pada apa yang akan Anda lakukan dengannya. Mungkin minat Anda lebih pada fungsi distribusi kumulatif.
Sextus Empiricus

Ini disebut "aliasing." Pola moire adalah salah satu (sangat banyak) contoh.
whuber

Jawaban:


4

Jawaban ini bukan jawaban langsung untuk pertanyaan Anda, karena ini berkaitan dengan penyebab yang berbeda dari pola tersebut.

Tapi itu memang berhubungan dengan tampilan grafis yang sama, dan karena itu saya mempostingnya sebagai jawaban daripada komentar (sebelum membaca skrip Matlab Anda, saya benar-benar berpikir pola dalam histogram Anda adalah karena penyebab yang berbeda ini).


Pertanyaan Anda membuat saya mengunjungi kembali histogram yang saya masukkan dalam jawaban untuk pertanyaan terakhir.

ilustrasi lama

Saya menggunakan binsize 1, sedangkan jarak antara hasil (diskrit) adalah 0,538. Membuat bilah histogram untuk diplot sesekali dengan jumlah untuk satu nilai, bukan jumlah untuk dua nilai.

Setelah menyesuaikan ukuran nampan histogram muncul lebih khas

ilustrasi baru

Dalam kasus ini, kita dapat menyebut pola itu sebagai pola Moiré , yang merupakan penampilan pita cahaya dan gelap buatan karena ketidaksejajaran dua skala diskrit.

Dalam kasus Anda, bagaimanapun, pola periodik bukan efek buatan dalam histogram tetapi perilaku yang benar-benar periodik dalam fungsi massa probabilitas. Ngomong-ngomong, saya pikir ada baiknya menyebutkan pola Moiré yang terkait ini.


2
Jika Anda sedikit mengenal Google, Anda akan menemukan banyak histogram dengan pola moiré yang serupa. Misalnya di blog SAS ini artikel tentang survei burung ini atau artikel tentang stres ini
Sextus Empiricus

-1

Maaf, saya tidak tahu nama mapan, tetapi untuk menjawab pertanyaan kedua Anda:

haruskah saya memisahkan nilai ganjil dan genap atau cocok dengan distribusi normal untuk seluruh rangkaian?

Saya pikir Anda harus memisahkan mereka. Analisis Anda telah menemukan bahwa faktor / prediktor terpenting adalah jika inputnya ganjil atau genap, jadi untuk menggabungkannya adalah mengaburkan kedua distribusi, dan menjadikannya kurang berguna (*).

*: Tentu saja, itu sangat tergantung pada definisi Anda tentang berguna. Saya mendekati dari sudut pandang Anda memiliki beberapa input dan ingin membuat model untuk memprediksi beberapa output. Setelah kita tahu ini penting, saya ingin memberikan model petunjuk bahwa paritas dari satu / beberapa input penting.

Ngomong-ngomong, seperti dalam jawaban Martijn Weterings, ketika saya memiliki histogram bergerigi seperti ini sebelumnya, itu terkait dengan pilihan ukuran bin. Itu membuat saya menyadari bahwa percobaan dengan ukuran nampan adalah alat lain di kotak alat Berbohong Dengan Statistik :-)


Dear downvoter: apakah Anda tidak setuju dengan sesuatu yang khusus? Jika demikian, tolong lakukan mendidik saya.
Darren Cook
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.