Dapatkah CDF dari data bersilangan dengan CDF lain


8

Diberikan dua set data bilangan real positif X dan Y, keduanya dengan ukuran yang sama, dan 0 <= Y <= X untuk setiap baris; dapatkah CDF empiris X pernah melewati CDF empiris Y?

Jawaban:


4

PDF empiris, F^(t) adalah proporsi sampel pada atau di bawah t.

Pertimbangkan memesan baris Anda dengan meningkatkan y (dan pada nilai tetap y, memesan dengan meningkatkan x).

Kemudian untuk setiap baris tersebut (baris i, katakanlah), ketinggian setiap cdf adalah i/n*, dan absis yang sesuai untuk sampel-x selalu di sebelah kanan absis untuk sampel-y. Langkah-fungsi dapat bertepatan, tetapi x-sample ecdf tidak akan pernah berada di atas / kiri dari y-sample ecdf.

masukkan deskripsi gambar di sini

Memang, bayangkan kita "menggambar di plot" semua lompatan vertikal di ecdf. Kemudian garis horizontal ditarik melintasi plot pada beberapa nilaiF akan menyerang langkah-langkah ecdf pada nilai tertentu y dan x yang muncul di tabel kami mencantumkan nilai sampel dalam urutan (memang, untuk nilai yang diberikan dari F, mudah untuk menentukan baris mana yang akan digunakan), yang selalu memiliki yixi.

* (ini sedikit lebih rumit ketika ada nilai duplikat, tetapi tidak dengan cara yang mengubah argumen secara substantif)

Untuk garis horizontal abu-abu di plot (F0.481), ia menyerang lompatan vertikal ecdf di ty=194.4503 dan tx=200.0431 yang terjadi di baris ke-73 tabel data ketika diurutkan seperti ditunjukkan sebelumnya.


2

Jawaban Glen_b benar, tapi saya pikir ada cara yang lebih sederhana untuk menunjukkan ini.

ECDF adalah sebidang (x, proporsi nilai pada atau di bawah x). Kita mulai dengan mengurutkan nilai-nilai dalam urutan menaik: panggil merekax1,x2,,xn dan y1,y2,,yn. Selanjutnya, dari pertanyaan Anda, kami tahu bahwa kedua vektor itu sama panjang danyixi untuk setiap indeks i.

Sejak y1 lebih besar atau sama dengan x1, y1 harus berada di atau di sebelah kanan x1 dan, karena mereka adalah poin terkecil dalam daftar, mereka berdua memiliki tinggi / koordinat y 1n. Kedua kurva bergerak ke atas pada laju yang sama (1nper langkah) dan ke kanan. Namun sejak ituyi>xi, itu Y kurva bergerak setidaknya sejauh ke kanan seperti X kurva pada setiap langkah.

Sejak Y kurva dimulai pada atau keluar di sebelah kanan X kurva dan setiap pembaruan yang dilakukan mendesak Y setidaknya sejauh ke kanan X, kurva tidak pernah silang.


0

Hanya formalisasikan apa yang ditulis di atas:

Jika CDF emperikal ditulis sebagai FX dan FY masing-masing, lalu

FX(x)=1nxiI(xix) dan juga FY(x)=1nyiI(yix).

Sekarang, untuk apa saja x, kita bisa tunjukkan itu I(xix)I(yix). Buktikan ini dengan kontradiksi - Misalkan adax di mana ini tidak berlaku dan menunjukkan bahwa harus ada pasangan (xi,yi) untuk itu yi>xi.

Jadi, FX(x)FY(x) untuk semua x.

Catatan: Ada beberapa asumsi implisit dalam demonstrasi ini bahwa jumlah titik data terbatas. Saya kira dimungkinkan untuk memiliki set data tak terbatas dengan ukuran yang sama (yaitu kardinalitas). Saya cukup yakin hasilnya berlaku, tetapi jauh lebih tidak yakin tentang bukti hasil seperti itu.


Dengan banyak titik data yang tak terhingga, bagaimana tepatnya Anda mendefinisikan CDF empiris?
whuber
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.