Distribusi asimtotik multinomial

10

Saya mencari distribusi terbatas dari distribusi multinomial daripada hasil. Yaitu, distribusi berikut

lim_{n \to \infty} n^{- \frac{1}{2}} X_{n}

$\lim_{n\to \infty} n^{-\frac{1}{2}} \mathbf{X_n}$

Di mana $\mathbf{X_n}$ adalah variabel acak nilai vektor dengan kepadatan $f_n(\mathbf{x})$ untuk $\mathbf{x}$ sedemikian rupa sehingga $\sum_i x_i=n$ , $x_i\in \mathbb{Z}, x_i\ge 0$ dan 0 untuk semua $\mathbf{x}$ , di mana

f_{n} (x) = n! \prod_{i = 1}^{d} \frac{p_{i}^{x_{i}}}{x_{i}!}

$f_{n}(\mathbf{x})=n!\prod_{i=1}^d\frac{p_i^{x_i}}{x_i!}$

Saya menemukan satu bentuk dalam teorema "Semua Statistik" Larry Wasserman 14.6, halaman 237 tetapi untuk membatasi distribusi itu memberikan Normal dengan matriks kovarians tunggal, jadi saya tidak yakin bagaimana menormalkan itu. Anda dapat memproyeksikan vektor acak ke dalam ruang dimensi (d-1) untuk membuat matriks kovarians peringkat penuh, tetapi proyeksi apa yang digunakan?

Perbarui 11/5

Ray Koopman memiliki ringkasan yang bagus tentang masalah Gaussian singular. Pada dasarnya, matriks kovarian singular mewakili korelasi sempurna antara variabel, yang tidak mungkin untuk diwakili dengan Gaussian. Namun, orang bisa mendapatkan distribusi Gaussian untuk kepadatan bersyarat, dikondisikan pada kenyataan bahwa nilai vektor acak adalah valid (komponen bertambah hingga $n$ dalam kasus di atas).

Perbedaan untuk Gaussian bersyarat, adalah bahwa invers diganti dengan pseudo-inverse, dan faktor normalisasi menggunakan "produk dari nilai eigen nol" daripada "produk dari semua nilai eigen". Ian Frisce memberikan tautan dengan beberapa detail.

Ada juga cara untuk mengekspresikan faktor normalisasi Gaussian bersyarat tanpa merujuk pada nilai eigen, inilah derivasi

asymptotics multinomial

— Yaroslav Bulatov
sumber

Apa sebenarnya yang Anda maksud dengan membatasi distribusi dalam hal ini?

— Robby McKilliam

yaitu, yang Anda dapatkan dari Central Limit Theorem, izinkan saya memperbarui detail

— Yaroslav Bulatov

1

Yang Anda maksudkan adalah distribusi asimtotik dari penduga kemungkinan maksimum dari suatu multinomial. Juga, persamaan pertama harus n ^ {- 1}, bukan n ^ {- 1/2}.

— Simon Byrne

1

Dalam notasi di atas, untuk d = 2, X_n adalah jumlah head setelah n coin melempar, jadi X_n / sqrt (n) yang mendekati Normal, bukan X_n / n, bukan?

— Yaroslav Bulatov

1

Ya kau benar. Aku hanya membingungkan diriku sendiri.

— Simon Byrne

6

Kovarians masih pasti non-negatif (demikian juga distribusi normal multivariat yang valid ), tetapi tidak pasti positif: apa artinya ini adalah (setidaknya) satu elemen dari vektor acak adalah kombinasi linear dari yang lain.

Akibatnya, setiap pengundian dari distribusi ini akan selalu terletak pada subruang dari . Sebagai konsekuensinya, ini berarti tidak mungkin untuk menentukan fungsi kerapatan (karena distribusi terkonsentrasi pada subruang: pikirkan cara normal univariat akan berkonsentrasi pada rata-rata jika variansnya nol). $R^d$

Namun, seperti yang disarankan oleh Robby McKilliam, dalam hal ini Anda dapat menjatuhkan elemen terakhir dari vektor acak. Matriks kovarians dari vektor tereduksi ini akan menjadi matriks asli, dengan kolom dan baris terakhir dijatuhkan, yang sekarang akan menjadi pasti positif, dan akan memiliki kepadatan (trik ini akan berfungsi dalam kasus lain, tetapi Anda harus berhati-hati elemen mana Anda menjatuhkan, dan Anda mungkin perlu menjatuhkan lebih dari satu).

— Simon Byrne
sumber

Apa yang agak tidak memuaskan adalah kebebasan memilih, untuk mendapatkan kepadatan yang valid Saya perlu meminta distribusi A x di mana A adalah beberapa d-1 rank (d) x (d-1) matriks. Apakah kesalahan perkiraan CLT untuk hingga n sama dengan semua pilihan A? Itu tidak jelas bagi saya

— Yaroslav Bulatov

1

Ya, kesalahannya harus selalu sama. Perlu diingat bahwa elemen terakhir dari vektor secara fungsional tergantung pada elemen (d-1) lainnya (baik dalam sampel terbatas dan kasus asimptotik).

— Simon Byrne

Bukannya elemen 'terakhir' tergantung, masalah Yaroslav adalah dia tidak suka gagasan untuk memilih elemen mana yang akan dibuang. Saya setuju dengan jawaban yang Anda berikan tetapi saya juga berpikir bahwa sedikit lebih banyak pemikiran dan perhatian diperlukan di sini.

— Robby McKilliam

@Yaroslav: Mungkin akan lebih baik untuk memiliki gagasan tentang aplikasi apa yang ada dalam pikiran Anda di sini, karena pada tahap ini ada banyak kemungkinan jawaban untuk pertanyaan Anda.

— Robby McKilliam

1

Robby - aplikasi yang ada dalam benak saya ada di sini mathoverflow.net/questions/37582/... Pada dasarnya integral Gaussian yang disarankan oleh CLT memberikan perkiraan yang sangat baik untuk jumlah koefisien binomial (untuk n kecil, bahkan lebih baik daripada mengintegrasikan representasi Gamma secara langsung!), jadi saya melihat apakah saya dapat melakukan sesuatu yang serupa untuk mendapatkan perkiraan jumlah koefisien multinomial, yang saya perlukan untuk mendapatkan batas kesalahan non-asimptotik untuk berbagai tukang (seperti, kemungkinan maksimum)

— Yaroslav Bulatov

2

Tidak ada masalah inheren dengan kovarian singular di sini. Distribusi asimptotik Anda adalah normal tunggal. Lihat http://fedc.wiwi.hu-berlin.de/xplore/tutorials/mvahtmlnode34.html yang memberikan kerapatan normal tunggal.

— Ian Fiske
sumber

Secara teknis, masalahnya adalah bahwa matriks kovarians singular berarti bahwa beberapa subset variabel berkorelasi sempurna, sehingga kepadatan probabilitas harus tepat 0 di beberapa area, tetapi itu tidak mungkin dengan Gaussian. Salah satu solusinya adalah dengan melihat kepadatan bersyarat, dikondisikan pada fakta bahwa variabel acak terletak di wilayah yang layak. Ini terlihat seperti apa yang mereka lakukan di tautan. Belum pernah mendengar istilah "G-inverse", saya kira itu Penrose-Moore pseudo-inverse?

— Yaroslav Bulatov

Meskipun benar bahwa Gaussian d-dimensi konvensional memiliki dukungan pada semua

, Gaussian singular tidak. Inversi G adalah invers yang digeneralisasi, dan ya, saya percaya bahwa definisi Penrose-Moore bekerja di sini. Saya pikir ada CLT untuk kovarian singular, yang menyatakan seperti yang diharapkan, konvergensi dalam distribusi ke CLT singular, meskipun saya tidak dapat menemukan referensi sekarang.

ℜ^{d}

$\Re^d$

— Ian Fiske 6-10

1

Bagi saya sepertinya matriks kovariansi Wasserman adalah singular, untuk melihat, mengalikannya dengan vektor , yaitu dengan panjang . $d$ $[1,1,1,\dots,1]^\prime$ $d$

Wikipedia tetap memberikan matriks kovarian yang sama. Jika kita membatasi diri kita hanya pada distribusi binomial maka teorema limit pusat standar memberitahu kita bahwa distribusi binomial (setelah penskalaan yang sesuai) konvergen ke normal seperti menjadi besar (lihatwikipedia lagi). Menerapkan ide-ide serupa Anda harus dapat menunjukkan bahwa mulinomial yang diskalakan dengan tepat akan menyatu dalam distribusi ke normal multivariat, yaitu setiap distribusi marjinal hanyalah binomial dan menyatu dengan distribusi normal, dan varians di antara keduanya diketahui. $n$

Jadi, saya sangat yakin Anda akan menemukan bahwa distribusi konvergen ke multivariat normal dengan nol rata-rata dan kovarian

\frac{X_{n} - n p}{\sqrt{n}}

$\frac{X_n - np}{\sqrt{n}}$

mana

adalah matriks kovarians multinomial yang dipermasalahkan dan

adalah vektor probabilitas

.

\frac{C}{n}

$\frac{C}{n}$

C

$C$

p

$p$

[p_{1}, \dots, p_{d}]

$[p_1,\dots,p_d]$

— Robby McKilliam
sumber

1

tetapi matriks kovarian multinomial yang dimaksud adalah tunggal, Anda menunjukkannya sendiri ...

— Yaroslav Bulatov

d

$d$

C

$C$

[p_{1}, p_{2}, \dots, p_{d - 1}]

$[p_1,p_2,\dots,p_{d-1}]$

Satu saran yang saya temukan adalah masih menggunakan Gaussian, tetapi gunakan pseudo-invers alih-alih invers dan "produk nilai eigen non-nol" sebagai pengganti determinan. Untuk d = 2 ini tampaknya memberikan bentuk kerapatan yang benar, tetapi faktor normalisasi tidak aktif

— Yaroslav Bulatov

1

$|S_{-i}|=|S_{-j}|$ $i,j$ $S_{-i}$ $i$

— Jvdillon
sumber

Matriks-matriks itu tidak sama, inilah matriks kovarians yaroslavvb.com/upload/multinomial-covariance-matrix.png

— Yaroslav Bulatov

Ya, ini memang matriks kovarians. Menjatuhkan semua kolom dan baris ke-1 menghasilkan istilah normalisasi yang sama untuk Gaussian adalah poin saya. Mungkin saya kehilangan sesuatu yang jelas?

— jvdillon

n

$n$

p_{i} = 1 - \sum_{j \neq i} p_{j}

$p_i=1-\sum_{j\ne i}p_j$

p_{i}

$p_i$

S

$S$

BTW, saya suka aplikasi Anda untuk ide ini - karena itu minat saya untuk merespons.

— jvdillon