Apa sebenarnya alpha dalam distribusi Dirichlet?

Saya cukup baru dalam statistik Bayesian dan saya menemukan ukuran korelasi yang diperbaiki, SparCC , yang menggunakan proses Dirichlet di bagian belakang algoritme itu. Saya telah mencoba untuk menelusuri algoritma langkah demi langkah untuk benar-benar memahami apa yang terjadi tetapi saya tidak yakin persis apa yang dilakukan oleh alphaparameter vektor dalam distribusi Dirichlet dan bagaimana cara menormalkan alphaparameter vektor?

Implementasinya Pythonmenggunakan NumPy: https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html

Dokumen mengatakan:

alpha: array Parameter distribusi (dimensi k untuk sampel dimensi k).

Pertanyaan saya:

Bagaimana alphaspengaruhnya terhadap distribusi ?;
Bagaimana alphaskeadaannya dinormalisasi ?; dan
Apa yang terjadi ketika alphasbukan bilangan bulat?

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Reproducibility
np.random.seed(0)

# Integer values for alphas
alphas = np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# Dirichlet Distribution
dd = np.random.dirichlet(alphas) 
# array([ 0.        ,  0.0175113 ,  0.00224837,  0.1041491 ,  0.1264133 ,
#         0.06936311,  0.13086698,  0.15698674,  0.13608845,  0.25637266])

# Plot
ax = pd.Series(dd).plot()
ax.set_xlabel("alpha")
ax.set_ylabel("Dirichlet Draw")

distributions bayesian dirichlet-distribution

— O.rka
sumber

Apakah Anda memiliki masalah dengan entri Wikipedia pada distribusi ini ?

— Xi'an

Maaf, saya pikir saya tidak mengucapkannya dengan benar. Saya mengerti apa itu distribusi probabilitas / pdf / pmf tetapi saya bingung bagaimana normalisasi itu terjadi. Dari wikipedia, tampaknya normalisasi terjadi melalui fungsi gamma setelah . Saya pernah mendengarnya disebut sebagai distribusi melalui distribusi dan sulit untuk melihatnya dari persamaan di wikipedia.

\prod {x_{i}}^{α - 1}

${\prod}{x_i}^{\alpha - 1}$

— O.rka

Jika Anda menormalkan alfa, Anda mendapatkan rata-rata distribusi. Jika Anda menormalkan distribusi, Anda memastikan bahwa integral dari dukungannya sama dengan 1 dan karenanya merupakan distribusi probabilitas yang valid.

— Eskapp

Distribusi Dirichlet adalah distribusi melalui simpleks, oleh karena itu distribusi melalui distribusi dukungan terbatas. Jika Anda mengarahkan distribusi ke distribusi kontinu, Anda harus melihat proses Dirichlet.

— Xi'an

Jawaban:

The distribusi Dirichlet adalah distribusi probabilitas multivariat yang menggambarkan variabel , sehingga setiap dan , yang parametrized oleh vektor parameter bernilai positif . Parameter tidak harus bilangan bulat, mereka hanya perlu bilangan real positif. Mereka tidak "dinormalisasi" dengan cara apa pun, mereka adalah parameter dari distribusi ini. $k\ge2$ $X_1,\dots,X_k$ $x_i \in (0,1)$ $\sum_{i=1}^N x_i = 1$ $\boldsymbol{\alpha} = (\alpha_1,\dots,\alpha_k)$

Distribusi Dirichlet adalah generalisasi dari distribusi beta ke dalam beberapa dimensi, jadi Anda bisa mulai dengan mempelajari tentang distribusi beta. Beta adalah distribusi univariat dari variabel acak diparameterisasi oleh parameter dan . Intuisi yang bagus tentang itu datang jika Anda ingat bahwa itu adalah konjugat sebelum untuk distribusi binomial dan jika kita mengasumsikan beta sebelumnya diparameterisasi oleh dan untuk parameter probabilitas distribusi binomial , maka distribusi posterior juga merupakan distribusi beta yang diparameterisasi oleh $X \in (0,1)$ $\alpha$ $\beta$ $\alpha$ $\beta$ $p$ $p$ $\alpha' = \alpha + \text{number of successes}$ dan . Jadi Anda dapat menganggap dan sebagai pseudocounts (mereka tidak perlu menjadi bilangan bulat) dari keberhasilan dan kegagalan (periksa juga utas ini ). $\beta' = \beta + \text{number of failures}$ $\alpha$ $\beta$

Dalam kasus distribusi Dirichlet, itu adalah konjugat sebelum untuk distribusi multinomial . Jika dalam kasus distribusi binomial kita dapat memikirkannya dalam hal menggambar bola putih dan hitam dengan penggantian dari guci, maka dalam kasus distribusi multinomial kita menggambar dengan bola pengganti muncul dalam warna , di mana masing-masing warna bola bisa ditarik dengan probabilitas . Distribusi Dirichlet adalah konjugat sebelum probabilitas dan parameter dapat dianggap sebagai pseudocount bola dari setiap warna yang diasumsikan sebagai apriori. $N$ $k$ $p_1,\dots,p_k$ $p_1,\dots,p_k$ $\alpha_1,\dots,\alpha_k$ (tetapi Anda harus membaca juga tentang perangkap dari alasan seperti itu ). Dalam Dirichlet-multinomial model perbarui dengan menjumlahkannya dengan jumlah yang diamati dalam setiap kategori: dengan cara yang sama seperti dalam kasus model beta-binomial. $\alpha_1,\dots,\alpha_k$ $\alpha_1+n_1,\dots,\alpha_k+n_k$

Nilai yang lebih tinggi dari , semakin besar "bobot" dan jumlah yang lebih besar dari total "massa" yang diberikan padanya (ingat bahwa totalnya harus ). Jika semua sama, distribusinya simetris. Jika , dapat dianggap sebagai anti-bobot yang mendorong ke arah ekstrem, sedangkan ketika tinggi, ia menarik ke beberapa nilai pusat (sentral dalam arti bahwa semua titik terkonsentrasi di sekitarnya, bukan dalam merasakan bahwa itu adalah pusat simetris). Jika , maka poin didistribusikan secara seragam. $\alpha_i$ $X_i$ $x_1+\dots+x_k=1$ $\alpha_i$ $\alpha_i < 1$ $x_i$ $x_i$ $\alpha_1 = \dots = \alpha_k = 1$

Ini dapat dilihat pada plot di bawah ini, di mana Anda dapat melihat distribusi Dirichlet trivariat (sayangnya kami dapat menghasilkan plot yang masuk akal hanya hingga tiga dimensi) yang diparameterisasi oleh (a) , (b) , (c) , (d) . $\alpha_1 = \alpha_2 = \alpha_3 = 1$ $\alpha_1 = \alpha_2 = \alpha_3 = 10$ $\alpha_1 = 1, \alpha_2 = 10, \alpha_3 = 5$ $\alpha_1 = \alpha_2 = \alpha_3 = 0.2$

Distribusi Dirichlet kadang-kadang disebut "distribusi over distribusi" , karena dapat dianggap sebagai distribusi probabilitas sendiri. Perhatikan bahwa karena setiap dan , maka konsisten dengan aksioma probabilitas pertama dan kedua . Jadi Anda dapat menggunakan distribusi Dirichlet sebagai distribusi probabilitas untuk peristiwa diskrit yang dijelaskan oleh distribusi seperti kategorikal atau multinomial . Hal ini tidak $x_i \in (0,1)$ $\sum_{i=1}^k x_i = 1$ $x_i$ benar bahwa itu adalah distribusi atas distribusi apa pun, misalnya tidak terkait dengan probabilitas variabel acak kontinu, atau bahkan beberapa variabel diskrit (misalnya variabel acak terdistribusi Poisson menggambarkan probabilitas mengamati nilai-nilai yang merupakan bilangan asli, sehingga untuk menggunakan Distribusi Dirichlet atas probabilitasnya, Anda akan membutuhkan jumlah tak terbatas variabel acak ). $k$

— Tim
sumber

Penjelasan yang luar biasa

— O.rka

Penafian: Saya belum pernah bekerja dengan distribusi ini sebelumnya. Jawaban ini didasarkan pada ini artikel wikipedia dan interpretasi saya itu.

Distribusi Dirichlet adalah distribusi probabilitas multivariat dengan properti yang mirip dengan distribusi Beta.

PDF didefinisikan sebagai berikut:

{x_{1}, ..., x_{K}} \sim \frac{1}{B (α)} \prod_{saya = 1}^{K} x_{saya}^{α_{saya} - 1}

$\{x_1, \dots, x_K\} \sim\frac{1}{B(\boldsymbol{\alpha})}\prod_{i=1}^Kx_i^{\alpha_i - 1}$

dengan , dan . $K \geq 2$ $x_i \in (0,1)$ $\sum_{i=1}^Kx_i = 1$

Jika kita melihat distribusi Beta yang terkait erat:

{x_{1}, x_{2} (= 1 - x_{1})} \sim \frac{1}{B (α, β)} x_{1}^{α - 1} x_{2}^{β - 1}

$\{x_1, x_2 (=1-x_1)\} \sim \frac{1}{B(\alpha,\beta)}x_1^{\alpha-1}x_2^{\beta-1}$

kita dapat melihat bahwa kedua distribusi ini sama jika . Jadi mari kita mendasarkan interpretasi kita pada yang pertama dan kemudian menggeneralisasi ke . $K=2$ $K>2$

Dalam statistik Bayesian, distribusi Beta digunakan sebagai konjugat sebelum parameter binomial (Lihat distribusi Beta ). Sebelumnya dapat didefinisikan sebagai beberapa pengetahuan sebelumnya tentang dan (atau sesuai dengan distribusi Dirichlet dan ). Jika beberapa percobaan binomial kemudian memiliki keberhasilan dan kegagalan, distribusi posterior kemudian sebagai berikut: dan . (Saya tidak akan menyelesaikan ini, karena ini mungkin salah satu hal pertama yang Anda pelajari dengan statistik Bayesian). $\alpha$ $\beta$ $\alpha_1$ $\alpha_2$ $A$ $B$ $\alpha_{1,pos} = \alpha_1 + A$ $\alpha_{2,pos}=\alpha_2 + B$

Jadi distribusi Beta kemudian mewakili beberapa distribusi posterior pada dan , yang dapat diartikan sebagai probabilitas keberhasilan dan kegagalan masing-masing dalam distribusi Binomial. Dan semakin banyak data ( dan ) yang Anda miliki, semakin sempit distribusi posterior ini. $x_1$ $x_2 (=1-x_1)$ $A$ $B$

Sekarang kita tahu bagaimana distribusi bekerja untuk , kita dapat menggeneralisasi untuk bekerja untuk distribusi multinomial daripada binomial. Yang berarti bahwa alih-alih dua hasil yang mungkin (berhasil atau gagal), kami akan memungkinkan untuk hasil (lihat mengapa generalisasi ke Beta / Binom jika ?). Masing-masing hasil ini akan memiliki probabilitas , yang berjumlah 1 seperti probabilitas. $K=2$ $K$ $K=2$ $K$ $x_i$

$\alpha_i$ kemudian mengambil peran yang mirip dengan dan dalam distribusi Beta sebagai prior untuk dan diperbarui dengan cara yang sama. $\alpha_1$ $\alpha_2$ $x_i$

Jadi sekarang untuk mendapatkan pertanyaan Anda:

Bagaimana alphaspengaruhnya terhadap distribusi?

Distribusi dibatasi oleh batasan dan . The menentukan bagian mana dari ruang berdimensi mendapatkan massa paling. Anda dapat melihat ini di gambar ini (tidak menanamkannya di sini karena saya tidak memiliki gambarnya). Semakin banyak data yang ada di posterior (menggunakan interpretasi itu) semakin tinggi , sehingga semakin Anda yakin akan nilai , atau probabilitas untuk setiap hasil. Ini berarti bahwa kepadatan akan lebih terkonsentrasi. $x_i \in (0,1)$ $\sum_{i=1}^Kx_i = 1$ $\alpha_i$ $K$ $\sum_{i=1}^K\alpha_i$ $x_i$

Bagaimana alphaskeadaannya dinormalisasi?

Normalisasi distribusi (pastikan integral sama dengan 1) melewati istilah : $B(\boldsymbol{\alpha})$

B (α) = \frac{\prod_{saya = 1}^{K} Γ (α_{saya})}{Γ (\sum_{saya = 1}^{K} α_{saya})}

$B(\boldsymbol{\alpha}) = \frac{\prod_{i=1}^K\Gamma(\alpha_i)}{\Gamma(\sum_{i=1}^K\alpha_i)}$

Sekali lagi jika kita melihat kasus kita dapat melihat bahwa faktor normalisasi sama dengan distribusi Beta, yang menggunakan yang berikut: $K=2$

B (α_{1}, α_{2}) = \frac{Γ (α_{1}) Γ (α_{2})}{Γ (α_{1} + α_{2})}

$B(\alpha_1, \alpha_2) = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)}{\Gamma(\alpha_1+\alpha_2)}$

Ini meluas ke

B (α) = \frac{Γ (α_{1}) Γ (α_{2}) ... Γ (α_{K})}{Γ (α_{1} + α_{2} + \dots + α_{K})}

$B(\boldsymbol{\alpha}) = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_K)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_K)}$

Apa yang terjadi ketika alfa bukan bilangan bulat?

Interpretasi tidak berubah untuk , tetapi seperti yang Anda lihat pada gambar yang saya sebelumnya , jika massa distribusi terakumulasi di tepi rentang untuk . di sisi lain harus bilangan bulat dan . $\alpha_i>1$ $\alpha_i < 1$ $x_i$ $K$ $K\geq2$

— JAD
sumber

Terima kasih untuk ini. Penjelasan Anda sangat berguna. Saya berharap saya bisa menandai keduanya sebagai benar.

— O.rka