Apakah komunitas pembelajaran mesin menyalahgunakan "dikondisikan" dan "ditentukan oleh"?

Katakanlah, $X$ tergantung pada $\alpha$ . Berbicara dengan keras,

jika $X$ dan $\alpha$ keduanya merupakan variabel acak, kita dapat menulis $p(X\mid\alpha)$ ;
namun, jika adalah variabel acak dan adalah parameter, kita harus menulis . $X$ $\alpha$ $p(X; \alpha)$

Saya perhatikan beberapa kali bahwa komunitas pembelajaran mesin tampaknya mengabaikan perbedaan dan menyalahgunakan ketentuan.

Misalnya, dalam model LDA yang terkenal, di mana adalah parameter Dirichlet alih-alih variabel acak. $\alpha$

masukkan deskripsi gambar di sini

Bukankah seharusnya ? Saya melihat banyak orang, termasuk penulis asli kertas LDA, menuliskannya sebagai . $p(\theta;\alpha)$ $p(\theta\mid\alpha)$

machine-learning terminology

— Sibbs Gambling
sumber

Secara matematis, Anda selalu dapat mengkondisikan pada konstanta, karena ini adalah kasus pembatas dari variabel acak. Dari sudut pandang Bayesian, semua yang tidak diketahui diperlakukan sebagai variabel acak, jadi masuk akal untuk menggunakan notasi pengkondisian seluruh.

— Xi'an

@ Xi'an Saya mengerti maksud Anda tentang "pengkondisian pada konstanta". Tapi bayangkan saya menggambar dari distribusi kategorikal dari parameter , yaitu, . Bisakah saya menulis distribusinya sebagai ? Itu terlihat aneh bagi saya, karena orang selalu dapat mengatur tetap . terlihat lebih nyaman bagi saya.

X

$X$

θ

$\theta$

X \sim C a t (θ)

$X\sim Cat(\theta)$

p (X ∣ θ)

$p(X\mid\theta)$

θ

$\theta$

p (X; θ)

$p(X;\theta)$

— Sibbs Gambling

Saya tidak melihat masalah dalam penulisan

dalam kasus khusus ini. Sekali lagi, menggunakan notasi bersyarat membuka jalan untuk memperkenalkan distribusi sebelumnya pada setiap parameter yang tidak diketahui.

p (X ∣ θ)

$p(X\mid\theta)$

— Xi'an

Saya pikir ini lebih tentang statistik Bayesian / non-Bayesian daripada pembelajaran mesin vs .. statistik.

Dalam parameter statistik Bayesian dimodelkan sebagai variabel acak juga. Jika Anda memiliki distribusi gabungan untuk , adalah distribusi bersyarat, tidak peduli apa interpretasi fisik dan . Jika seseorang menganggap hanya s tetap atau tidak menempatkan distribusi probabilitas di atas , perhitungan dengan persis sama dengan dengan $X,\alpha$ $p(X \mid \alpha)$ $X$ $\alpha$ $\alpha$ $\alpha$ $p(X; \alpha)$ $p(X \mid \alpha)$ . Lebih lanjut, seseorang dapat pada suatu saat memutuskan untuk memperluas model dengan nilai-nilai tetap ke satu di mana ada distribusi sebelumnya di atas . Setidaknya bagi saya, tampaknya aneh bahwa notasi untuk distribusi-diberikan- harus berubah pada titik ini, karenanya beberapa orang Bayesian lebih suka menggunakan notasi pengkondisian bahkan jika seseorang belum (belum?) Repot untuk mendefinisikan semua parameter sebagai variabel acak . $p(\alpha)$ $\alpha$ $\alpha$ $\alpha$

Perdebatan tentang apakah seseorang dapat menulis sebagai juga muncul dalam komentar dari posting blog Andrew Gelman ini Kesalahpahaman yang -nilai . Sebagai contoh, Larry Wasserman berpendapat bahwa tidak diperbolehkan ketika tidak ada pengkondisian-dari-sendi sementara Andrew Gelman memiliki pendapat yang berlawanan. $p(X ; \alpha)$ $p(X \mid \alpha)$ $p$ $\mid$

— Juho Kokkala
sumber