Yang mana yang kemungkinan lebih baik atau kemungkinan marginal yang lebih baik dan mengapa?


13

Saat melakukan regresi jika kita menggunakan definisi dari: Apa perbedaan antara kemungkinan parsial, kemungkinan profil dan kemungkinan marginal?

itu, Kemungkinan Maksimum
Temukan β dan θ yang memaksimalkan L (β, θ | data).

Sementara, Marginal Likelihood
Kami mengintegrasikan θ dari persamaan kemungkinan dengan mengeksploitasi fakta bahwa kami dapat mengidentifikasi distribusi probabilitas θ bersyarat pada β.

Metodologi mana yang lebih baik untuk dimaksimalkan dan mengapa?

Jawaban:


14

Masing-masing akan memberikan hasil yang berbeda dengan interpretasi yang berbeda pula. Yang pertama menemukan pasangan , θ yang paling memungkinkan, sedangkan yang kedua menemukan β yang (secara marginal) paling memungkinkan. Bayangkan distribusi Anda terlihat seperti ini:βθβ

    β=1β=2
θ=10.0 0.2 
θ=20.1 0.2 
θ=30.3 0.2 

Maka jawaban kemungkinan maksimum adalah ( θ = 3 ), sedangkan jawaban kemungkinan marginal maksimum adalah β = 2 (karena, meminggirkan lebih dari θ , P ( β = 2 ) = 0,6 ).β=1θ=3β=2θP(β=2)=0.6

Saya akan mengatakan bahwa secara umum, kemungkinan marginal seringkali adalah apa yang Anda inginkan - jika Anda benar-benar tidak peduli dengan nilai-nilai parameter , maka Anda harus runtuh karenanya. Tetapi mungkin dalam prakteknya metode ini tidak akan menghasilkan hasil yang sangat berbeda - jika mereka melakukannya, maka itu mungkin menunjuk pada beberapa ketidakstabilan yang mendasari dalam solusi Anda, misalnya beberapa mode dengan kombinasi β , θ yang berbeda yang semuanya memberikan prediksi yang sama.θβθ


Saya memang menemukan hasil yang berbeda untuk metode kemungkinan maksimum / marginal dan karenanya pertanyaannya. Saya akan mengatakan bahwa dua hasil dalam kasus saya memberikan interpretasi yang berbeda tetapi hasil yang mungkin.
Ankit Chiplunkar

5

Saya sendiri sedang bergulat dengan pertanyaan ini. Inilah hasil yang mungkin bisa membantu. Pertimbangkan model linier

y=Xβ+ϵ,ϵN(0,σ2)

di mana dan βyRn,βRp,β dan adalah parameter yang menarik. Kemungkinan bersama adalahσ2

L(β,σ2)=(2πσ2)n/2exp(||yXβ||22σ2)

Mengoptimalkan hasil kemungkinan gabungan

β^=X+y

σ^2=1n||r||2

di mana adalah pseudoinverse dari X dan r = y - X β adalah vektor residual fit. Perhatikan bahwa di σ 2 kita memiliki 1 / n bukan derajat-of-kebebasan familiar dikoreksi rasio 1 / ( n - p ) . Estimator ini diketahui bias dalam kasus sampel terbatas.X+Xr=yXβ^σ^21/n1/(np)

Sekarang anggaplah alih-alih mengoptimalkan lebih dari dan σ 2 , kami mengintegrasikan β keluar dan memperkirakan σβσ2βσ2 from the resulting integrated likelihood:

σ^2=maxσ2RpL(β,σ2)dβ

Using elementary linear algebra and the Gaussian integral formula, you can show that

σ^2=1np||r||2

This has the degrees-of-freedom correction which makes it unbiased and generally favored over the joint ML estimate.

Dari hasil ini orang mungkin bertanya apakah ada sesuatu yang secara inheren menguntungkan tentang kemungkinan terintegrasi, tetapi saya tidak tahu ada hasil umum yang menjawab pertanyaan itu. Tampaknya konsensus bahwa ML terintegrasi lebih baik dalam akuntansi untuk ketidakpastian dalam sebagian besar masalah estimasi. Khususnya, jika Anda memperkirakan kuantitas yang bergantung pada taksiran parameter lainnya (bahkan secara implisit), maka pengintegrasian atas parameter lainnya akan lebih memperhitungkan ketidakpastiannya.


1
β

1
@whuber Saya berbagi kekhawatiran Anda dan tidak memiliki jawaban yang siap, tetapi perhatikan bahwa kemungkinan dipinggirkan hanyalah posterior dengan seragam yang tidak pantas sebelumnya. β, jadi saya pikir ini terkait dengan pendekatan "obyektif Bayesian". Ada yang tidak peduli ketika parameter sukaβ has an improper prior distribution, so long as the posterior is integrable.
Paul

Actually, based on this post and comments therein, I think integrated ML, not marginal ML, is the right term for what we're doing here. Edited accordingly.
Paul

1
+1 I know i'm pretty late to this party but isn't integrating out fixed effects by putting an improper uniform prior on them exactly what REML does, so you've actually just obtained the REML estimate and this df correction is exactly the reason here that REML is better for smaller samples?
jld

@Chaconne yes, this post was motivated by trying to understand REML! I have (almost) no formal statistics education, so deriving this was all new to me.
Paul

4

This is usually not a matter of choice. If we are interested in the estimation of β (e.g. when β is a model hyperparameter and θ is a latent variable) and there is not a single value for θ and instead the distribution of θ in known, we need to integrate out θ. You can think of marginal likelihood as the weighted average of the likelihood for different values of θi weighted by their probability density p(θi). Now that θ has disappeared, using training samples as data, you can optimize the marginal likelihood w.r.t. β.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.