Penentu matriks informasi Fisher untuk model overparameter


10

Pertimbangkan variabel acak Bernoulli dengan parameter (probabilitas keberhasilan). Fungsi kemungkinan dan informasi Fisher ( matriks ) adalah:X{0,1}θ1×1

L1(θ;X)=p(X|θ)=θX(1θ)1XI1(θ)=detI1(θ)=1θ(1θ)

Sekarang pertimbangkan versi "over-parameterized" dengan dua parameter: probabilitas keberhasilan θ1 dan probabilitas kegagalan θ0 . (Perhatikan bahwa θ1+θ0=1 , dan batasan ini menyiratkan bahwa salah satu parameternya berlebihan.) Dalam hal ini fungsi kemungkinan dan matriks informasi Fisher (FIM) adalah:

L2(θ1,θ0;X)=p(X|θ1,θ0)=θ1Xθ01XI2(θ1,θ0)=(1θ1001θ0)detI2(θ)=1θ1θ0=1θ1(1θ1)

Perhatikan bahwa penentu kedua FIM ini identik. Selain itu, properti ini meluas ke kasus model kategori yang lebih umum (yaitu lebih dari dua negara). Tampaknya juga meluas ke model log-linear dengan berbagai himpunan bagian dari parameter dibatasi menjadi nol; dalam hal ini, parameter ekstra "redundan" sesuai dengan fungsi partisi log, dan ekuivalensi dari dua determinan FIM dapat ditunjukkan berdasarkan pada komplemen Schur dari FIM yang lebih besar. (Sebenarnya, untuk model log-linear FIM yang lebih kecil hanyalah pelengkap Schur dari FIM yang lebih besar.)

Dapatkah seseorang menjelaskan apakah properti ini meluas ke set model parametrik yang lebih besar (misalnya untuk semua keluarga eksponensial), memungkinkan opsi untuk menurunkan determinan FIM berdasarkan pada set parameter yang "diperluas"? Yaitu mengasumsikan setiap model statistik yang diberikan dengan parameter yang terletak pada manifold dimensi yang tertanam dalam ruang dimensi . Sekarang, jika kita memperluas set parameter untuk memasukkan satu dimensi lagi (yang benar-benar dibatasi berdasarkan yang lain) dan menghitung FIM berdasarkan parameter tersebut , akankah kita selalu mendapatkan determinan yang sama dengan yang didasarkan pada aslinya parameter (independen)? Juga, bagaimana kedua FIM ini terkait?nn(n+1)(n+1)n

Alasan saya mengajukan pertanyaan ini adalah bahwa FIM dengan parameter tambahan seringkali tampak lebih sederhana. Pikiran pertama saya adalah bahwa ini seharusnya tidak berfungsi secara umum. FIM melibatkan penghitungan sebagian turunan dari log log kemungkinan setiap parameter. Derivatif parsial ini mengasumsikan bahwa, sementara parameter dalam pertanyaan berubah, semua parameter lainnya tetap konstan, yang tidak benar setelah kami melibatkan parameter tambahan (dibatasi). Dalam kasus ini, menurut saya turunan parsial tidak lagi valid karena kita tidak dapat mengasumsikan parameter lainnya konstan; Namun, saya belum menemukan bukti bahwa ini sebenarnya masalah. (Jika turunan parsial bermasalah dalam kasus dengan parameter dependen, adalah total turunan(n+1)×(n+1)dibutuhkan bukan? Saya belum melihat contoh menghitung FIM dengan total turunan, tapi mungkin itu solusinya ...)

Satu-satunya contoh yang dapat saya temukan secara online yang menghitung FIM berdasarkan pada set parameter yang "diperluas" adalah sebagai berikut: catatan ini berisi contoh untuk distribusi kategori, menghitung turunan parsial yang diperlukan seperti biasa (yaitu seolah-olah setiap parameter independen , meskipun ada kendala di antara parameter).


1
Pertanyaan bagus! Saya pikir spesifikasi dua parameter variabel acak Bernoulli adalah contoh yang kurang menguntungkan, karena tanpa kendala, tidak lagi terikat pada kepadatan. Bisakah Anda mereproduksi pengamatan Anda untuk keluarga eksponensial melengkung, misalnya? p(X|θ1,θ0)=θ1Xθ01X
Khashaa

@Khashaa Saya mengasumsikan bahwa kendala berlaku dalam kasus dua parameter (yang Anda sebutkan), jadi fungsi kemungkinan masih akan menjadi kepadatan yang valid. Juga, ya, saya dapat mereproduksi pengamatan ini misalnya untuk model log-linear dengan berbagai himpunan parameter yang dibatasi menjadi nol; dalam hal ini, parameter "redundant" sesuai dengan fungsi partisi log. θ1+θ2=1
Tyler Streeter

1
Bagaimana dengan ? N(μ,μ2)
Khashaa

Jawaban:


4

Untuk normal , matriks informasi adalah Untuk normalJadi, pengamatan Anda bahwa determinan yang setara itu tidak universal, tetapi itu bukan keseluruhan cerita.XN(μ,σ2)

I1=(1σ20012σ4)
XN(μ,μ2)
I2=3μ2.

Secara umum, jika adalah matriks informasi di bawah reparametrization maka, tidak sulit untuk melihat bahwa matriks informasi untuk parameter asli adalah mana adalah Jacobian dari transformasi .Ig

g(θ)=(g1(θ),...,gk(θ)),
I(θ)=GIg(g(θ))G
Gg=g(θ)

Sebagai contoh Bernoulli dan . Jadi, Jacobian adalah dan karenanya (θ0,θ1)=(p,1p)g(p)=(p,1p)(1,1)

I(p)=(11)(1p0011p)(11)=1p(1p)

Untuk contoh normal melengkung,

I2=(12μ)(1μ20012μ4)(12μ)=3μ2.

Saya pikir sekarang Anda dapat dengan mudah menghubungkan faktor-faktor penentu.

Tindak lanjut setelah komentar

Jika saya mengerti Anda dengan benar, FIM valid selama Anda memperluas parameter dengan cara yang berarti: kemungkinan di bawah parametrization baru harus menjadi kepadatan yang valid. Karenanya, saya menyebut contoh Bernoulli sebagai contoh yang tidak menguntungkan.

Saya pikir tautan yang Anda berikan memiliki kelemahan serius dalam derivasi FIM untuk variabel kategori, karena kami memiliki dan . Ekspektasi Hessian negatif memberi , tetapi tidak untuk kovarians vektor skor. Jika Anda mengabaikan kendala, kesetaraan matriks informasi tidak berlaku. E(xi2)=θi(1θi)θiE(xixj)=θiθj0diag{1/θi}


Terima kasih telah menyebutkan pendekatan transformasi Jacobian dan untuk contoh sederhana dan jelas. Bisakah Anda (atau siapa pun) mengomentari masalah berikut yang masih menjadi perhatian saya: ketika memperluas set parameter dengan satu dimensi, seperti yang kami lakukan di sini, kami memperkenalkan batasan di antara parameter sehingga setiap turunan parsial (seperti yang dipersyaratkan oleh FIM) seharusnya tidak valid karena sekarang, ketika kita memvariasikan satu parameter, yang lainnya tidak lagi konstan. Jadi apakah FIM bahkan valid untuk set parameter yang diperluas, mengingat bahwa derivatif parsial tidak valid karena kendala tambahan?
Tyler Streeter

@ TylerStreeter Saya telah memperbarui jawaban saya untuk mengatasi masalah Anda.
Khashaa

3

Tampaknya hasilnya berlaku untuk jenis hubungan tertentu antara parameter.

Tanpa mengklaim generalitas penuh untuk hasil di bawah ini, saya tetap berpegang pada kasus "parameter satu ke dua". Mendenotasikan persamaan implisit yang mengungkapkan hubungan yang harus terus antara dua parameter. Kemudian log "kemungkinan diperluas", "dua parameter" (bukan apa yang dihitung OP - kami akan tiba di sana)g(θ0,θ1)=0

Le=L(θ0,θ1)+λg(θ0,θ1)
setara dengan kemungkinan , karena , ( adalah a pengali) dan kita dapat memperlakukan dua parameter sebagai independen, sementara kita membedakan.Lg(θ0,θ1)=0λ

Menggunakan subskrip untuk menunjukkan turunan sehubungan dengan parameter (satu turunan pertama subskrip, dua turunan subskrip kedua), penentu Hessian dari kemungkinan log yang diperluas yang benar akan menjadi

(1)DH(Le)=[L00+λg00][L11+λg11][L01+λg01]2=DH(L)

Apa yang dilakukan OP?

Dia menganggap kemungkinan salah "mengabaikan" hubungan antara dua parameter, dan tanpa memperhitungkan kendala . Dia kemudian melanjutkan dengan diferensiasi dan memperolehL(θ0,θ1)g(θ0,θ1)

(2)DH(L)=L00L11[L01]2

Jelaslah bahwa secara umum tidak sama dengan .(2)(1)

Tetapi jika , makag00=g11=g00=0

(1)DH(Le)=L00L11[L01]2=DH(L)=DH(L)

Jadi jika hubungan antara parameter aktual dan parameter redundan sedemikian rupa sehingga turunan parsial kedua dari fungsi implisit yang menghubungkan mereka semua nol , maka pendekatan yang secara fundamental salah, berakhir "benar".

Untuk kasus Bernoulli, memang kami punya

g(θ0,θ1)=θ0+θ11g00=g11=g01=0

ADDENDUM
Untuk menanggapi pertanyaan @Khashaa dan menunjukkan mekanika di sini, kami mempertimbangkan kemungkinan yang ditentukan dengan parameter redundan, tetapi juga di bawah kendala yang menghubungkan parameter redundan dengan yang sebenarnya. Apa yang kami lakukan dengan kemungkinan log adalah memaksimalkannya - jadi di sini kami memiliki kasus maksimalisasi terbatas. Asumsikan sebuah sampel berukuran ,:n

maxLn(θ0,θ1)=lnθ0i=1nxi+(ni=1nxi)lnθ1,s.t.θ1=1θ0

Masalah ini memiliki Langrangean (apa yang secara informal saya sebut "kemungkinan diperluas yang benar" di atas),

Le=lnθ0i=1nxi+(ni=1nxi)lnθ1+λ(θ11+θ0)

Kondisi orde pertama untuk maksimum adalah

i=1nxiθ0+λ=0,ni=1nxiθ1+λ0=0

untuk itu kita memperoleh relasi

i=1nxiθ0=ni=1nxiθ1θ1i=1nxi=(ni=1nxi)θ0

menggunakan batasan di mana yang di atas valid, kita perolehθ1=1θ0

(1θ0)i=1nxi=(ni=1nxi)θ0

i=1nxi=nθ0θ^0=1ni=1nxi

seperti yang seharusnya.

Selain itu, karena batasannya linier di semua parameter, turunan keduanya akan menjadi nol. Ini tercermin dalam fakta bahwa dalam turunan pertama lagrangean, pengali "berdiri sendiri" dan itu akan dihilangkan ketika kita akan mengambil turunan kedua dari lagrangean. Yang pada gilirannya akan membawa kita ke Hessian yang determinannya akan sama dengan turunan kedua (satu dimensi) dari kemungkinan log satu-parameter, setelah memaksakan juga kendala (yang dilakukan OP). Kemudian mengambil negatif dari nilai yang diharapkan dalam kedua kasus, tidak mengubah kesetaraan matematika ini, dan kita sampai pada hubungan "Informasi Fisher satu dimensi = penentu Informasi Fisher dua dimensi". Sekarangλmengingat bahwa kendala adalah linier dalam semua parameter, OP mendapatkan hasil yang sama (pada tingkat turunan kedua) tanpa memperkenalkan kendala dengan pengali fungsi yang akan dimaksimalkan, karena pada tingkat turunan kedua, keberadaan / efek dari kendala menghilang dalam kasus seperti itu.

Semua ini berkaitan dengan kalkulus, bukan dengan konsep statistik.


Sepertinya saya tidak bisa mengikuti logika Anda. Bisakah Anda jelaskan mengapa Lagrangean-like dianggap sebagai "kemungkinan diperpanjang", "dua parameter" log-kemungkinan? Juga, Goni itu benar-benar misterius bagiku. Apakah Anda menghitung matriks informasi yang diamati? Le
Khashaa

@Khashaa Sudah diketahui bahwa "Hessian" adalah matriks turunan kedua dari fungsi multivarian.
Alecos Papadopoulos

Akan sangat membantu jika downvoter di sini mengirim jawaban - karena contoh spesifik OP benar-benar ada - dan menuntut penjelasan.
Alecos Papadopoulos

Maaf, jika pertanyaan saya tidak jelas. Pertanyaan saya adalah tentang bagaimana Anda menghubungkan Goni ke matriks informasi, karena saya tidak melihat adanya harapan yang beroperasi di atasnya dan hasilnya tampak seperti matriks informasi yang diamati. Selain itu, Anda dapat menjelaskan mengapa adalah loglikelihood benar? Saya kira Anda menggunakan beberapa metode berprinsip untuk mengevaluasi kemungkinan terbatas, tetapi saya tidak mengerti cara kerjanya. Le
Khashaa

@Khashaa Saya menambahkan eksposisi menggunakan contoh OP.
Alecos Papadopoulos
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.