Informasi apa yang dimaksud dengan informasi Fisher?


29

Misalkan kita memiliki variabel acak Xf(x|θ) . Jika θ0 adalah parameter sebenarnya, fungsi kemungkinan harus dimaksimalkan dan turunannya sama dengan nol. Ini adalah prinsip dasar di balik estimator kemungkinan maksimum.

Seperti yang saya pahami, informasi Fisher didefinisikan sebagai

I(θ)=E[(θf(X|θ))2]

Jadi, jika θ0 adalah parameter sebenarnya, I(θ)=0 . Tetapi jika θ0 bukan parameter sebenarnya, maka kita akan memiliki jumlah informasi Fisher yang lebih besar.

pertanyaan saya

  1. Apakah informasi Fisher mengukur "kesalahan" MLE yang diberikan? Dengan kata lain, bukankah keberadaan informasi Fisher positif menyiratkan MLE saya tidak ideal?
  2. Bagaimana definisi "informasi" ini berbeda dari yang digunakan oleh Shannon? Mengapa kami menyebutnya informasi?

Mengapa Anda menulisnya ? Harapannya melebihi nilai X yang didistribusikan seolah-olah berasal dari distribusi Anda dengan parameter θ . EθXθ
Neil G

3
Juga bukan nol pada parameter sebenarnya. I(θ)
Neil G

E (S) adalah nol (yaitu: ekspektasi fungsi skor), tetapi seperti yang ditulis Neil G - informasi fisher (V (S)) bukan (biasanya) nol.
Tal Galili

Jawaban:


15

Mencoba melengkapi jawaban lain ... Informasi apa yang dimaksud dengan informasi Fisher? Mulai dengan fungsi kemungkinan log sebagai fungsi θ untuk θ Θ , ruang parameter. Dengan asumsi beberapa kondisi keteraturan yang tidak kita diskusikan di sini, kita memiliki E

(θ)=logf(x;θ)
θθΘ(kami akan menulis turunan sehubungan dengan parameter sebagai titik-titik seperti di sini). Variansnya adalah informasi Fisher I(θ)=Eθ( ˙ (θ))2=-Eθ ¨ (θ) rumus terakhir yang menunjukkan bahwa itu adalah kelengkungan (negatif) dari fungsi kemungkinan loglikel. Orang sering menemukan penaksir kemungkinan maksimum (mle) dariEθ(θ)=Eθ˙(θ)=0
I(θ)=Eθ(˙(θ))2=Eθ¨(θ)
dengan memecahkan persamaan kemungkinan ˙ ( θ ) = 0 ketika informasi Fisher sebagai varian dari skor ˙ ( θ ) besar, maka solusi untuk persamaan itu akan sangat sensitif terhadap data, memberikan harapan untuk tinggi presisi dari mle. Itu dikonfirmasi setidaknya secara asimptotik, varian asimptotik dari mle menjadi kebalikan dari informasi Fisher.θ˙(θ)=0˙(θ)

(θ)θ(θ0)(θ1)˙(θ)I(θ)θ0

I(θ)=Eθ¨(θ)
θ0˙(θ)θ=θ0θθ0

{f(x;θ),θΘ}xθΘθ0Θxf(x;θ0)f(x;θ0)

f(x;θ0)f(x;θ0) dalam model dengan berbagai cara.

X1,,XnN(μ=10,σ2=1)

A:X1,,Xn iid N(μ,σ2=1),μRB:X1,,Xn iid N(μ,μ/10),μ>0
μ=10

A(μ)=n2log(2π)12i(xiμ)2B(μ)=n2log(2π)n2log(μ/10)102i(xiμ)2μ

˙A(μ)=n(x¯μ)˙B(μ)=n2μ102i(xiμ)215n
¨A(μ)=n¨B(μ)=n2μ2+102i2xi2μ3
μ=10
IA(μ=10)=n,IB(μ=10)=n(1200+20202000)>n

μ

Juga, contoh ini menggambarkan bahwa kita benar-benar membutuhkan beberapa teori untuk membantu kita dalam cara membangun keluarga model.


1
\Eθ˙(θ)=0θθ0

1
Ya, apa yang Anda katakan itu benar, @idadanny Itu nol ketika dievaluasi pada nilai parameter yang benar.
kjetil b halvorsen

θθ0

θ^

θ0θmleθ0θ1

31

θθ

Pertimbangkan bahwa Anda memiliki model besar dengan jutaan parameter. Dan Anda memiliki thumb drive kecil untuk menyimpan model Anda. Bagaimana Anda memprioritaskan berapa banyak bit dari setiap parameter yang akan disimpan? Jawaban yang tepat adalah mengalokasikan bit sesuai dengan informasi Fisher (Rissanen menulis tentang ini). Jika informasi Fisher parameter adalah nol, parameter itu tidak masalah.

Kami menyebutnya "informasi" karena informasi Fisher mengukur seberapa banyak parameter ini memberi tahu kami tentang data.


Cara sehari-hari untuk memikirkannya adalah ini: Misalkan parameter mengendarai mobil, dan data di kursi belakang mengoreksi pengemudi. Yang mengganggu dari data adalah informasi Fisher. Jika data memungkinkan pengemudi mengemudi, informasi Fisher adalah nol; jika data terus-menerus melakukan koreksi, itu besar. Dalam hal ini, informasi Fisher adalah jumlah informasi yang mengalir dari data ke parameter.

Pertimbangkan apa yang terjadi jika Anda membuat kemudi lebih sensitif. Ini setara dengan reparametrization. Dalam hal ini, data tidak ingin terlalu keras karena takut oversteering mobil. Reparametrization semacam ini mengurangi informasi Fisher.


20

Tambahan untuk jawaban bagus @ NeilG (+1) dan untuk menjawab pertanyaan spesifik Anda:

  1. Saya akan mengatakan itu menghitung "presisi" daripada "kesalahan" itu sendiri.

IIj,jtr(I)harus positif. Ini berarti bahwa Anda hanya dapat memiliki penaksir "tidak ideal" sesuai dengan pernyataan Anda. Jadi tidak, informasi Fisher yang positif tidak terkait dengan seberapa ideal MLE Anda.

  1. Definisi berbeda dalam cara kami menafsirkan gagasan informasi dalam kedua kasus. Karena itu, dua pengukuran terkait erat.

Kebalikan dari informasi Fisher adalah varians minimum dari estimator yang tidak bias ( terikat Cramér-Rao ). Dalam pengertian itu, matriks informasi menunjukkan seberapa banyak informasi tentang koefisien yang diperkirakan terdapat dalam data. Sebaliknya entropi Shannon diambil dari termodinamika. Ini menghubungkan konten informasi dari nilai tertentu dari variabel sebagai mana adalah probabilitas variabel mengambil nilai. Keduanya merupakan pengukuran seberapa "informatif" suatu variabel. Dalam kasus pertama Anda menilai informasi ini dalam hal ketepatan sedangkan dalam kasus kedua dalam hal gangguan; sisi yang berbeda, koin yang sama! : Dpp·log2(p)p

Untuk rekap: Kebalikan dari matriks informasi Fisher dievaluasi pada nilai estimator ML adalah matriks kovarians asimptotik atau perkiraan. Karena nilai estimator ML ini ditemukan dalam minimum lokal secara grafis, informasi Fisher menunjukkan seberapa dalam minimum itu dan siapa ruang gerak yang Anda miliki di sekitarnya. Saya menemukan makalah ini oleh Lutwak et al. tentang Perluasan informasi Fisher dan ketimpangan Stam merupakan bacaan informatif tentang masalah ini. Artikel Wikipedia tentang Metrik Informasi Fisher dan perbedaan Jensen-Shannon juga baik untuk Anda mulai.I

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.