Ini benar-benar hanya kenyamanan untuk kemungkinan loglik, tidak lebih.
Maksudku kenyamanan jumlah vs produk: , jumlah yang lebih mudah untuk menangani dalam banyak hal, seperti differentialtion atau integrasi. Ini bukan kenyamanan untuk keluarga eksponensial saja, saya coba katakan.ln(∏ixi)=∑ilnxi
Ketika Anda berurusan dengan sampel acak, kemungkinannya berupa: , jadi kemungkinan loglikas akan memecah produk ini menjadi jumlah, sebagai gantinya, yang lebih mudah untuk dimanipulasi dan dianalisis. Ini membantu bahwa semua yang kita pedulikan adalah titik maksimum, nilai maksimum tidak penting, karena kita dapat menerapkan transformasi monoton seperti logaritma.L = ∏sayahalsaya
Pada intuisi kelengkungan. Ini pada dasarnya hal yang sama pada akhirnya sebagai turunan kedua dari kemungkinan loglikel.
UPDATE: Inilah yang saya maksud pada lengkungan. Jika Anda memiliki fungsi , maka kelengkungannya adalah ( lihat (14) di Wolfram):
κ = f ″ ( x )y= f( x )
κ = f′ ′( x )( 1 + f′( x )2)3 / 2
Turunan kedua dari kemungkinan log:
A = ( lnf( x ) )′ ′= f′ ′( x )f( x )- ( f′( x )f( x ))2
Pada titik maksimum, turunan pertama jelas nol, jadi kita dapatkan:
Oleh karena itu, sindiran saya bahwa kelengkungan dari kemungkinan dan turunan kedua dari kemungkinan loglikel adalah hal yang sama, semacam.
κm a x= f′ ′( xm a x) = A f( xm a x)
Di sisi lain, jika turunan pertama dari kemungkinan kecil tidak hanya pada tetapi di sekitar titik maksimum, yaitu fungsi kemungkinan datar maka kita mendapatkan:
Sekarang kemungkinan datar itu bukan hal yang baik bagi kami, karena itu membuat menemukan maksimum lebih sulit secara numerik, dan kemungkinan maksimum tidak lebih baik daripada poin lain di sekitarnya, yaitu kesalahan estimasi parameter tinggi.
κ ≈ f′ ′( x ) ≈ A f( x )
Dan lagi, kita masih memiliki kelengkungan dan hubungan turunan kedua. Jadi mengapa Fisher tidak melihat kelengkungan fungsi kemungkinan? Saya pikir itu untuk alasan kenyamanan yang sama. Lebih mudah untuk memanipulasi kemungkinan log karena jumlah bukan produk. Jadi, dia bisa mempelajari kelengkungan kemungkinan dengan menganalisis turunan kedua dari kemungkinan loglikel. Meskipun persamaannya terlihat sangat sederhana untuk kelengkungan , dalam kenyataannya Anda mengambil turunan kedua dari produk, yang lebih berantakan daripada jumlah turunan kedua.κm a x= f′ ′( xm a x)
PEMBARUAN 2:
Ini sebuah demonstrasi. Saya menggambar fungsi kemungkinan (sepenuhnya dibuat-buat), a) kelengkungan dan b) turunan ke-2 dari log-nya. Di sisi kiri Anda melihat kemungkinan sempit dan di sisi kanan lebar. Anda melihat bagaimana pada titik kemungkinan maksimum a) dan b) bertemu, sebagaimana mestinya. Lebih penting lagi, Anda dapat mempelajari lebar (atau kerataan) dari fungsi kemungkinan dengan memeriksa turunan ke-2 dari kemungkinan log-nya. Seperti yang saya tulis sebelumnya, yang terakhir secara teknis lebih sederhana daripada yang pertama untuk dianalisis.
Tidak mengherankan turunan ke-2 dari loglikelihood sinyal fungsi kemungkinan flatter di max-nya, yang tidak diinginkan karena menyebabkan kesalahan estimasi parameter yang lebih besar.
Kode MATLAB jika Anda ingin mereproduksi plot:
f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);
h = 0.1;
x=-10:h:10;
% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])
% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])
PEMBARUAN 3:
Dalam kode di atas saya menyambungkan beberapa fungsi berbentuk bel yang sewenang-wenang ke dalam persamaan kelengkungan, kemudian menghitung turunan kedua dari log-nya. Saya tidak mengubah skala apa pun, nilainya lurus dari persamaan untuk menunjukkan kesetaraan yang saya sebutkan sebelumnya.
Inilah makalah pertama tentang kemungkinan bahwa Fisher diterbitkan saat masih di universitas, "Pada Kriteria Mutlak untuk Kurva Frekuensi Pas", Messenger of Mathmatics, 41: 155-160 (1912)
catatanP′= ∑n1catatanhal
catatanP= ∫∞- ∞catatanfdx
P
Satu hal yang perlu diperhatikan ketika membaca makalah dia hanya memulai dengan pekerjaan estimasi kemungkinan maksimum, dan melakukan lebih banyak pekerjaan dalam 10 tahun berikutnya, sehingga bahkan istilah MLE belum diciptakan, sejauh yang saya tahu.