Saya mengaku bingung dengan pertanyaan ini untuk beberapa waktu sebelumnya dalam karier saya. Satu cara saya meyakinkan diri sendiri tentang jawabannya adalah mengambil pandangan situasi yang sangat praktis dan terapan, pandangan yang mengakui bahwa tidak ada pengukuran yang sempurna. Mari kita lihat ke mana arahnya.
Inti dari latihan ini adalah untuk mengekspos asumsi yang mungkin diperlukan untuk membenarkan pencampuran kepadatan dan probabilitas yang agak fasih dalam ekspresi untuk kemungkinan. Karena itu saya akan menyoroti asumsi seperti itu di mana pun mereka diperkenalkan. Ternyata cukup banyak yang dibutuhkan, tetapi mereka cukup ringan dan mencakup setiap aplikasi yang saya temui (yang jelas akan terbatas, tetapi masih termasuk beberapa).
Masalahnya menyangkut distribusi campuran yang tidak mutlak kontinu atau tunggal. Teorema Dekomposisi Lebesgue memungkinkan kita untuk melihat distribusi semacam itu sebagai campuran yang benar-benar kontinu (yang menurut definisi memiliki fungsi kepadatan ) dan yang singular ("diskrit"), yang memiliki fungsi massa probabilitas (Saya akan mengabaikan kemungkinan bahwa komponen ketiga, terus menerus tetapi tidak sepenuhnya terus menerus, mungkin ada. Mereka yang menggunakan model seperti itu cenderung tahu apa yang mereka lakukan dan biasanya memiliki semua keterampilan teknis untuk membenarkannya.)F,fafd.
Ketika adalah anggota keluarga distribusi parametrik, kita dapat menulisF=Fθ
Fθ(x)=Faθ(x)+Fdθ(x)=∫x∞fa(t;θ)dt+∑t≤xfd(t;θ).
(Jumlahnya paling dapat dihitung, tentu saja.) Di sini, adalah fungsi kepadatan probabilitas dikalikan dengan beberapa koefisien campuran dan adalah probabilitas fungsi massa dikalikan denganfa(;θ)λ(θ)fd(;θ)1−λ(θ).
Mari kita menafsirkan setiap pengamatan dalam dataset iid sebagai "benar-benar" yang berarti kita memiliki pengetahuan tertentu bahwa nilai yang mendasari hipotetis benar terletak pada interval mengelilingi tetapi sebaliknya tidak memiliki informasi tentang Dengan asumsi kita tahu semua delta dan epsilon, ini tidak lagi menimbulkan masalah untuk membangun kemungkinan karena semuanya dapat dinyatakan dalam probabilitas:xiX=(x1,x2,…,xn)yi(xi−δi,xi+ϵi]xi,yi.
L(X;θ)=∏i(Fθ(xi+ϵi)−Fθ(xi−δi)).
Jika dukungan tidak memiliki titik kondensasi pada apa punFdθxi, kontribusinya terhadap probabilitas akan berkurang hingga paling banyak satu istilah saja asalkan epsilon dan delta dibuat cukup kecil: tidak akan ada kontribusi ketika tidak dalam dukungannya.xi
Jika kita menganggap adalah Lipschitz kontinu pada semua nilai data,fa(;θ) maka secara seragam dalam ukuran epsilon dan delta kita dapat memperkirakan bagian yang benar-benar kontinu dari sebagaiFθ(xi)
Faθ(xi+ϵi)−Faθ(xi−δi)=fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|).
Keseragaman dari perkiraan ini berarti bahwa ketika kita mengambil semua epsilon dan delta untuk menjadi kecil, semua istilah juga tumbuh kecil. Akibatnya ada nilai yang semakin kecil diatur oleh kontribusi dari semua istilah kesalahan ini, yango()ϵ(θ)>0,
L(X;θ)=∏i(fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|)+fd(xi;θ))=∏i(fa(xi;θ)(ϵi+δi)+fd(xi;θ)) + o(ϵ(θ)).
Ini masih agak berantakan, tapi ini menunjukkan ke mana kita pergi. Dalam hal data yang disensor, biasanya hanya satu bagian dari setiap istilah dalam produk akan nol, karena model ini biasanya mengasumsikan bahwa dukungan dari bagian tunggal dari distribusi terpisah dari dukungan bagian kontinu, tidak peduli apa pun parameter mungkin. θ(Khususnya: menyiratkan ) Itu memungkinkan kami untuk memecah produk menjadi dua bagian dan kami dapat memperhitungkan kontribusi dari semua interval keluar dari bagian kontinu:fd(x)≠0Fa(x+ϵ)−Fa(x−ϵ)=o(ϵ).
L(X;θ)=(∏i=1k(ϵi+δi))∏i=1kfa(xi;θ) ∏i=k+1nfd(xi;θ).
(Tanpa kehilangan sifat umum saya telah mengindeks data sehingga berkontribusi ke bagian yang kontinu dan sebaliknya berkontribusi pada bagian tunggal dari kemungkinan.)xi,i=1,2,…,kxi,i=k+1,k+2,…,n
Ungkapan ini sekarang membuatnya jelas
Karena lebar interval adalah tetap, mereka tidak berkontribusi pada kemungkinan (yang didefinisikan hanya hingga beberapa kelipatan konstan positif).ϵi+δi
Dengan demikian, kami dapat bekerja dengan ekspresi
L(X;θ)=∏i=1kfa(xi;θ) ∏i=k+1nfd(xi;θ)
ketika membangun rasio kemungkinan atau memaksimalkan kemungkinan. Keindahan hasil ini adalah bahwa kita tidak perlu mengetahui ukuran interval hingga yang digunakan dalam derivasi ini: epsilon dan delta drop out. Kita hanya perlu tahu bahwa kita bisa membuatnya cukup kecil untuk ekspresi kemungkinan yang sebenarnya kita kerjakan menjadi perkiraan yang memadai untuk ekspresi kemungkinan yang akan kita gunakan jika kita tahu ukuran intervalnya.