Fungsi kemungkinan data terpotong

Saya mengalami sedikit kesulitan memahami konsep dan derivasi dari kemungkinan data terpotong.

Misalnya, jika saya ingin menemukan fungsi kemungkinan berdasarkan sampel dari distribusi, tetapi ketika mengambil sampel dari distribusi, saya mengamati nilai terpotong (di mana ada cut-off dari $M$ , yaitu setiap dicatat sebagai ): $x_{i}>M$ $M$

$x_{1}, x_{2}, M, x_{3}, M, x_{4}, x_{5}, ..., x_{10}$

di mana jumlah nilai adalah . Kemudian, kemungkinan diberikan oleh: $M$ $m$

$L(x;\theta) = \prod_{i=1}^{10}f(x_{i};\theta)*[P(X>M)]^{m}$

Saya akan sangat menghargai penjelasan / bukti mengapa ini begitu, penting mengapa faktor kedua adalah apa adanya. Secara intuitif dan matematis jika memungkinkan. Terima kasih banyak sebelumnya.

dataset likelihood

— Delvesy
sumber

Apa huruf kecil " "?

m

$m$

— Alecos Papadopoulos

Ini adalah jumlah kejadian .. yaitu saya telah mengamati titik data, di mana tidak terpotong, dan di antaranya adalah (saya amati pick ini, semuanya dengan nilai )

M

$M$

10 + m

$10 + m$

10

$10$

m

$m$

m

$m$

M

$M$

— Delvesy

Seperti yang ditunjukkan @Alecos, Anda menggunakan "terpotong" secara istimewa. "Disensor" adalah istilah yang biasa.

— Scortchi

Beberapa istilah lain yang Anda mungkin ingin cari di: "efek plafon / lantai", "regresi beta", dan "model nol-inflasi."

— DWin

Jawaban:

Apa yang Anda gambarkan memerlukan perlakuan khusus, itu bukan apa yang biasanya kita maksud dengan "variabel acak terpotong" -dan apa yang biasanya kita maksudkan adalah bahwa variabel acak tidak berkisar di luar dukungan terpotong, yang berarti bahwa tidak ada konsentrasi massa probabilitas pada titik pemotongan. Untuk membedakan kasus:

A) Arti "biasa" dari rv terpotong
Untuk setiap distribusi yang kami pangkas dukungannya, kita harus "memperbaiki" kepadatannya sehingga terintegrasi ke dalam kesatuan ketika diintegrasikan ke atas dukungan terpotong. Jika variabel memiliki dukungan dalam $[a,b]$ , $-\infty < a < b < \infty$ , lalu (pdf $f$ , cdf $F$ )

\int_{a}^{b} f_{X} (x) d x = \int_{a}^{M} f_{X} (x) d x + \int_{M}^{b} f_{X} (x) d x = \int_{a}^{M} f_{X} (x) d x + [1 - F_{X} (M)] = 1

$\int_a^bf_X(x)dx = \int_a^Mf_X(x)dx+\int_M^bf_X(x)dx = \int_a^Mf_X(x)dx + \left[1-F_X(M)\right]=1$

\Rightarrow \int_{a}^{M} f_{X} (x) d x = F_{X} (M)

$\Rightarrow \int_a^Mf_X(x)dx = F_X(M)$

Karena LHS adalah bagian integral dari dukungan terpotong, kita melihat bahwa kepadatan rv terpotong, sebut saja $\tilde X$ , harus

f_{\tilde{X}} (\tilde{x}) = f_{X} (x ∣ X \leq M) = f_{X} (x) d x \cdot {[F_{X} (M)]}^{- 1}

$f_{\tilde X}(\tilde x) = f_{X}(x\mid X\le M)=f_X(x)dx\cdot \left[F_X(M)\right]^{-1}$ sehingga diintegrasikan ke kesatuan

[a, M]

$[a, M]$ . Istilah tengah dalam ungkapan di atas membuat kita berpikir tentang situasi ini (memang seharusnya) sebagai bentuk pengkondisian -tapi tidak pada variabel acak lain, tetapi pada nilai-nilai yang mungkin diambil oleh rv sendiri. Di sini fungsi kepadatan / kemungkinan gabungan dari koleksi

n

$n$ terpotong iid rv akan

n

$n$ kali kepadatan di atas, seperti biasa.

B) Probabilitas massa konsentrasi
Di sini, yang Anda gambarkan dalam pertanyaan, semuanya berbeda. Inti nya $M$ memusatkan semua massa probabilitas yang sesuai dengan dukungan variabel yang lebih tinggi dari $M$ . Ini menciptakan titik diskontinuitas dalam kepadatan dan membuatnya memiliki dua cabang

\begin{aligned} f_{X^{*}} (x^{*}) & = f_{X} (x^{*}) x^{*} < M \\ f_{X^{*}} (x^{*}) & = P (X^{*} \geq M) x^{*} \geq M \end{aligned}

$\begin{align} f_{X^*}(x^*) &= f_X(x^*) \qquad x^*<M\\ f_{X^*}(x^*) &= P(X^* \ge M) \qquad x^*\ge M\\ \end{align}$

Secara informal, yang kedua adalah "seperti rv diskrit" di mana setiap titik dalam fungsi massa probabilitas mewakili probabilitas aktual. Sekarang asumsikan kita punya $n$ variabel acak iid seperti itu, dan kami ingin membentuk fungsi kerapatan / kemungkinan bersama. Sebelum melihat sampel yang sebenarnya, cabang apa yang harus kita pilih? Kita tidak dapat membuat keputusan itu sehingga kita harus memasukkan keduanya. Untuk melakukan ini kita perlu menggunakan fungsi indikator: denote $I\{x^*\ge M\}\equiv I_{\ge M}(x^*)$ fungsi indikator yang mengambil nilai $1$ kapan $x^*\ge M$ , dan $0$ jika tidak. Kepadatan rv seperti itu dapat ditulis

f_{X^{*}} (x^{*}) = f_{X} (x^{*}) \cdot [1 - I_{\geq M} (x^{*})] + P (X^{*} \geq M) \cdot I_{\geq M} (x^{*})

$f_{X^*}(x^*) = f_X(x^*)\cdot \left[1-I_{\ge M}(x^*)\right]+P(X^* \ge M)\cdot I_{\ge M}(x^*)$ dan karena itu fungsi kerapatan sambungan

n

$n$ variabel iid tersebut adalah

f_{X^{*}} (X^{*} ∣ θ) = \prod_{i = 1}^{n} [f_{X} (x_{i}^{*}) \cdot [1 - I_{\geq M} (x_{i}^{*})] + P (X_{i}^{*} \geq M) \cdot I_{\geq M} (x_{i}^{*})]

$f_{X^*}(\mathbf X^*\mid \theta) = \prod_{i=1}^n\Big[f_X(x^*_i)\cdot \left[1-I_{\ge M}(x^*_i)\right]+P(X^*_i \ge M)\cdot I_{\ge M}(x^*_i)\Big]$

Sekarang, di atas dipandang sebagai fungsi kemungkinan, sampel aktual yang terdiri dari realisasi ini $n$ variabel acak ikut bermain. Dan dalam sampel ini, beberapa realisasi yang diamati akan lebih rendah dari ambang batas $M$ , beberapa sama. Menunjukkan $m$ jumlah realisasi dalam sampel yang sama dengan $M$ , dan $v$ sisanya, $m+v=n$ . Segera untuk $m$ realisasi, bagian yang sesuai dari kepadatan yang akan tetap dalam kemungkinan akan menjadi $P(X^*_i \ge M)$ bagian, sedangkan untuk $v$ realisasi, bagian lainnya. Kemudian

\begin{aligned} L (θ ∣ {x_{i}^{*}; i = 1, . . . n}) & = \prod_{i = 1}^{v} [f_{X} (x_{i}^{*})] \cdot \prod_{j = 1}^{m} [P (X_{j}^{*} \geq M)] \\ = \prod_{i = 1}^{v} [f_{X} (x_{i}^{*})] \cdot [P (X^{*} \geq M)]^{m} \end{aligned}

$\begin{align} L(\theta\mid \{x_i^*;\,i=1,...n\})&= \prod_{i=1}^v\Big[f_X(x^*_i)\Big]\cdot \prod_{j=1}^m\Big[P(X^*_j \ge M)\Big] \\& = \prod_{i=1}^v\Big[f_X(x^*_i)\Big]\cdot \Big[P(X^* \ge M)\Big]^m\\ \end{align}$

— Alecos Papadopoulos
sumber

Terima kasih. Saya sangat menghargai jawabannya. Saya kira masalah utama saya adalah poin pertama di bagian b) ... yaitu, bagaimana "cabang kedua" dari pdf didefinisikan. Ini adalah PMF diskrit dan tidak benar-benar mendefinisikan pdf dari definisi pdf. Bisakah bagian ini dijelaskan lebih lanjut? Terima kasih banyak.

— Delvesy

Variabel acak ini disebut "tipe campuran", yaitu mereka sebagian kontinu dan sebagian terpisah. Secara intuitif itu masuk akal, seperti yang ditunjukkan oleh pertanyaan Anda. Untuk perawatan yang ketat, cari "variabel acak tipe campuran" atau "distribusi tipe campuran". JANGAN membingungkan mereka dengan "campuran".

— Alecos Papadopoulos

Teori kemungkinan adalah kerangka yang cukup umum. Sebagian besar buku teks menyatakan hasil untuk kasus r.vs kontinu yang terpisah dan untuk r.vs. Namun kasus campuran terjadi dalam praktik, seperti halnya di sini.

Untuk rv diskrit $A$ , kemungkinan observasi $a$ didefinisikan sebagai probabilitas untuk mendapatkan nilai yang diamati $a$ katakan $p_A(a)$ . Untuk kemungkinan terus menerus $L$ biasanya didefinisikan sebagai kepadatan di $x$ katakan $f_X(x)$ . Namun dalam praktiknya orang hanya tahu itu $x_{\textrm{L}} < X < x_{\textrm{U}}$ - karena ketelitian pengukuran terbatas, dan $\Pr\left\{x_{\textrm{L}} < X < x_{\textrm{U}}\right\}$ harus digunakan sebagai kemungkinan. Pengambilan $x_{\textrm{L}}:= x - \textrm{d}x/2$ , dengan kecil, kita mendapatkan hingga multiplikatif yang tidak masalah . Jadi definisi yang biasa dapat dilihat secara implisit mengasumsikan ketelitian tak terbatas pada pengamatan. $x_{\textrm{U}}:= x + \textrm{d}x/2$ $\mathrm{d}x$ $f_X(x)$ $\mathrm{d}x$

Untuk beberapa r.vs dan dengan tipe sambungan campuran diskrit / kontinyu, kemungkinannya adalah distribusi sambungan, yang biasanya dinyatakan menggunakan distribusi bersyarat, misalnya Dengan demikian untuk suatu interval dengan panjang kecil , adalah dikalikan kepadatan bersyarat pada , ucapkan $A$ $X$

L := Pr {A = a, x_{L} < X < x_{U}} = Pr {A = a} \times Pr {x_{L} < X < x_{U} | A = a} .

$L := \textrm{Pr}\left\{ A = a, \, x_{\textrm{L}} < X < x_{\textrm{U}} \right\} = \textrm{Pr}\left\{ A = a \right\} \times \textrm{Pr} \left\{x_{\textrm{L}} < X < x_{\textrm{U}} \, \vert\, A = a\right\}.$

(x_{L}, x_{U})

$(x_{\textrm{L}},\, x_{\textrm{U}})$

d x

$\textrm{d}x$

L

$L$

p_{A} (a)

$p_A(a)$

X

$X$

{A = a}

$\{A=a\}$

f_{X | A} (x | a)

$f_{X \vert A}(x \,\vert \,a)$ . Sekali lagi, kita menghilangkan istilah .

d x

$\mathrm{d}x$

Sekarang mari kita kembali ke contoh Anda, dan pertimbangkan hanya satu pengamatan. Maka adalah Bernoulli rv dengan probabilitas keberhasilan . Tergantung pada atau tidak, baik Anda mengamati hanya atau Anda mengamati kedua dan nilai dari . Dalam kedua kasus Anda menggunakan rumus di atas, tetapi diambil sebagai atau sebagai interval dengan panjang kecil berisi . Memang ini memberi $A = 1_{\{X > M\}}$ $\Pr\{X > M\}$ $X > M$ $A = 1$ $A = 0$ $x$ $X$ $(x_{\textrm{L}},\, x_{\textrm{U}})$ $(M,\,\infty)$ $\textrm{d}x$ $x$

L = {\begin{cases} Pr {X > M} \times 1 & if X > M i.e. A = 1, \\ Pr {X \leq M} \times f_{X | A} (x | a) d x & if X \leq M i.e. A = 0. \end{cases}

$L = \begin{cases} \textrm{Pr} \left\{X > M \right\} \times 1 & \textrm{if } X > M \textrm{ i.e. } A =1,\\ \textrm{Pr} \left\{X \leq M\right\} \times f_{X \vert A}(x \,\vert \,a)\,\textrm{d}x & \textrm{if } X \leq M \textrm{ i.e. } A = 0. \end{cases}$ Sejak , kemungkinannya hanyalah dalam kasus kedua dan kami mendapatkan kemungkinan yang diklaim, hingga istilah untuk pengamatan dengan presisi tak terbatas. Ketika pengamatan independen dan dibuat, kemungkinan diperoleh sebagai produk dari kemungkinan marginal yang mengarah ke ekspresi dalam pertanyaan.

f_{X | A} (x | 0) = f_{X} (x) / Pr {X \leq M}

$f_{X \vert A}(x \,\vert \,0) = f_X(x) / \textrm{Pr} \left\{ X \leq M \right\}$

f_{X} (x) d x

$f_X(x)\,\textrm{d}x$

d x

$\mathrm{d}x$

A_{i}

$A_i$

X_{i}

$X_i$

— Yves
sumber