Mengapa definisi penaksir konsisten seperti itu? Bagaimana dengan definisi alternatif konsistensi?

Kutipan dari wikipedia:

Dalam statistik, penduga yang konsisten atau penduga yang konsisten secara asimptotik adalah penduga — aturan untuk menghitung estimasi parameter $θ^*$ —memiliki properti yang karena jumlah titik data yang digunakan meningkat tanpa batas, urutan hasil estimasi konvergen dalam probabilitas untuk $θ^*$ .

Untuk membuat pernyataan ini tepat, biarkan $\theta^*$ menjadi nilai dari parameter sebenarnya yang ingin Anda perkirakan dan biarkan $\hat\theta(S_n)$ menjadi aturan untuk memperkirakan parameter ini sebagai fungsi dari data. Kemudian definisi konsistensi penduga dapat dinyatakan dengan cara berikut:

lim_{n \to \infty} P r [| \hat{θ (S_{n}}) - θ^{*} | \geq ϵ] = 0

$\lim_{n \to \infty} Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ]=0$

pertanyaan saya tampaknya dangkal pada pandangan pertama tetapi itu adalah: mengapa kata "konsistensi / konsisten" digunakan untuk menggambarkan perilaku penaksir ini?

Alasan saya peduli tentang hal ini adalah karena bagi saya, secara intuitif, kata konsisten berarti sesuatu yang berbeda (atau setidaknya tampaknya berbeda bagi saya, mungkin mereka dapat ditunjukkan sama). Biarkan saya memberi tahu Anda apa artinya dengan menggunakan contoh. Katakan "Anda" secara konsisten "baik" (untuk beberapa definisi yang baik), maka konsisten berarti bahwa setiap kali Anda memiliki kesempatan untuk membuktikan / menunjukkan kepada saya bahwa Anda baik, Anda memang membuktikan kepada saya bahwa Anda baik, setiap saat (atau setidaknya sebagian besar waktu).

Mari kita terapkan intuisi saya untuk mendefinisikan konsistensi penduga. Biarkan "Anda" menjadi fungsi penghitungan dan biarkan "baik" berarti seberapa jauh Anda dari perkiraan sebenarnya (bagus, dalam arti norma , mengapa tidak). Maka definisi konsistensi yang lebih baik adalah: $\hat{\theta}$ $\theta^*$ $l_1$

\forall n, \forall S_{n}, P r [| \hat{θ (S_{n}}) - θ^{*} | \geq ϵ] < δ

$\forall n,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta$

Meskipun mungkin definisi konsistensi yang kurang bermanfaat, lebih masuk akal bagi saya dalam cara saya mendefinisikan konsistensi, karena untuk setiap pelatihan / set sampel yang Anda lemparkan ke estimator saya , saya akan dapat melakukan pekerjaan yang baik, yaitu saya akan konsisten melakukannya dengan baik. Saya sadar, bahwa itu sedikit tidak realistis untuk melakukannya untuk semua n (mungkin tidak mungkin), tetapi kita dapat memperbaiki definisi ini dengan mengatakan: $\hat\theta$

\exists n_{0}, \forall n \geq n_{0}, \forall S_{n}, P r [| \hat{θ (S_{n}}) - θ^{*} | \geq ϵ] < δ

$\exists n_0, \forall n \geq n_0,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta$

yaitu untuk n yang cukup besar, estimator kami tidak akan melakukan lebih buruk dari (yaitu tidak lebih dari dari "kebenaran") dari ( sedang mencoba menangkap intuisi yang Anda butuhkan setidaknya beberapa contoh untuk mempelajari / memperkirakan sesuatu, dan begitu Anda telah mencapai angka itu, estimator Anda akan melakukan sebagian besar waktu jika konsisten dengan cara kami mencoba mendefinisikannya). $\epsilon$ $\epsilon$ $\theta^*$ $n_0$

Namun, definisi sebelumnya adalah untuk kuat, mungkin kita bisa memungkinkan kita untuk memiliki probabilitas rendah jauh dari untuk sebagian besar set pelatihan ukuran (yaitu tidak memerlukan ini untuk semua , tetapi lebih distribusi atau sesuatu seperti itu). Jadi kita akan memiliki kesalahan tinggi sangat jarang untuk sebagian besar set sampel / pelatihan yang kita miliki. $\theta^*$ $n \geq n_0$ $S_n$ $S_n$

Lagi pula, pertanyaan saya adalah, apakah definisi yang diusulkan ini tentang "konsistensi" sebenarnya sama dengan definisi "resmi" konsistensi, tetapi kesetaraan sulit untuk dibuktikan? Jika Anda tahu buktinya, silakan bagikan! Atau apakah intuisi saya benar-benar hilang dan adakah alasan yang lebih dalam untuk memilih konsistensi definisi dengan cara yang biasanya didefinisikan sebagai? Mengapa konsistensi ("resmi") didefinisikan sebagaimana adanya?

Beberapa pemikiran saya tentang bukti kandidat untuk semacam kesetaraan, atau mungkin kesamaan antara gagasan konsistensi saya dan gagasan konsistensi yang diterima mungkin untuk mengurai definisi batas dalam definisi resmi konsistensi menggunakan definisi batas. Namun, saya tidak 100% yakin bagaimana melakukan itu dan bahkan jika saya mencoba, definisi resmi tentang konsistensi tampaknya tidak memperhitungkan pembicaraan tentang semua set pelatihan / sampel potensial. Karena saya percaya mereka setara, apakah definisi resmi yang saya berikan tidak lengkap (yaitu mengapa tidak berbicara tentang set data yang kami bisa atau semua set data berbeda yang dapat menghasilkan set sampel kami)? $(\epsilon, \delta)-$

Salah satu pemikiran terakhir saya adalah, definisi apa pun yang kami berikan juga harus tepat sesuai dengan distribusi probabilitas yang kami bicarakan, apakah atau . Saya pikir seorang kandidat juga harus tepat jika apa pun yang dijaminnya, jika itu menjamin itu wrt ke beberapa distribusi tetap atau wrt ke semua distribusi yang mungkin untuk set pelatihan ... kan? $P_x$ $P_{S_n}$

machine-learning mathematical-statistics consistency

— Charlie Parker
sumber

(+1) Berpikir kreatif. Terima kasih telah berbagi ini dengan kami. Saya percaya saya akan dapat memberikan beberapa pemikiran sebagai jawaban di sini.

— Alecos Papadopoulos

Definisi pertama tidak banyak berguna karena mengharuskan semua penduga harus sangat akurat. Yang kedua tidak masuk akal karena ia mencoba untuk mengontrol satu variabel logis dengan beberapa quantifiers.

n

$n$

— whuber

Pertimbangkan pernyataan tentatif kedua oleh OP, sedikit dimodifikasi,

\begin{matrix} (1) & \forall θ \in Θ, ϵ > 0, δ > 0, S_{n}, \exists n_{0} (θ, ϵ, δ) : \forall n \geq n_{0}, P_{n} [| \hat{θ} (S_{n}) - θ^{*} | \geq ϵ] < δ \end{matrix}

$\forall \theta\in \Theta, \epsilon>0, \delta>0, S_n, \exists n_0(\theta, \epsilon, \delta): \forall n \geq n_0,\;\\P_n\big[|{\hat \theta(S_{n}}) - \theta^*|\geq \epsilon \big] < \delta \tag{1}$

Kami memeriksa batas dalam urutan bilangan real $[0,1]$

{P_{n} [| \hat{θ} (S_{n}) - θ^{*} | \geq ϵ]}

$\big\{ P_n\big[|{\hat\theta(S_{n}}) - \theta^*|\geq \epsilon \big]\big\}$

diindeks oleh . Jika urutan ini memiliki batas sebagai , sebut saja , kita akan memilikinya $n$ $n\rightarrow \infty$ $p$

\begin{matrix} (2) & \forall θ \in Θ, ϵ > 0, δ > 0, S_{n}, \exists n_{0} (θ, ϵ, δ) : \forall n \geq n_{0}, | P_{n} [| \hat{θ (S_{n}}) - θ^{*} | \geq ϵ] - p | < δ \end{matrix}

$\forall \theta\in \Theta, \epsilon>0, \delta>0, S_n,\,\exists n_0(\theta, \epsilon, \delta): \forall n \geq n_0,\;\\\Big| P_n\big[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon \big] -p\Big|< \delta \tag{2}$

Jadi jika kita mengasumsikan (atau mensyaratkan) , kita pada dasarnya menganggap (atau mensyaratkan) bahwa batas sebagai ada dan sama dengan nol, . $(1)$ $n\rightarrow \infty$ $p=0$

Jadi berbunyi "batas sebagai adalah ". Yang persis seperti definisi konsistensi saat ini (dan ya, itu mencakup "semua sampel yang mungkin") $(1)$ $P_n\big[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon\big]$ $n\rightarrow \infty$ $0$

Jadi tampaknya OP pada dasarnya mengusulkan ekspresi alternatif untuk properti yang sama persis, dan bukan properti yang berbeda, dari estimator.

ADDENDUM (lupa bagian sejarah)

Dalam bukunya "Yayasan Teori Probabilitas" (1933), Kolmogorov menyebutkan dalam catatan kaki bahwa (konsep konvergensi dalam probabilitas)

"... karena Bernoulli; perawatannya yang sepenuhnya umum diperkenalkan oleh EESlutsky".

(tahun 1925). Karya Slutsky dalam bahasa Jerman - bahkan mungkin ada masalah bagaimana kata Jerman diterjemahkan dalam bahasa Inggris (atau istilah yang digunakan oleh Bernoulli). Tetapi jangan mencoba membaca terlalu banyak menjadi sebuah kata.

— Alecos Papadopoulos
sumber