Solusi untuk latihan 2.2a.16 dari "Statistik Kuat: Pendekatan Berdasarkan Fungsi Pengaruh"

Pada halaman 180 dari Statistik Kuat: Pendekatan Berdasarkan Fungsi Pengaruh kita menemukan pertanyaan berikut:

16: Tunjukkan bahwa untuk penaksir invarian lokasi selalu $\varepsilon^*\leq\frac{1}{2}$ . Temukan batas atas yang sesuai pada titik rincian sampel-terbatas $\varepsilon^*_n$ , baik dalam kasus di mana $n$ ganjil atau $n$ genap.

Bagian kedua (setelah periode) sebenarnya sepele (diberikan yang pertama) tetapi saya tidak dapat menemukan cara untuk membuktikan bagian pertama (kalimat) dari pertanyaan.

Di bagian buku yang berkaitan dengan pertanyaan ini, orang menemukan (hal .98):

$\varepsilon^*_n$ $T_n$ $(x_l,\ldots, x_n)$

$ε_{n}^{*} (T_{n}; x_{i}, \dots, x_{n}) := \frac{1}{n} max {m : max_{i_{1}, \dots, i_{m}} sup_{y_{1}, \dots, y_{m}} | T_{n} (z_{1}, \dots, z_{n}) | < \infty}$ $\varepsilon^*_n(T_n;x_i,\ldots,x_n):=\frac{1}{n}\max\{m:\max_{i_1,\ldots,i_m}\sup_{y_1,\ldots,y_m}\;|T_n(z_1,\ldots,z_n)|<\infty\}$
di mana sampel diperoleh dengan mengganti titik data dengan nilai acak $(z_1,\ldots,z_n)$ $m$ $x_{i_1},\ldots,x_{i_m}$ $y_1,\ldots,y_m.$

Definisi formal dari sendiri berjalan hampir di satu halaman, tetapi dapat dianggap sebagai Meskipun tidak didefinisikan secara eksplisit, satu dapat menebak bahwa invarian lokasi berarti bahwa harus memenuhi $\varepsilon^*$

ε^{*} = lim_{n \to \infty} ε_{n}^{*}

$\varepsilon^*=\underset{n\rightarrow\infty}{\lim}\varepsilon^*_n$

T_{n}

$T_n$

T_{n} (x_{1}, \dots, x_{n}) = T_{n} (x_{1} + c, \dots, x_{n} + c), for all c \in R

$T_n(x_1,\ldots,x_n)= T_n(x_1+c,\ldots,x_n+c), \text{ for all } c\in \Bbb{R}$

Saya (mencoba) menjawab pertanyaan whuber dalam komentar di bawah. Buku ini mendefinisikan estimator beberapa halaman, mulai dari p82, saya mencoba mereproduksi bagian utama (saya pikir itu akan menjawab pertanyaan whuber): $T_n$

Misalkan kita memiliki pengamatan satu dimensi yang independen dan terdistribusi secara identik (iid). Pengamatan milik beberapa ruang sampel , yang merupakan bagian dari garis nyata (sering sama dengan itu sendiri, sehingga pengamatan dapat mengambil nilai apa pun ). Model parametrik terdiri dari keluarga distribusi probabilitas , pada ruang sampel, di mana parameter yang tidak diketahui milik beberapa ruang parameter $(X_1,\ldots,X_n)$ $\mathcal{H}$ $\mathbb{R}$ $\mathcal{H}$ $\mathbb{R}$ $F_\theta$ $\theta$ $\Theta$

...

Kami mengidentifikasi sampel dengan distribusi empiris , mengabaikan urutan pengamatan (seperti yang hampir selalu dilakukan). Secara formal, , diberikan oleh di mana , adalah titik massa 1 di . Sebagai penaksir , kami mempertimbangkan statistik bernilai riil . Dalam arti yang lebih luas, estimator dapat dilihat sebagai urutan statistik , satu untuk setiap ukuran sampel yang mungkin . Idealnya, pengamatan dilakukan menurut anggota model parametrik $(X_1,\ldots,X_n)$ $G_n$ $G_n$ $(1/n)\sum_{i=1}^n\Delta_{x_i}$ $\Delta_{X}$ $X$ $\theta$ $T_n=T_n(X_1,\ldots,X_n)=T_n(G_n)$ $\{T_n,n\geq 1\}$ $n$ $\{F_\theta;\theta\in\Theta\}$ , tetapi kelas dari semua kemungkinan distribusi pada jauh lebih besar. $\mathcal{F}(\mathcal{H})$ $\mathcal{H}$

Kami menganggap estimator yang fungsional [yaitu, untuk semua dan ] atau dapat secara asimptotik digantikan oleh fungsional. Ini berarti bahwa kami mengasumsikan bahwa ada fungsional [di mana domain adalah himpunan semua distribusi dimana didefinisikan] sedemikian sehingga dalam probabilitas ketika pengamatan dilakukan sesuai dengan distribusi dalam . Kami mengatakan bahwa $T_n(G_n)=T(G_n)$ $n$ $G_n$ $T:\mbox{domain}(T)\rightarrow\mathbb{R}$ $T$ $\mathcal{F}(\mathcal{H})$ $T$
$T_{n} (X_{1}, \dots, X_{n}) \underset{n \to \infty}{\to} T (G)$ $T_n(X_1,\ldots,X_n)\underset{n\rightarrow\infty}{\rightarrow}T(G)$ $G$ $\mbox{domain}(T)$ $T(G)$ adalah nilai asymptotic di . $\{T_n;n\geq 1\}$ $G$

...

Dalam bab ini, kami selalu menganggap bahwa fungsional yang diteliti konsisten dengan Fisher (Kallianpur dan Rao, 1955): yang berarti bahwa pada model estimator secara asimtotik mengukur kuantitas yang tepat. Gagasan konsistensi Fisher lebih cocok dan elegan untuk fungsional daripada konsistensi biasa atau ketidakberpihakan asimptotik.
$T (F_{θ}) = θ for all θ \in Θ$ $T(F_\theta)=\theta\;\mbox{ for all } \theta\in\Theta$ $\{T_n;n\geq 1\}$

self-study robust

— pengguna603
sumber

Bagaimana tepatnya buku ini mendefinisikan "penaksir"? Tampak bagi saya bahwa setiap penaksir terikat harus memiliki titik rincian , jadi pasti itu menempatkan semacam batasan khusus pada ; dan selalu ada penaksir invarian lokasi-terikat (mereka akan menyertakan konstanta).

T_{n}

$T_n$

1

$1$

T_{n}

$T_n$

— whuber

Terima kasih atas materi yang diperluas. Tampaknya masih ada banyak contoh tandingan. Yang sederhana adalah estimator konstan untuk keluarga satu-parameter dari distribusi normal varian . Ini adalah penaksir varians lokasi-invarian. Titik rinciannya adalah . Ini konsisten dengan Fisher (sepele), tetapi saya perlu menafsirkan definisi dengan hati-hati: " " tidak dapat merujuk semua parameter secara pasti, karena dengan demikian tidak ada penaksir invarian lokasi yang bisa konsisten!

T_{n} (X_{1}, \dots, X_{n}) = 1

$T_n(X_1,\ldots,X_n)=1$

1

$1$

1

$1$

θ

$\theta$

— whuber

@whuber: Terima kasih, saya mengerti contoh balasan Anda. Saya pikir saya akan menghubungi penulis dan meminta informasi lebih lanjut ...

— user603

Buku statistik yang lebih lama menggunakan "invarian" dengan cara yang sedikit berbeda dari yang diharapkan; terminologi yang ambigu tetap ada. Setara yang lebih modern adalah "equivariant" (lihat referensi di akhir posting ini). Dalam konteks sekarang artinya

T_{n} (X_{1} + c, X_{2} + c, \dots, X_{n} + c) = T_{n} (X_{1}, X_{2}, \dots, X_{n}) + c

$T_n(X_1+c,X_2+c,\ldots,X_n+c) = T_n(X_1,X_2,\ldots,X_n) + c$

untuk semua nyata . $c$

Untuk menjawab pertanyaan tersebut, anggaplah bahwa memiliki properti yang untuk cukup besar , semua nyata , dan semua , $T_n$ $n$ $c$ $m \le \varepsilon^{*}n$

| T_{n} (X + Y) - T_{n} (X) | = o (| c |)

$|T_n(\mathbf{X + Y}) - T_n(\mathbf{X})| = o(|c|)$

setiap kali berbeda dari oleh paling banyak in at paling koordinat. $\mathbf Y$ $\mathbf{X}$ $c$ $m$

(Ini adalah kondisi yang lebih lemah daripada yang diasumsikan dalam definisi breakdown bound. Faktanya, yang benar-benar perlu kita asumsikan adalah bahwa ketika cukup besar, ekspresi " " adalah beberapa nilai yang dijamin kurang dari dalam ukuran.) $n$ $o(|c|)$ $|c|/2$

Buktinya dengan kontradiksi. Asumsikan, dengan demikian, bahwa ini juga sama dan misalkan . Maka untuk cukup besar , adalah bilangan bulat di mana dan . Untuk bilangan real tentukan $T_n$ $\varepsilon^{*} \gt 1/2$ $n$ $m(n) = \lfloor \varepsilon^{*}n\rfloor$ $m(n)/n \le \varepsilon^{*}$ $(n-m(n))/n \le \varepsilon^{*}$ $a,b$

t_{n} (a, b) = T_{n} (a, a, \dots, a, b, b, \dots, b)

$t_n(a, b) = T_n(a, a, \ldots, a,\ b, b, \ldots, b)$

di mana ada dan 's. Dengan mengubah atau lebih sedikit dari koordinat, kami menyimpulkan keduanya $m(n)$ $a$ $n-m(n)$ $b$ $m(n)$

| t (a, b) - t (0, b) | = o (| a |)

$|t(a,b) - t(0,b)| = o(|a|)$

dan

| t (a, b) - t (a, 0) | = o (| b |) .

$|t(a,b) - t(a,0)| = o(|b|).$

Untuk segitiga menegaskan ketidaksetaraan $c\gt 0$

\begin{aligned} c = | t_{n} (c, c) - t_{n} (0, 0) | & \leq | t_{n} (c, c) - t_{n} (c, 0) | + | t_{n} (c, 0) - t_{n} (0, 0) | \\ = o (c) + o (c) \\ < c / 2 + c / 2 \\ = c \end{aligned}

$\eqalign{ c = |t_n(c, c) - t_n(0, 0)| &\le |t_n(c, c) - t_n(c, 0)| + |t_n(c, 0) - t_n(0,0)| \\&= o(c) + o(c) \\&\lt c/2 + c/2 \\ &= c}$

Ketidaksetaraan yang ketat pada garis kedua dari belakang dijamin untuk cukup besar . Kontradiksi yang disiratkannya, , membuktikan $n$ $c \lt c$ $\varepsilon^{*} \le 1/2.$

Referensi

EL Lehmann, Teori Estimasi Titik . John Wiley 1983.

Dalam teks (bab 3, bagian 1) dan catatan kaki yang menyertai Lehmann menulis

Pengukur yang memuaskan untuk semua akan disebut equivariant ... $\delta(X_1+a, \ldots, X_n+a) = \delta(X_1,\ldots,X_n)+a$ $a$

Beberapa penulis menyebut penaksir seperti itu "invarian." Karena ini menunjukkan bahwa estimator tetap tidak berubah di bawah , tampaknya lebih baik untuk mencadangkan istilah itu untuk fungsi yang memuaskan untuk semua . $X_i^\prime = X_i+a$ $u(x+a)=u(x)$ $x,a$

— whuber
sumber

ya saya telah menghubungi penulis utama buku kemarin dengan pertanyaan yang sama tentang definisi sebenarnya dari invarian yang digunakan (saya melihat dalam indeks dan saya tidak dapat menemukannya secara eksplisit dalam buku). Saya memilih karena saya pikir jawaban Anda adalah yang benar, tetapi akan memberi penulis beberapa hari untuk memastikan sebelum menerimanya.

— user603

Saya tidak menerima jawaban dari penulis tetapi argumen yang disajikan di atas (dalam jawaban dan komentar) meyakinkan saya bahwa ini memang interpretasi yang benar dari masalah tersebut.

— user603