Beberapa kali rata-rata empiris yang diharapkan akan melebihi nilai

Diberikan urutan variabel acak iid, katakanlah, untuk , saya mencoba untuk mengikat berapa kali rata-rata empiris berarti akan melebihi nilai, , saat kami terus menggambar sampel, yaitu: $X_i \in [0,1]$ $i = 1,2,...,n$ $\frac{1}{n}\sum_{i=1}^n X_i$ $c \geq 0$

T \overset{d e f}{=} \sum_{j = 1}^{n} P ({\frac{1}{j} \sum_{i = 1}^{j} X_{i} \geq c})

$\mathcal{T} \overset{def}{=} \sum_{j=1}^n \mathbb{P} \left(\left\{ \frac{1}{j}\sum_{i=1}^j X_i \geq c\right\}\right)$

Jika kita mengasumsikan bahwa untuk beberapa , kita dapat menggunakan ketidaksetaraan Hoeffding untuk sampai pada $c = a + \mathbb{E}[X]$ $a > 0$

\begin{aligned} T & \leq \sum_{j = 1}^{n} e^{- 2 j a^{2}} \\ = \frac{1 - e^{- 2 a^{2} n}}{e^{2 a^{2}} - 1} \end{aligned}

$\begin{align} \mathcal{T} & \leq \sum_{j=1}^n e^{-2ja^2} \\ & = \frac{1 - e^{-2 a^2 n}}{e^{2 a^2}-1} \end{align}$

Yang terlihat bagus (mungkin) tetapi sebenarnya cukup longgar, apakah ada cara yang lebih baik untuk membatasi nilai ini? Saya berharap mungkin ada cara karena berbagai peristiwa (untuk masing-masing ) jelas tidak independen, saya tidak mengetahui cara untuk mengeksploitasi ketergantungan ini. Juga, alangkah baiknya untuk menghapus batasan bahwa lebih besar dari rata-rata. $j$ $c$

sunting : Pembatasan $c$ menjadi lebih besar dari rata-rata dapat dihapus jika kita menggunakan Ketimpangan Markov sebagai berikut:

\begin{aligned} T & \leq \sum_{j = 1}^{n} \frac{\frac{1}{j} E [X]}{c} \\ = \frac{E [X] H_{n}}{c} \end{aligned}

$\begin{align} \mathcal{T} & \leq \sum_{j=1}^n \frac{\frac{1}{j}\mathbb{E}[X]}{c} \\ & = \frac{\mathbb{E}[X]H_n}{c} \end{align}$ Yang lebih umum, tetapi jauh lebih buruk daripada batas di atas, meskipun jelas bahwa

T

$\mathcal{T}$ harus berbeda setiap kali

c \leq E [X]

$c \leq \mathbb{E}[X]$ .

mathematical-statistics expected-value bounds

— fairidox
sumber

Definisi Anda tidak sesuai dengan deskripsi Anda tentang itu. Jika " " dihapus itu akan menjadi jumlah yang diharapkan dari pelampaasan , tetapi seperti yang tertulis itu adalah kombinasi linear dari waktu . Ini tidak secara nyata merupakan harapan karena probabilitasnya tidak saling eksklusif. Misalnya, ketika , .

T

$\mathcal{T}$

j \times

$j\times$

c

$c$

c \leq 0

$c\le 0$

T = n (n + 1) / 2

$\mathcal{T} = n(n+1)/2$

— Whuber

@whuber oh, benar, terima kasih, saya sudah perbaiki di atas.

— fairidox

Saya perhatikan Anda mengubah batas atas Anda. Sekarang tampaknya negatif ;-).

— whuber

Tidakkah " " dalam eksponensial dikuadratkan? - Ok itu disederhanakan dengan domain [0,1]

j

$j$

— Alecos Papadopoulos

Ini adalah pendekatan yang dibuat dengan tangan, dan saya akan sangat menghargai beberapa komentar tentang itu, (dan yang mengkritik biasanya yang paling bermanfaat). Jika saya mengerti dengan benar, OP menghitung sampel berarti , di mana setiap sampel berisi observasi +1 sampel sebelumnya dari rv baru. distribusi setiap mean sampel. Lalu kita bisa menulis $\bar x_j$ $F_j$

T \overset{d e f}{=} \sum_{j = 1}^{n} (1 - F_{j} (c)) = n - \sum_{j = 1}^{n} F_{j} (c)

$\mathcal{T} \overset{def}{=} \sum_{j=1}^n \left(1-F_j(c)\right) = n- \sum_{j=1}^n F_j(c)$

Pertimbangkan ukuran sampel setelah distribusi mean sampel hampir normal, menunjukkan itu . Lalu kita bisa menulis $m$ $\hat G$

T = n - \sum_{j = 1}^{m} F_{j} (c) - \sum_{j = m + 1}^{n} {\hat{G}}_{j} (c) < n - \sum_{j = m + 1}^{n} {\hat{G}}_{j} (c)

$\mathcal{T} = n- \sum_{j=1}^m F_j(c)-\sum_{j=m+1}^n \hat G_j(c) < n-\sum_{j=m+1}^n \hat G_j(c)$

Memecahkan kita memperoleh mana adalah standar normal cdf, adalah standar deviasi dari proses iid, dan adalah artinya. Memasukkan ke dalam terikat dan mengatur ulang kita dapatkan $\hat G_j(c)$

{\hat{G}}_{j} (c) = 1 - Φ (\frac{\sqrt{j}}{σ} (μ - c))

$\hat G_j(c) = 1- \Phi\left(\frac{\sqrt j}{\sigma}(\mu-c)\right)$

Φ

$\Phi$

σ

$\sigma$

μ

$\mu$

T < m + \sum_{j = m + 1}^{n} Φ (\frac{\sqrt{j}}{σ} (- a))

$\mathcal{T} < m+\sum_{j=m+1}^n \Phi\left(\frac{\sqrt j}{\sigma}(-a)\right)$

Perhatikan bahwa batasan ini juga tergantung pada varian proses. Apakah ini ikatan yang lebih baik daripada yang disajikan dalam pertanyaan? Ini akan sangat tergantung pada seberapa "cepat" distribusi rata-rata sampel menjadi "hampir normal". Untuk memberikan contoh angka, asumsikan bahwa . Asumsikan juga bahwa variabel acak seragam dalam . Kemudian dan . Pertimbangkan deviasi 10% dari nilai tengah, yaitu atur . lalu: sudah untuk batas yang saya usulkan (yang berarti untuk ) menjadi lebih ketat. Untuk batas Hoeffding adalah $m= 30$ $[0,1]$ $\sigma = \sqrt \frac{1}{12}$ $\mu = \frac 12$ $a=0.05$ $n=34$ $n>30$ $n=100$ $78.5$ sedangkan batas yang saya usulkan adalah . The Hoeffding terikat konvergen ke sedangkan terikat Saya mengusulkan untuk Jika Anda meningkatkan perbedaan antara dua batas mengurangi namun tetap terlihat: untuk deviasi 20%, , yang Hoeffding terikat konvergen ke sementara terikat Saya mengusulkan konvergen ke (yaitu jumlah dari cdf normal memberikan kontribusi sangat sedikit untuk keseluruhan terikat). Agak lebih umum, kami perhatikan bahwa untuk , batas Hoeffding bertemu $36.2$ $\approx 199.5$ $\approx 38.5$ $a$ $a=0.1$ $49.5$ $30.5$
$n\rightarrow \infty$

H_{b} \to \frac{1}{e^{2 a^{2}} - 1}

$H_b\rightarrow \frac{1}{e^{2 a^2}-1}$ sementara saya terikat ke

A_{b} \to m

$A_b \rightarrow m$

Karena untuk nilai-nilai kecil dari (yang lebih merupakan kasus yang menarik) menjadi sejumlah besar, masih ada kasus bahwa dapat mengungguli dalam ketat, bahkan jika sampel sedemikian rupa sehingga distribusi sampel berarti konvergen perlahan ke distribusi normal. $a$ $H_b$ $A_b$

— Alecos Papadopoulos
sumber

" (yaitu tidak lebih dari ambang ukuran sampel yang diasumsikan orang perlu untuk mendapatkan perkiraan normal dalam distribusi mean sampel) " "apa yang Anda bicarakan di sini?

— Glen_b -Reinstate Monica

Tidak ada yang penting. Ketika saya menulis beberapa baris di atas, aturan praktis sehingga distribusi rata-rata sampel adalah "banyak" seperti biasa, adalah bahwa kita memerlukan setidaknya ukuran sampel 30. Jadi untuk ukuran sampel 100, dan deviasi 20% kasus, ikatan saya adalah yaitu - dengan kata lain bagian dari batas menyumbang sangat sedikit.

\approx 30.5

$\approx 30.5$

m + 0.5

$m + 0.5$

\sum_{j = m + 1}^{n} Φ (\frac{\sqrt{j}}{σ} (- a))

$\sum_{j=m+1}^n \Phi\left(\frac{\sqrt j}{\sigma}(-a)\right)$

— Alecos Papadopoulos

Kecuali jika Anda dapat menyatakan keadaan di mana ia berlaku , harap hindari menyebut hal itu sebagai aturan umum dalam pengertian umum. Angka 30 benar-benar sewenang-wenang (biasanya terlalu lemah atau terlalu kuat), dan 30 juga muncul dalam kasus Anda, saya percaya kebetulan sederhana.

— Glen_b -Reinstate Monica

@ Glen_b "30" bahkan bukan kebetulan - Saya hanya menggunakannya untuk memberikan contoh angka. Saya tidak keberatan dengan masalah ini, saya tidak suka "aturan praktis" (terutama ketika mereka meragukan). Saya telah membuat beberapa perubahan dalam jawaban saya. Terima kasih atas masukannya.

— Alecos Papadopoulos

@ Glen_b Terima kasih atas memori yang mungkin tidak stasioner (panjang)!

— Alecos Papadopoulos