Contoh statistik yang tidak independen dari distribusi sampel?

Ini adalah definisi untuk statistik di wikipedia

Secara lebih formal, teori statistik mendefinisikan statistik sebagai fungsi sampel di mana fungsi itu sendiri tidak tergantung pada distribusi sampel; artinya, fungsi dapat dinyatakan sebelum realisasi data. Istilah statistik digunakan untuk fungsi dan nilai fungsi pada sampel yang diberikan.

Saya pikir saya mengerti sebagian besar definisi ini, namun bagian - di mana fungsi independen dari distribusi sampel saya belum bisa memilah.

Pemahaman saya tentang statistik sejauh ini

Sebuah sampel adalah seperangkat realisasi beberapa jumlah independen, identik didistribusikan (iid) variabel random dengan distribusi F (10 realisasi dari gulungan dadu yang adil 20-sided, 100 realisasi dari 5 gulungan dadu yang adil 6-sided, menarik secara acak 100 orang dari suatu populasi).

Suatu fungsi, yang domainnya merupakan himpunan itu, dan rentangnya adalah bilangan real (atau mungkin dapat menghasilkan hal-hal lain, seperti vektor atau objek matematika lainnya ...) akan dianggap sebagai statistik .

Ketika saya memikirkan contoh, mean, median, varians semuanya masuk akal dalam konteks ini. Mereka adalah fungsi pada set realisasi (pengukuran tekanan darah dari sampel acak). Saya juga dapat melihat bagaimana model regresi linier dapat dianggap sebagai statistik $y_{i} = \alpha + \beta \cdot x_{i}$ - apakah ini bukan hanya fungsi pada set realisasi?

Di mana saya bingung

Dengan anggapan bahwa pemahaman saya dari atas adalah benar, saya belum dapat memahami di mana suatu fungsi mungkin tidak independen dari distribusi sampel. Saya sudah mencoba memikirkan contoh untuk membuatnya masuk akal, tetapi tidak berhasil. Wawasan apa pun akan sangat dihargai!

mathematical-statistics definition

— Jake Kirsch
sumber

Jawaban:

Definisi itu adalah cara yang agak canggung untuk menyatakannya. "Statistik" adalah fungsi apa pun dari nilai yang dapat diamati. Semua definisi itu berarti bahwa statistik adalah fungsi hanya dari nilai-nilai yang dapat diamati, bukan fungsi distribusi atau salah satu parameternya. Sebagai contoh, jika $X_1, X_2, ..., X_n \sim \text{N}(\mu, 1)$ maka statistik akan fungsi $T(X_1,...,X_n)$ sedangkan fungsi $H(X_1,....,X_n, \mu)$ tidak akan menjadi statistik, karena itu tergantung pada $\mu$ . Berikut adalah beberapa contoh lebih lanjut:

\begin{aligned} Statistic & {\bar{X}}_{n} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}, \\ Statistic & S_{n}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (X_{i} - {\bar{X}}_{n})^{2}, \\ Not a statistic & D_{n} = {\bar{X}}_{n} - μ, \\ Not a statistic & p_{i} = N (x_{i} | μ, 1), \\ Not a statistic & Q = 10 μ . \end{aligned}

$\begin{equation} \begin{aligned} \text{Statistic} & & & & & \bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i, \\[12pt] \text{Statistic} & & & & & S_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X}_n)^2, \\[12pt] \text{Not a statistic} & & & & & D_n = \bar{X}_n - \mu, \\[12pt] \text{Not a statistic} & & & & & p_i = \text{N}(x_i | \mu, 1), \\[12pt] \text{Not a statistic} & & & & & Q = 10 \mu. \\[12pt] \end{aligned} \end{equation}$

Setiap statistik adalah fungsi hanya dari nilai-nilai yang dapat diamati, dan bukan dari distribusi atau parameternya. Jadi tidak ada contoh statistik yang merupakan fungsi dari distribusi atau parameternya (fungsi tersebut tidak akan menjadi statistik). Namun, penting untuk dicatat bahwa distribusi suatu statistik (berlawanan dengan statistik itu sendiri) umumnya akan tergantung pada distribusi nilai yang mendasarinya. (Ini berlaku untuk semua statistik selain statistik tambahan .)

Bagaimana dengan fungsi di mana parameter diketahui? Dalam komentar di bawah ini, Alecos mengajukan pertanyaan lanjutan yang sangat baik. Bagaimana dengan fungsi yang menggunakan nilai hipotesis tetap dari parameter? Misalnya, bagaimana dengan statistik $\sqrt{n} (\bar{x} - \mu)$ dimana $\mu = \mu_0$ diambil harus sama dengan nilai hipotesis diketahui $\mu_0 \in \mathbb{R}$ . Di sini fungsinya memang statistik, asalkan itu didefinisikan pada domain yang dibatasi secara tepat. Jadi fungsi $H_0: \mathbb{R}^n \rightarrow \mathbb{R}$ dengan $H_0(x_1,...,x_n) = \sqrt{n} (\bar{x} - \mu_0)$ akan menjadi statistik, tetapi fungsi $H: \mathbb{R}^{n+1} \rightarrow \mathbb{R}$ dengan $H(x_1,...,x_n, \mu) = \sqrt{n} (\bar{x} - \mu)$ akantidakmenjadi statistik.

— Pasang kembali Monica
sumber

Jawaban yang sangat membantu, mengingat parameter statistik yang mendasari sebagai bagian dari non-statistik sangat membantu.

— Jake Kirsch

10^{10}

$10^{10}$

(X_{1} + X_{2} + \dots + X_{1000}) / 1000

$(X_1+X_2+\dots+X_{1000})/1000$ if the cost of processing data is high and the cost of error is small. Or for some reason you might want to consider two independent estimates of the mean, and could consider

(X_{1} + \dots + X_{n / 2}) / (n / 2)

$(X_1+\dots+X_{n/2})/(n/2)$ and

(X_{n / 2 + 1} + \dots + X_{n}) / (n / 2)

$(X_{n/2+1}+\dots+X_n)/(n/2)$ . These are still statistics.

— James Martin

Those examples seem entirely valid to me. Are you saying the idea of dividing data into a training set and a validation set is not valid?

— James Martin

I'm a little confused by that as well. Let me attempt to describe @CarlWitthoft point. It would still be a statistic in terms of mathematical definition, but I could see a case where a consultant takes a 'statistic' of observations, but arbitrarily decides to remove a few results (consultants do this all the time right?). This would be 'valid' in the sense it's still a function on observations, however the way that statistic may be presented and interpreted likely wouldn't be valid.

— Jake Kirsch

@Carl Withhoft: With respect to the point you are making, it is important to distinguish between a statistic (which need not include all the data, and may not encompass all the information in the sample) and a sufficient statistic (which will encompass all the information with respect to some parameter). Statistical theory already has well-developed concepts like sufficiency that capture the idea that a statistic includes all relevant information in the sample. It is not necessary, or desirable, to try to build that requirement into the definition of a "statistic".

— Reinstate Monica

I interpret that as saying that you should decide before you see the data what statistic you are going to calculate. So, for instance, if you're going to take out outliers, you should decide before you see the data what constitutes an "outlier". If you decide after you see the data, then your function is dependent on the data.

— Acccumulation
sumber

this is also helpful! So making a decision on which observations to include in the function after knowing what observations are available, which is more or less what I was describing in my comment on the previous answer.

— Jake Kirsch

(+1) It might be worth noting that this important because if you define a rule a prior about what constitutes a data point that will be dropped, it is (relatively) easy to derive a distribution for statistic (i.e., truncated mean, etc.). It's really hard to derive a distribution for a measure that involves dropping data points for reasons that are not cleanly defined before hand.

— Cliff AB