Mereproduksi sosok "Statistik Usia Komputer" dari Efron dan Hastie

Versi ringkas pertanyaan saya

(26 Desember 2018)

Saya mencoba mereproduksi Gambar 2.2 dari Computer Statistics Statistics Inference oleh Efron dan Hastie, tetapi untuk beberapa alasan yang saya tidak bisa mengerti, jumlahnya tidak sesuai dengan yang ada di buku.

Asumsikan kita mencoba untuk memutuskan antara dua kemungkinan fungsi kepadatan probabilitas untuk data yang diamati , kepadatan hipotesis nol dan kepadatan alternatif . Aturan pengujian mengatakan pilihan mana, atau , kita akan membuat memiliki data yang diamati . Setiap aturan seperti itu memiliki dua probabilitas kesalahan frequentist terkait: memilih ketika sebenarnya dihasilkan , dan sebaliknya, $x$ $f_0\left(x\right)$ $f_1\left(x\right)$ $t\left(x\right)$ $0$ $1$ $x$ $f_1$ $f_0$ $x$

α = {Pr}_{f_{0}} {t (x) = 1},

$\alpha = \text{Pr}_{f_0} \{t(x)=1\},$

β = {Pr}_{f_{1}} {t (x) = 0} .

$\beta = \text{Pr}_{f_1} \{t(x)=0\}.$

Biarkan menjadi rasio kemungkinan , $L(x)$

L. (x) = \frac{f_{1} (x)}{f_{0} (x)}

$L(x) = \frac{f_1\left(x\right)}{f_0\left(x\right)}$

Jadi, lemma Neyman-Pearson mengatakan bahwa aturan pengujian bentuk adalah algoritma pengujian hipotesis yang optimal $t_c(x)$

t_{c} (x) = {\begin{cases} 1 jika log L. (x) \geq c \\ 0 jika log L. (x) < c . \end{cases}

$t_c(x) = \left\{ \begin{array}{ll} 1\enspace\text{if log } L(x) \ge c\\ 0\enspace\text{if log } L(x) \lt c.\end{array} \right.$

Untuk , dan ukuran sampel berapa nilainya untuk dan untuk cutoff ? $f_0 \sim \mathcal{N} \left(0,1\right), \enspace f_1 \sim \mathcal{N} \left(0.5,1\right)$ $n=10$ $\alpha$ $\beta$ $c=0.4$

Dari Gambar 2.2 of Computer Age statistik Inference oleh Efron dan Hastie kita memiliki:
- $\alpha=0.10$ dan untuk cutoff $\beta=0.38$ $c=0.4$
Saya menemukan dan untuk cutoff menggunakan dua pendekatan yang berbeda: A) simulasi dan B) secara analitis . $\alpha=0.15$ $\beta=0.30$ $c=0.4$

Saya akan sangat menghargai jika seseorang dapat menjelaskan kepada saya cara mendapatkan dan untuk cutoff . Terima kasih. $\alpha=0.10$ $\beta=0.38$ $c=0.4$

Versi ringkas pertanyaan saya selesai di sini. Mulai sekarang Anda akan menemukan:

Di bagian A) detail dan kode python lengkap dari pendekatan simulasi saya .
Di bagian B) detail dan kode python lengkap dari pendekatan analitis .

A) Pendekatan simulasi saya dengan kode python lengkap dan penjelasannya

(20 Desember 2018)

Dari buku ...

Dalam semangat yang sama, lemma Neyman-Pearson menyediakan algoritma pengujian hipotesis yang optimal. Ini mungkin yang paling elegan dari konstruksi sering. Dalam perumusannya yang paling sederhana, NP lemma mengasumsikan kita mencoba untuk memutuskan antara dua kemungkinan fungsi kepadatan probabilitas untuk data yang diamati , kepadatan hipotesis nol dan kepadatan alternatif . Aturan pengujian mengatakan pilihan mana, atau , kita akan membuat memiliki data yang diamati . Setiap aturan seperti itu memiliki dua probabilitas kesalahan frequentist terkait: memilih ketika sebenarnya dihasilkan $x$ $f_0\left(x\right)$ $f_1\left(x\right)$ $t\left(x\right)$ $0$ $1$ $x$ $f_1$ , dan sebaliknya,

$α = {Pr}_{f_{0}} {t (x) = 1},$ $\alpha = \text{Pr}_{f_0} \{t(x)=1\},$ $β = {Pr}_{f_{1}} {t (x) = 0} .$ $\beta = \text{Pr}_{f_1} \{t(x)=0\}.$

Biarkan menjadi rasio kemungkinan , $L(x)$

$L. (x) = \frac{f_{1} (x)}{f_{0} (x)}$ $L(x) = \frac{f_1\left(x\right)}{f_0\left(x\right)}$

(Sumber: Efron, B., & Hastie, T. (2016). Statistik Statistik Usia Komputer: Algoritma, Bukti, dan Ilmu Data. Cambridge: Cambridge University Press. )

Jadi, saya menerapkan kode python di bawah ini ...

import numpy as np

def likelihood_ratio(x, f1_density, f0_density):
    return np.prod(f1_density.pdf(x)) / np.prod(f0_density.pdf(x))

Sekali lagi, dari buku ...

dan tentukan aturan pengujian oleh

$t_{c} (x) = {\begin{cases} 1 jika log L. (x) \geq c \\ 0 jika log L. (x) < c . \end{cases}$ $t_c(x) = \left\{ \begin{array}{ll} 1\enspace\text{if log } L(x) \ge c\\ 0\enspace\text{if log } L(x) \lt c.\end{array} \right.$

(Sumber: Efron, B., & Hastie, T. (2016). Statistik Statistik Usia Komputer: Algoritma, Bukti, dan Ilmu Data. Cambridge: Cambridge University Press. )

Jadi, saya menerapkan kode python di bawah ini ...

def Neyman_Pearson_testing_rule(x, cutoff, f0_density, f1_density):
    lr = likelihood_ratio(x, f1_density, f0_density)
    llr = np.log(lr)

    if llr >= cutoff:
        return 1
    else:
        return 0

Akhirnya, dari buku ...

Di mana dimungkinkan untuk menyimpulkan bahwa cutoff akan menyiratkan dan . $c=0.4$ $\alpha=0.10$ $\beta=0.38$

Jadi, saya menerapkan kode python di bawah ini ...

def alpha_simulation(cutoff, f0_density, f1_density, sample_size, replicates):
    NP_test_results = []

    for _ in range(replicates):
        x = f0_density.rvs(size=sample_size)
        test = Neyman_Pearson_testing_rule(x, cutoff, f0_density, f1_density)
        NP_test_results.append(test)

    return np.sum(NP_test_results) / float(replicates)

def beta_simulation(cutoff, f0_density, f1_density, sample_size, replicates):
    NP_test_results = []

    for _ in range(replicates):
        x = f1_density.rvs(size=sample_size)
        test = Neyman_Pearson_testing_rule(x, cutoff, f0_density, f1_density)
        NP_test_results.append(test)

    return (replicates - np.sum(NP_test_results)) / float(replicates)

dan kodenya ...

from scipy import stats as st

f0_density = st.norm(loc=0, scale=1)
f1_density = st.norm(loc=0.5, scale=1)

sample_size = 10
replicates = 12000

cutoffs = []
alphas_simulated = []
betas_simulated = []
for cutoff in np.arange(3.2, -3.6, -0.4):
    alpha_ = alpha_simulation(cutoff, f0_density, f1_density, sample_size, replicates)
    beta_ = beta_simulation(cutoff, f0_density, f1_density, sample_size, replicates)

    cutoffs.append(cutoff)
    alphas_simulated.append(alpha_)
    betas_simulated.append(beta_)

dan kodenya ...

import matplotlib.pyplot as plt
%matplotlib inline

# Reproducing Figure 2.2 from simulation results.
plt.xlabel('$\\alpha$')
plt.ylabel('$\\beta$')
plt.xlim(-0.1, 1.05)
plt.ylim(-0.1, 1.05)
plt.axvline(x=0, color='b', linestyle='--')
plt.axvline(x=1, color='b', linestyle='--')
plt.axhline(y=0, color='b', linestyle='--')
plt.axhline(y=1, color='b', linestyle='--')
figure_2_2 = plt.plot(alphas_simulated, betas_simulated, 'ro', alphas_simulated, betas_simulated, 'k-')

untuk mendapatkan sesuatu seperti ini:

yang terlihat mirip dengan gambar asli dari buku, tetapi 3-tupel dari simulasi saya memiliki nilai dan jika dibandingkan dengan yang ada di buku untuk cutoff yang sama . Sebagai contoh: $(c,\alpha,\beta)$ $\alpha$ $\beta$ $c$

dari buku yang kita miliki $(c=0.4, \alpha=0.10, \beta=0.38)$
dari simulasi saya, kami memiliki:
- $(c=0.4, \alpha=0.15, \beta=0.30)$
- $(c=0.8, \alpha=0.10, \beta=0.39)$

Tampaknya cutoff dari simulasi saya setara dengan cutoff dari buku. $c=0.8$ $c=0.4$

Saya akan sangat menghargai jika seseorang dapat menjelaskan kepada saya apa yang saya lakukan salah di sini. Terima kasih.

B) Pendekatan perhitungan saya dengan kode python lengkap dan penjelasannya

(26 Desember 2018)

Masih mencoba memahami perbedaan antara hasil simulasi saya ( alpha_simulation(.), beta_simulation(.)) dan yang disajikan dalam buku ini, dengan bantuan seorang teman ahli statistik (Sofia), kami menghitung dan analitis alih-alih melalui simulasi, jadi .. . $\alpha$ $\beta$

Sekali itu

f_{0} \sim N (0, 1)

$f_0 \sim \mathcal{N} \left(0,1\right)$

f_{1} \sim N (0,5, 1)

$f_1 \sim \mathcal{N} \left(0.5,1\right)$

kemudian

f (x | μ, σ^{2}) = \prod_{saya = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{{(x_{saya} - μ)}^{2}}{2 σ^{2}}}

$f\left(x \;\middle\vert\; \mu, \sigma^2 \right) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{\left(x_i-\mu\right)^2}{2\sigma^2}}$

Bahkan,

L. (x) = \frac{f_{1} (x)}{f_{0} (x)}

$L(x) = \frac{f_1\left(x\right)}{f_0\left(x\right)}$

begitu,

L. (x) = \frac{f_{1} (x | μ_{1}, σ^{2})}{f_{0} (x | μ_{0}, σ^{2})} = \frac{\prod_{saya = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{{(x_{saya} - μ_{1})}^{2}}{2 σ^{2}}}}{\prod_{saya = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{{(x_{saya} - μ_{0})}^{2}}{2 σ^{2}}}}

$L(x) = \frac{f_1\left(x\;\middle\vert\; \mu_1, \sigma^2\right)}{f_0\left(x\;\middle\vert\; \mu_0, \sigma^2\right)} = \frac{\prod_{i = 1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{\left(x_i-\mu_1\right)^2}{2\sigma^2}}}{\prod_{i = 1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{\left(x_i-\mu_0\right)^2}{2\sigma^2}}}$

Oleh karena itu, dengan melakukan beberapa penyederhanaan aljabar (seperti di bawah), kita akan memiliki:

L. (x) = \frac{{(\frac{1}{\sqrt{2 π σ^{2}}})}^{n} e^{- \frac{\sum_{saya = 1}^{n} {(x_{saya} - μ_{1})}^{2}}{2 σ^{2}}}}{{(\frac{1}{\sqrt{2 π σ^{2}}})}^{n} e^{- \frac{\sum_{saya = 1}^{n} {(x_{saya} - μ_{0})}^{2}}{2 σ^{2}}}}

$L(x) = \frac{\left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n e^{-\frac{\sum_{i = 1}^{n} \left(x_i-\mu_1\right)^2}{2\sigma^2}}}{\left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n e^{-\frac{\sum_{i = 1}^{n} \left(x_i-\mu_0\right)^2}{2\sigma^2}}}$

= e^{\frac{- \sum_{saya = 1}^{n} {(x_{saya} - μ_{1})}^{2} + \sum_{saya = 1}^{n} {(x_{saya} - μ_{0})}^{2}}{2 σ^{2}}}

$= e^{\frac{-\sum_{i = 1}^{n} \left(x_i-\mu_1\right)^2 + \sum_{i = 1}^{n} \left(x_i-\mu_0\right)^2}{2\sigma^2}}$

= e^{\frac{- \sum_{saya = 1}^{n} (x_{saya}^{2} - 2 x_{saya} μ_{1} + μ_{1}^{2}) + \sum_{saya = 1}^{n} (x_{saya}^{2} - 2 x_{saya} μ_{0} + μ_{0}^{2})}{2 σ^{2}}}

$= e^{\frac{-\sum_{i = 1}^{n} \left(x_i^2 -2x_i\mu_1 + \mu_1^2\right) + \sum_{i = 1}^{n} \left(x_i^2 -2x_i\mu_0 + \mu_0^2\right)}{2\sigma^2}}$

= e^{\frac{- \sum_{saya = 1}^{n} x_{saya}^{2} + 2 μ_{1} \sum_{saya = 1}^{n} x_{saya} - \sum_{saya = 1}^{n} μ_{1}^{2} + \sum_{saya = 1}^{n} x_{saya}^{2} - 2 μ_{0} \sum_{saya = 1}^{n} x_{saya} + \sum_{saya = 1}^{n} μ_{0}^{2}}{2 σ^{2}}}

$= e^{\frac{-\sum_{i = 1}^{n}x_i^2 + 2\mu_1\sum_{i = 1}^{n}x_i - \sum_{i = 1}^{n}\mu_1^2 + \sum_{i = 1}^{n}x_i^2 - 2\mu_0\sum_{i = 1}^{n}x_i + \sum_{i = 1}^{n}\mu_0^2}{2\sigma^2}}$

= e^{\frac{2 (μ_{1} - μ_{0}) \sum_{saya = 1}^{n} x_{saya} + n (μ_{0}^{2} - μ_{1}^{2})}{2 σ^{2}}}

$= e^{\frac{2\left(\mu_1-\mu_0\right)\sum_{i = 1}^{n}x_i + n\left(\mu_0^2-\mu_1^2\right)}{2\sigma^2}}$ .

Jadi jika

t_{c} (x) = {\begin{cases} 1 jika log L. (x) \geq c \\ 0 jika log L. (x) < c . \end{cases}

$t_c(x) = \left\{ \begin{array}{ll} 1\enspace\text{if log } L(x) \ge c\\ 0\enspace\text{if log } L(x) \lt c.\end{array} \right.$

kemudian, untuk kita akan memiliki: $\text{log } L(x) \ge c$

catatan (e^{\frac{2 (μ_{1} - μ_{0}) \sum_{saya = 1}^{n} x_{saya} + n (μ_{0}^{2} - μ_{1}^{2})}{2 σ^{2}}}) \geq c

$\text{log } \left( e^{\frac{2\left(\mu_1-\mu_0\right)\sum_{i = 1}^{n}x_i + n\left(\mu_0^2-\mu_1^2\right)}{2\sigma^2}} \right) \ge c$

\frac{2 (μ_{1} - μ_{0}) \sum_{saya = 1}^{n} x_{saya} + n (μ_{0}^{2} - μ_{1}^{2})}{2 σ^{2}} \geq c

$\frac{2\left(\mu_1-\mu_0\right)\sum_{i = 1}^{n}x_i + n\left(\mu_0^2-\mu_1^2\right)}{2\sigma^2} \ge c$

\sum_{saya = 1}^{n} x_{saya} \geq \frac{2 c σ^{2} - n (μ_{0}^{2} - μ_{1}^{2})}{2 (μ_{1} - μ_{0})}

$\sum_{i = 1}^{n}x_i \ge \frac{2c\sigma^2 - n\left(\mu_0^2-\mu_1^2\right)}{2\left(\mu_1-\mu_0\right)}$

\sum_{saya = 1}^{n} x_{saya} \geq \frac{2 c σ^{2}}{2 (μ_{1} - μ_{0})} - \frac{n (μ_{0}^{2} - μ_{1}^{2})}{2 (μ_{1} - μ_{0})}

$\sum_{i = 1}^{n}x_i \ge \frac{2c\sigma^2}{2\left(\mu_1-\mu_0\right)} - \frac{n\left(\mu_0^2-\mu_1^2\right)}{2\left(\mu_1-\mu_0\right)}$

\sum_{saya = 1}^{n} x_{saya} \geq \frac{c σ^{2}}{(μ_{1} - μ_{0})} - \frac{n (μ_{0}^{2} - μ_{1}^{2})}{2 (μ_{1} - μ_{0})}

$\sum_{i = 1}^{n}x_i \ge \frac{c\sigma^2}{\left(\mu_1-\mu_0\right)} - \frac{n\left(\mu_0^2-\mu_1^2\right)}{2\left(\mu_1-\mu_0\right)}$

\sum_{saya = 1}^{n} x_{saya} \geq \frac{c σ^{2}}{(μ_{1} - μ_{0})} + \frac{n (μ_{1}^{2} - μ_{0}^{2})}{2 (μ_{1} - μ_{0})}

$\sum_{i = 1}^{n}x_i \ge \frac{c\sigma^2}{\left(\mu_1-\mu_0\right)} + \frac{n\left(\mu_1^2-\mu_0^2\right)}{2\left(\mu_1-\mu_0\right)}$

\sum_{saya = 1}^{n} x_{saya} \geq \frac{c σ^{2}}{(μ_{1} - μ_{0})} + \frac{n (μ_{1} - μ_{0}) (μ_{1} + μ_{0})}{2 (μ_{1} - μ_{0})}

$\sum_{i = 1}^{n}x_i \ge \frac{c\sigma^2}{\left(\mu_1-\mu_0\right)} + \frac{n\left(\mu_1-\mu_0\right)\left(\mu_1+\mu_0\right)}{2\left(\mu_1-\mu_0\right)}$

\sum_{saya = 1}^{n} x_{saya} \geq \frac{c σ^{2}}{(μ_{1} - μ_{0})} + \frac{n (μ_{1} + μ_{0})}{2}

$\sum_{i = 1}^{n}x_i \ge \frac{c\sigma^2}{\left(\mu_1-\mu_0\right)} + \frac{n\left(\mu_1+\mu_0\right)}{2}$

(\frac{1}{n}) \sum_{saya = 1}^{n} x_{saya} \geq (\frac{1}{n}) (\frac{c σ^{2}}{(μ_{1} - μ_{0})} + \frac{n (μ_{1} + μ_{0})}{2})

$\left(\frac{1}{n}\right) \sum_{i = 1}^{n}x_i \ge \left(\frac{1}{n}\right) \left( \frac{c\sigma^2}{\left(\mu_1-\mu_0\right)} + \frac{n\left(\mu_1+\mu_0\right)}{2}\right)$

\frac{\sum_{saya = 1}^{n} x_{saya}}{n} \geq \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$\frac{\sum_{i = 1}^{n}x_i}{n} \ge \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

\bar{x} \geq \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$\bar{x} \ge \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

\bar{x} \geq k dimana k = \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$\bar{x} \ge k \text{, where } k = \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

yang menghasilkan

t_{c} (x) = {\begin{cases} 1 jika \bar{x} \geq k \\ 0 jika \bar{x} < k . \end{cases} dimana k = \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$t_c(x) = \left\{ \begin{array}{ll} 1\enspace\text{if } \bar{x} \ge k\\ 0\enspace\text{if } \bar{x} \lt k.\end{array} \right. \enspace \enspace \text{, where } k = \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

Untuk menghitung dan , kita tahu bahwa: $\alpha$ $\beta$

α = {Pr}_{f_{0}} {t (x) = 1},

$\alpha = \text{Pr}_{f_0} \{t(x)=1\},$

β = {Pr}_{f_{1}} {t (x) = 0} .

$\beta = \text{Pr}_{f_1} \{t(x)=0\}.$

begitu,

\begin{array}{ll} α = {Pr}_{f_{0}} {\bar{x} \geq k}, \\ β = {Pr}_{f_{1}} {\bar{x} < k} . \end{array} dimana k = \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$\begin{array}{ll} \alpha = \text{Pr}_{f_0} \{\bar{x} \ge k\},\\ \beta = \text{Pr}_{f_1} \{\bar{x} \lt k\}.\end{array} \enspace \enspace \text{ where } k = \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

Untuk ... $\alpha$

α = {Pr}_{f_{0}} {\bar{x} \geq k} = {Pr}_{f_{0}} {\bar{x} - μ_{0} \geq k - μ_{0}}

$\alpha = \text{Pr}_{f_0} \{\bar{x} \ge k\} = \text{Pr}_{f_0} \{\bar{x} - \mu_0 \ge k - \mu_0\}$

α = {Pr}_{f_{0}} {\frac{\bar{x} - μ_{0}}{\frac{σ}{\sqrt{n}}} \geq \frac{k - μ_{0}}{\frac{σ}{\sqrt{n}}}}

$\alpha = \text{Pr}_{f_0} \left\{\frac{\bar{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}} \ge \frac{k - \mu_0}{\frac{\sigma}{\sqrt{n}}}\right\}$

α = {Pr}_{f_{0}} {skor-z \geq \frac{k - μ_{0}}{\frac{σ}{\sqrt{n}}}} dimana k = \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$\alpha = \text{Pr}_{f_0} \left\{\text{z-score} \ge \frac{k - \mu_0}{\frac{\sigma}{\sqrt{n}}}\right\} \enspace \enspace \text{ where } k = \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

jadi, saya menerapkan kode python di bawah ini:

def alpha_calculation(cutoff, m_0, m_1, variance, sample_size):
    c = cutoff
    n = sample_size
    sigma = np.sqrt(variance)

    k = (c*variance)/(n*(m_1-m_0)) + (m_1+m_0)/2.0

    z_alpha = (k-m_0)/(sigma/np.sqrt(n))

    # Pr{z_score >= z_alpha}
    return 1.0 - st.norm(loc=0, scale=1).cdf(z_alpha)

Untuk ... $\beta$

β = {Pr}_{f_{1}} {\bar{x} < k} = {Pr}_{f_{1}} {\bar{x} - μ_{1} < k - μ_{1}}

$\beta = \text{Pr}_{f_1} \{\bar{x} \lt k\} = \text{Pr}_{f_1} \{\bar{x} - \mu_1 \lt k - \mu_1\}$

β = {Pr}_{f_{1}} {\frac{\bar{x} - μ_{1}}{\frac{σ}{\sqrt{n}}} < \frac{k - μ_{1}}{\frac{σ}{\sqrt{n}}}}

$\beta = \text{Pr}_{f_1} \left\{\frac{\bar{x} - \mu_1}{\frac{\sigma}{\sqrt{n}}} \lt \frac{k - \mu_1}{\frac{\sigma}{\sqrt{n}}}\right\}$

β = {Pr}_{f_{1}} {skor-z < \frac{k - μ_{1}}{\frac{σ}{\sqrt{n}}}} dimana k = \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$\beta = \text{Pr}_{f_1} \left\{\text{z-score} \lt \frac{k - \mu_1}{\frac{\sigma}{\sqrt{n}}}\right\} \enspace \enspace \text{ where } k = \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

menghasilkan kode python di bawah ini:

def beta_calculation(cutoff, m_0, m_1, variance, sample_size):
    c = cutoff
    n = sample_size
    sigma = np.sqrt(variance)

    k = (c*variance)/(n*(m_1-m_0)) + (m_1+m_0)/2.0

    z_beta = (k-m_1)/(sigma/np.sqrt(n))

    # Pr{z_score < z_beta}
    return st.norm(loc=0, scale=1).cdf(z_beta)

dan kodenya ...

alphas_calculated = []
betas_calculated = []
for cutoff in cutoffs:
    alpha_ = alpha_calculation(cutoff, 0.0, 0.5, 1.0, sample_size)
    beta_ = beta_calculation(cutoff, 0.0, 0.5, 1.0, sample_size)

    alphas_calculated.append(alpha_)
    betas_calculated.append(beta_)

dan kodenya ...

# Reproducing Figure 2.2 from calculation results.
plt.xlabel('$\\alpha$')
plt.ylabel('$\\beta$')
plt.xlim(-0.1, 1.05)
plt.ylim(-0.1, 1.05)
plt.axvline(x=0, color='b', linestyle='--')
plt.axvline(x=1, color='b', linestyle='--')
plt.axhline(y=0, color='b', linestyle='--')
plt.axhline(y=1, color='b', linestyle='--')
figure_2_2 = plt.plot(alphas_calculated, betas_calculated, 'ro', alphas_calculated, betas_calculated, 'k-')

untuk mendapatkan angka dan nilai untuk dan sangat mirip dengan simulasi pertama saya $\alpha$ $\beta$

Dan akhirnya untuk membandingkan hasil antara simulasi dan perhitungan berdampingan ...

df = pd.DataFrame({
    'cutoff': np.round(cutoffs, decimals=2), 
    'simulated alpha': np.round(alphas_simulated, decimals=2),
    'simulated beta': np.round(betas_simulated, decimals=2),
    'calculated alpha': np.round(alphas_calculated, decimals=2),
    'calculate beta': np.round(betas_calculated, decimals=2)
})
df

yang menghasilkan

Ini menunjukkan bahwa hasil simulasi sangat mirip (jika tidak sama) dengan orang-orang dari pendekatan analitis.

Singkatnya, saya masih butuh bantuan untuk mencari tahu apa yang mungkin salah dalam perhitungan saya. Terima kasih. :)

— Francisco Fonseca
sumber

Bagi saya, pertanyaan apa pun yang mengharuskan pembaca menjelajahi 11 halaman kode komputer, statistik, dan aljabar tidak mungkin dibaca oleh siapa pun, apalagi dijawab dengan meyakinkan. Jika Anda tertarik untuk mengejar ini, karena Anda tampaknya berasal dari waktu dan perhatian yang telah Anda habiskan untuk itu, mungkin saya menyarankan Anda mengidentifikasi inti masalah dan melihat apakah Anda dapat menjelaskannya dan menanyakan pertanyaan Anda dalam ruang satu atau paling banyak dua halaman materi?

— Whuber

Hai @whuber, terima kasih atas saran Anda! Tujuan saya adalah memposting detail (kode sumber dan penjelasan) untuk memungkinkan siapa saja mereproduksi hasil saya, tetapi tampaknya strategi ini tidak bekerja dengan baik seperti yang Anda amati dengan benar :). Terima kasih lagi. Kemudian saya mengedit pertanyaan untuk merangkum keraguan saya di awal posting. Saya harap ini berhasil.

— Francisco Fonseca

Dalam situs web buku Computer Age Statistics Inference , ada sesi diskusi di mana Trevor Hastie dan Brad Efron sering membalas beberapa pertanyaan. Jadi, saya memposting pertanyaan ini di sana (seperti di bawah ini) dan menerima konfirmasi dari Trevor Hastie bahwa ada kesalahan dalam buku yang akan diperbaiki (dengan kata lain, simulasi dan perhitungan saya - sebagaimana diterapkan dalam Python dalam pertanyaan ini - sudah benar ).

Ketika Trevor Hastie menjawab bahwa "Faktanya c = .75 untuk plot itu" berarti bahwa pada gambar di bawah ini (Gambar 2.2 asli dari buku) cutoff harus bukannya : $c$ $c=0.75$ $c=0.4$

Jadi, dengan menggunakan fungsi saya alpha_simulation(.), beta_simulation(.), alpha_calculation(.)dan beta_calculation(.)(yang kode Python lengkap tersedia dalam pertanyaan ini) saya mendapat dan untuk cutoff sebagai konfirmasi bahwa kode saya benar. $\alpha=0.10$ $\beta=0.38$ $c=0.75$

alpha_simulated_c075 = alpha_simulation(0.75, f0_density, f1_density, sample_size, replicates)
beta_simulated_c075 = beta_simulation(0.75, f0_density, f1_density, sample_size, replicates)

alpha_calculated_c075 = alpha_calculation(0.75, 0.0, 0.5, 1.0, sample_size)
beta_calculated_c075 = beta_calculation(0.75, 0.0, 0.5, 1.0, sample_size)

print("Simulated: c=0.75, alpha={0:.2f}, beta={1:.2f}".format(alpha_simulated_c075, beta_simulated_c075))
print("Calculated: c=0.75, alpha={0:.2f}, beta={1:.2f}".format(alpha_calculated_c075, beta_calculated_c075))

Akhirnya, ketika Trevor Hastie menjawab bahwa "... menghasilkan ambang untuk x 0,4" itu berarti bahwa dalam persamaan di bawah ini (lihat bagian B dari pertanyaan ini): $k=0.4$

\bar{x} \geq k dimana k = \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

$\bar{x} \ge k \text{, where } k = \frac{c\sigma^2}{n\left(\mu_1-\mu_0\right)} + \frac{\left(\mu_1+\mu_0\right)}{2}$

yang menghasilkan

t_{c} (x) = {\begin{cases} 1 jika \bar{x} \geq k \\ 0 jika \bar{x} < k . \end{cases} dimana k = \frac{c σ^{2}}{n (μ_{1} - μ_{0})} + \frac{(μ_{1} + μ_{0})}{2}

Jadi, dengan Python kita bisa mendapatkan untuk cutoff seperti di bawah ini: $k=0.4$ $c=0.75$

n = 10
m_0 = 0.0
m_1 = 0.5
variance = 1.0
c = 0.75

k = (c*variance)/(n*(m_1-m_0)) + (m_1+m_0)/2.0
threshold_for_x = k

print("threshold for x (when cutoff c=0.75) = {0:.1f}".format(threshold_for_x))

— Francisco Fonseca
sumber