Apa hubungan antara estimator dan estimasi?

21

estimation terminology estimators

5

"Dalam statistik, estimator adalah aturan untuk menghitung estimasi kuantitas tertentu berdasarkan data yang diamati: sehingga aturan dan hasilnya (estimasi) dibedakan." (Baris pertama artikel Wikipedia en.wikipedia.org/wiki/Estimator ).

— whuber

+1 Saya memperbaiki pertanyaan ini (meskipun ada jawaban yang dirumuskan dengan baik pada halaman Wikipedia yang jelas) karena upaya awal untuk menjawabnya di sini telah menunjukkan beberapa seluk-beluk.

— whuber

@whuber, bisakah saya mengatakan estimasi parameter model adalah estimator?

— alpukat

2

@loganecolss Penduga adalah fungsi matematika. Itu dibedakan dari nilai (estimasi) yang mungkin diperoleh untuk setiap set data. Salah satu cara untuk menghargai perbedaan adalah dengan mencatat bahwa set data tertentu akan menghasilkan estimasi yang sama , katakanlah, kemiringan dalam regresi linier dengan menggunakan penduga yang berbeda (seperti Kemungkinan Maksimum atau Kuadrat Terkini Berterteratur Ulang Secara Istimewa, misalnya). Tanpa membedakan estimasi dari estimator yang digunakan untuk menghasilkan estimasi tersebut, kami tidak akan dapat memahami apa yang bahkan dikatakan oleh pernyataan itu.

— whuber

@whuber, bahkan dengan satu set data tertentu , estimator yang berbeda juga bisa memberikan estimasi yang berbeda, bukan?

D

$D$

— alpukat

13

EL Lehmann, dalam Theory of Point Estimation klasiknya , menjawab pertanyaan ini di halaman 1-2.

Pengamatan sekarang dipostulatkan sebagai nilai yang diambil oleh variabel acak yang diasumsikan mengikuti distribusi probabilitas bersama, , milik beberapa kelas yang dikenal ... $P$

... sekarang mari kita berspesialisasi pada estimasi titik ... misalkan adalah fungsi bernilai riil yang didefinisikan [pada kelas distribusi yang ditentukan] dan bahwa kami ingin mengetahui nilai [pada apa pun distribusi aktual dalam efek, ]. Sayangnya, , dan karenanya , tidak diketahui. Namun, data dapat digunakan untuk mendapatkan estimasi , nilai yang diharapkan satu akan mendekati . $g$ $g$ $\theta$ $\theta$ $g(\theta)$ $g(\theta)$ $g(\theta)$

Dengan kata lain: estimator adalah prosedur matematika pasti yang menghasilkan angka ( estimasi ) untuk setiap set data yang mungkin dihasilkan oleh masalah tertentu. Angka itu dimaksudkan untuk mewakili beberapa properti numerik tertentu ( ) dari proses pembuatan data; kita mungkin menyebutnya "taksiran dan." $g(\theta)$

Estimator itu sendiri bukan variabel acak: itu hanya fungsi matematika. Namun, estimasi yang dihasilkannya didasarkan pada data yang dimodelkan sebagai variabel acak. Ini membuat estimasi (dianggap tergantung pada data) menjadi variabel acak dan perkiraan tertentu untuk sekumpulan data tertentu menjadi realisasi dari variabel acak tersebut.

Dalam satu formulasi kuadrat terkecil biasa (konvensional), data terdiri dari pasangan berurutan . The telah ditentukan oleh eksperimen (mereka dapat menjadi jumlah dari obat yang diberikan, misalnya). Setiap (tanggapan terhadap obat, misalnya) diasumsikan berasal dari distribusi probabilitas yang Normal tetapi dengan mean yang tidak diketahui dan varian umum . Selain itu, diasumsikan bahwa cara terkait dengan melalui rumus . Tiga parameter ini - , , dan $(x_i, y_i)$ $x_i$ $y_i$ $\mu_i$ $\sigma^2$ $x_i$ $\mu_i = \beta_0 + \beta_1 x_i$ $\sigma$ $\beta_0$ $\beta_1$ --menentukan distribusi yang mendasari untuk nilai . Karenanya setiap properti dari distribusi itu dapat dianggap sebagai fungsi dari . Contoh dari properti tersebut adalah intersep , slope , nilai , atau bahkan nilai rata-rata pada nilai , yang (menurut formulasi ini) ) harus . $y_i$ $x_i$ $(\sigma, \beta_0, \beta_1)$ $\beta_0$ $\beta_1$ $\cos(\sigma + \beta_0^2 - \beta_1)$ $x=2$ $\beta_0 + 2 \beta_1$

Dalam konteks OLS ini, non-contoh estimator akan menjadi prosedur untuk menebak pada nilai jika ditetapkan sama dengan 2. Ini bukan estimator karena nilai ini adalah acak (dengan cara yang benar-benar terpisah dari keacakan data): ini bukan properti (numerik pasti) dari distribusi, meskipun itu terkait dengan distribusi itu. (Seperti yang kita hanya melihat, meskipun, harapan dari untuk , sama dengan , dapat diperkirakan.) $y$ $x$ $y$ $y$ $x=2$ $\beta_0 + 2 \beta_1$

Dalam formulasi Lehmann, hampir semua formula dapat menjadi penaksir dari hampir semua properti. Tidak ada hubungan matematis yang melekat antara estimator dan estimand. Namun, kami dapat menilai - di muka - peluang bahwa penaksir akan cukup dekat dengan jumlah yang dimaksudkan untuk memperkirakan. Cara untuk melakukan ini, dan bagaimana cara mengeksploitasinya, adalah subjek dari teori estimasi.

— whuber
sumber

1

(+1) Respons yang sangat tepat dan terperinci.

— chl

2

Bukankah fungsi dari variabel acak itu sendiri juga merupakan variabel acak?

— jsk

@jsk Saya pikir perbedaan saya mencoba untuk membuat di sini dapat diklarifikasi dengan mempertimbangkan komposisi fungsi

Fungsi pertama adalah variabel acak

; yang kedua (sebut saja

) disebut estimator di sini, dan komposisi dari dua

adalah "estimasi" atau "prosedur estimasi," yang - seperti yang Anda katakan dengan benar - acak variabel.

Ω \to R^{n} \to R .

$\Omega\to\mathbb{R}^n\to\mathbb{R}.$

X

$X$

t

$t$

t \circ X : Ω \to R

$t\circ X:\Omega\to\mathbb{R}$

— whuber

1

@whuber Di pos Anda, Anda berkata "Estimator itu sendiri bukan variabel acak." Saya mencoba mengedit posting Anda untuk mengklarifikasi poin yang Anda dan saya tampaknya setujui, tetapi tampaknya seseorang menolak suntingan saya. Mungkin mereka lebih suka hasil edit Anda!

— jsk

Mari kita lanjutkan diskusi ini dalam obrolan .

— whuber

7

Singkatnya: estimator adalah fungsi dan estimasi adalah nilai yang merangkum sampel yang diamati.

Sebuah estimator adalah fungsi yang memetakan sampel acak estimasi parameter:

Catatan bahwa estimator darinvariabel acakadalah variabel acak . Sebagai contoh, sebuah estimator adalah mean sampel:

\hat{Θ} = t (X_{1}, X_{2}, . . ., X_{n})

$\hat{\Theta}=t(X_1,X_2,...,X_n)$

X_{1}, X_{2}, . . ., X_{n}

$X_1,X_2,...,X_n$

\hat{Θ}

$\hat{\Theta}$

Sebuahestimasi

adalah hasil dari penerapan fungsi estimator untuk huruf kecil sampel yang diamati

:

\bar{X} = \frac{1}{n} \sum_{n = 1}^{n} X_{i}

$\overline{X}=\frac{1}{n}\sum_{n=1}^nX_i$

\hat{θ}

$\hat{\theta}$

x_{1}, x_{2}, . . ., x_{n}

$x_1,x_2,...,x_n$

Sebagai contoh, perkiraan sampel yang diamatiadalah sampel

\hat{θ} = t (x_{1}, x_{2}, . . ., x_{n})

$\hat{\theta}=t(x_1,x_2,...,x_n)$

x_{1}, x_{2}, . . ., x_{n}

$x_1,x_2,...,x_n$

\hat{μ} = \bar{x} = \frac{1}{n} \sum_{n = 1}^{n} x_{i}

$\hat{\mu}=\overline{x}=\frac{1}{n}\sum_{n=1}^nx_i$

— Warga kehormatan
sumber

estimator adalah RV, sedangkan estimasi adalah konstan?

— Parthiban Rajendran

Bukankah kesimpulan Anda bertentangan dengan @ whuber? Di sini Anda mengatakan estimator adalah RV, tetapi whuber mengatakan sebaliknya.

— Parthiban Rajendran

Ya, saya tidak setuju dengan pernyataan @ whuber "Estimator itu sendiri bukan variabel acak: itu hanya fungsi matematika". Fungsi variabel acak juga merupakan variabel acak. onlinecourses.science.psu.edu/stat414/node/128

— Freeman

3

Mungkin bermanfaat untuk menggambarkan jawaban whuber dalam konteks model regresi linier. Katakanlah Anda memiliki beberapa data bivariat dan Anda menggunakan Kuadrat Terkecil Biasa untuk menghasilkan model berikut:

Y = 6X + 1

Pada titik ini, Anda dapat mengambil nilai X apa pun, memasukkannya ke dalam model dan memprediksi hasilnya, Y. Dalam hal ini, Anda mungkin menganggap komponen individual dari bentuk umum model ( mX + B ) sebagai penduga . Data sampel (yang Anda duga dicolokkan ke model generik untuk menghitung nilai spesifik untuk m dan B di atas) memberikan dasar di mana Anda dapat membuat estimasi untuk m dan B masing-masing.

Konsisten dengan poin @ whuber di utas kami di bawah ini, nilai Y apa pun yang dihasilkan oleh set estimator tertentu, dalam konteks regresi linier, dianggap sebagai nilai yang diprediksi.

(diedit - beberapa kali - untuk mencerminkan komentar di bawah)

— ashaw
sumber

1

Anda telah mendefinisikan prediktor dengan baik. Secara halus (tetapi penting) berbeda dari estimator. Estimator dalam konteks ini adalah rumus kuadrat terkecil yang digunakan untuk menghitung parameter 1 dan 6 dari data.

— whuber

Hmm, saya tidak bermaksud seperti itu, @whuber, tapi saya pikir komentar Anda menggambarkan ambiguitas penting dalam bahasa saya yang tidak saya perhatikan sebelumnya. Poin utama di sini adalah bahwa Anda dapat memikirkan bentuk generik dari persamaan Y = mX + B (seperti yang digunakan di atas) sebagai penaksir, sedangkan nilai-nilai prediksi tertentu yang dihasilkan oleh contoh spesifik dari rumus tersebut (misalnya, 1 + 6X) adalah perkiraan. Biarkan saya mencoba mengedit paragraf di atas untuk menangkap perbedaan itu ...

— ashaw

btw, saya mencoba menjelaskan ini tanpa memperkenalkan notasi "topi" yang saya temui dalam sebagian besar diskusi buku teks tentang konsep ini. Mungkin itu rute yang lebih baik?

— ashaw

2

Saya pikir Anda telah menemukan media yang bagus antara akurasi dan teknis dalam jawaban awal Anda: pertahankan! Anda tidak perlu topi, tetapi jika Anda bisa menunjukkan bagaimana estimator dibedakan dari hal-hal lain yang serupa, itu akan sangat membantu. Tapi tolong perhatikan perbedaan antara memprediksi nilai Y dan memperkirakan parameter seperti m atau b . Y dapat diartikan sebagai variabel acak; m dan b tidak (kecuali dalam pengaturan Bayesian).

— whuber

memang, titik yang sangat baik dalam hal parameter versus nilai di sana. Mengedit lagi ...

— ashaw

0

Misalkan Anda menerima beberapa data, dan Anda memiliki beberapa variabel yang diamati yang disebut theta. Sekarang data Anda dapat dari distribusi data, untuk distribusi ini, ada nilai yang sesuai dari theta yang Anda simpulkan yang merupakan variabel acak. Anda dapat menggunakan MAP atau berarti untuk menghitung estimasi variabel acak ini setiap kali distribusi data Anda berubah. Jadi variabel acak theta dikenal sebagai taksiran , nilai tunggal dari variabel yang tidak teramati untuk jenis data tertentu.

Sedangkan estimator adalah data Anda, yang juga merupakan variabel acak. Untuk berbagai jenis distribusi Anda memiliki berbagai jenis data dan dengan demikian Anda memiliki perkiraan yang berbeda dan dengan demikian variabel acak yang sesuai ini disebut penduga .

— Ankur Kothari
sumber