Mengapa kita memperkirakan rata-rata menggunakan MLE ketika kita sudah tahu bahwa rata-rata adalah data?

Saya telah menemukan masalah dalam buku teks untuk memperkirakan rata-rata. Masalah buku teks adalah sebagai berikut:

Asumsikan bahwa $N$ titik data, , ,. . . , , telah dihasilkan oleh pdf Gaussian satu dimensi dengan mean yang tidak diketahui, tetapi dari varian yang diketahui. Turunkan estimasi ML rata-rata. $x_1$ $x_2$ $x_N$

Pertanyaan saya adalah, Mengapa kita perlu memperkirakan rata-rata menggunakan MLE ketika kita sudah tahu bahwa rata-rata adalah data? Solusinya juga mengatakan bahwa estimasi MLE adalah rata-rata data. Apakah saya perlu melakukan semua langkah MLE memaksimalkan memaksimalkan untuk mengetahui bahwa rata-rata hanyalah rata-rata data yaitu ? $(x_1+x_2+\cdots+x_N)/N$

self-study normal-distribution maximum-likelihood

— Niranjan Kotha
sumber

Anda mungkin bingung oleh dua arti berbeda dari kata "berarti." Dalam pertanyaan ini Anda menggunakannya untuk merujuk ke (a) parameter keluarga distribusi Gaussian dan (b) statistik yang dapat dihitung dari data. Anda mungkin ingin menjelajahi apa yang dikatakan situs ini tentang MLE dan parameter .

— whuber

Bagaimana dengan memberikan referensi untuk buku teks yang Anda kutip?

— Xi'an

Jawaban:

Mengapa kita perlu memperkirakan rata-rata menggunakan MLE ketika kita sudah tahu bahwa rata-rata adalah data?

Masalah buku teks menyatakan itu $x_1,x_2,\dots,x_N$ adalah dari

x \sim \frac{1}{\sqrt{2 π} σ} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}

$x\sim\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ Mereka memberitahumu itu

σ

$\sigma$ diketahui, tetapi

μ

$\mu$ harus diperkirakan.

Benarkah itu perkiraan yang bagus $\hat\mu=\bar x$ ?!

Sini, $\bar x=\frac{1}{N}\sum_{i=1}^Nx_i$ .

Itu tidak jelas bagi saya, dan saya cukup terkejut melihat bahwa itu sebenarnya perkiraan MLE.

Juga, pertimbangkan ini: bagaimana jika $\mu$ dikenal dan $\sigma$ tidak diketahui? Dalam hal ini penaksir MLE adalah

{\hat{σ}}^{2} = \frac{1}{N} \sum_{saya = 1}^{N} (x - \bar{x})^{2}

$\hat\sigma^2=\frac{1}{N}\sum_{i=1}^N(x-\bar x)^2$

Perhatikan, bagaimana estimator ini tidak sama dengan estimator varians sampel! Jangan "kita sudah tahu" bahwa varians sampel diberikan oleh persamaan berikut?

s^{2} = \frac{1}{N - 1} \sum_{saya} (x - \bar{x})^{2}

$s^2=\frac{1}{N-1}\sum_{i}(x-\bar x)^2$

— Aksakal
sumber

nitpicky pet peeve:

s^{2}

$s^2$ bukan varians sampel,

{\hat{σ}}^{2}

$\hat \sigma^2$ adalah.

— Cliff AB

@CliffAB Saya pikir tidak ada kekurangan dukungan untuk menelepon

s_{N - 1}^{2}

$s^2_{N-1}$ "varians sampel". Sebagai contoh, halaman wikipedia tentang koreksi Bessel menyebutnya demikian. Banyak buku juga melakukannya. Saya lebih suka condong ke terminologi Anda sendiri tetapi saya pikir itu mungkin terlalu kuat untuk dikatakan

s_{N - 1}^{2}

$s^2_{N-1}$ adalah tidak varians sampel hari ini - terminologi sangat luas, mungkin lebih banyak digunakan daripada panggilan

s_{N}^{2}

$s^2_N$ dengan nama itu

— Glen_b -Reinstate Monica

@ Glen_b saya dibesarkan untuk menelepon

s_{N}^{2}

$s_N^2$ "varians sampel" (seperti "varians sampel, dengan haknya sendiri") dan

s_{N - 1}^{2}

$s_{N-1}^2$ "(estimasi) varians populasi" (seperti dalam estimasi tidak bias , karena seperti yang ditunjukkan pos ini,

s_{N}

$s_N$ juga merupakan penduga yang berguna). Tetapi saya mengambil "jajak pendapat" (non-acak) dari buku teks dan manual kalkulator beberapa tahun yang lalu dan menemukan penggunaan saya menjadi sangat minoritas, meskipun saya memang menemukan banyak contoh keduanya. Tidak tahu apakah ini tren. [Juga, tua biasa

s

$s$ dan

\hat{σ}

$\hat \sigma$ kadang - kadang ambigu menjengkelkan ... Saya menghargai

N

$N$ dan

N - 1

$N-1$ !]

— Silverfish

@CliffAB, saya pernah melihat

s^{2}

$s^2$ banyak digunakan dalam ekonometrik untuk varians sampel, dan

σ^{2}

$\sigma^2$ untuk parameter populasi, misalnya dalam Greene "Analisis Ekonometrik".

— Aksakal

@CliffAB, saya tidak membuat terminologi, tapi mungkin alasan dalam ekonometrik adalah selalu ada lebih dari satu penaksir apa pun, termasuk varians. Begitu,

{\hat{σ}}^{2}

$\hat\sigma^2$ tidak akan cukup spesifik, tampaknya merujuk pada sejumlah penaksir yang bisa muncul, sementara

s^{2}

$s^2$ memiliki arti spesifik dari penyimpangan kuadrat rata-rata. Sekarang, dalam konteks OLS

s^{2} = \frac{e^{'} e}{N - k}

$s^2=\frac{e'e}{N-k}$ dimana

k

$k$ adalah jumlah parameter. Seperti yang Anda lihat, itu tidak selalu

N - 1

$N-1$ , bahkan notasi ini tidak sepenuhnya spesifik, tetapi diasumsikan bahwa kami menyesuaikan untuk jumlah parameter.

— Aksakal

Dalam hal ini, rata-rata sampel Anda terjadi untuk juga menjadi estimator maksimum likelihood. Jadi melakukan semua pekerjaan itu MLE terasa seperti latihan yang tidak perlu, karena Anda kembali ke perkiraan intuitif Anda tentang rata-rata yang akan Anda gunakan di tempat pertama. Yah, ini bukan "kebetulan"; ini dipilih secara khusus untuk menunjukkan bahwa estimator MLE sering mengarah pada estimator intuitif.

Tetapi bagaimana jika tidak ada estimator intuitif? Misalnya, Anda memiliki sampel variabel acak gamma iid dan Anda tertarik untuk memperkirakan bentuk dan parameter laju. Mungkin Anda bisa mencoba mengeluarkan estimator dari properti yang Anda ketahui tentang distribusi Gamma. Tapi apa cara terbaik untuk melakukannya? Menggunakan beberapa kombinasi estimasi mean dan varians? Mengapa tidak menggunakan estimasi median sebagai ganti mean? Atau log-mean? Ini semua bisa digunakan untuk membuat semacam penaksir, tapi mana yang bagus?

Ternyata, teori MLE memberi kita cara yang bagus untuk secara ringkas mendapatkan jawaban atas pertanyaan itu: ambil nilai-nilai parameter yang memaksimalkan kemungkinan data yang diamati (yang tampaknya cukup intuitif) dan menggunakannya sebagai perkiraan Anda. Bahkan, kami memiliki teori yang menyatakan bahwa dalam kondisi tertentu, ini akan menjadi penaksir terbaik. Ini jauh lebih baik daripada mencoba mencari penaksir unik untuk setiap jenis data dan kemudian melangkah banyak waktu mengkhawatirkan jika itu benar-benar pilihan terbaik.

Singkatnya: sementara MLE tidak memberikan wawasan baru dalam hal memperkirakan rata-rata data normal , MLE secara umum adalah alat yang sangat, sangat berguna.

— Cliff AB
sumber

Ini adalah masalah kosakata yang membingungkan, seperti yang diilustrasikan oleh kutipan itu, langsung dari google:

average
noun: average; jamak kata benda: rata-rata

angka yang menyatakan nilai pusat atau tipikal dalam satu set data, khususnya mode, median, atau (paling umum) rata-rata, yang dihitung dengan membagi jumlah nilai dalam set dengan jumlah mereka. "proporsi lebih dari 60-an berada di atas rata-rata Uni Eropa 19 persen" sinonim: rata-rata, modus, titik tengah, tengah

Bukan definisi terbaik, saya setuju! Terutama ketika menyarankan berarti sebagai sinonim. Saya akan berpikir rata - rata paling tepat untuk dataset atau sampel seperti $\bar{x}$ dan tidak boleh digunakan untuk distribusi, karena $\mu$ di $\mathfrak{N}(\mu,\sigma²)$ .

berarti

Dalam matematika, mean memiliki beberapa definisi yang berbeda tergantung pada konteksnya.

Dalam probabilitas dan statistik, nilai rata-rata dan yang diharapkan digunakan secara sinonim untuk merujuk pada satu ukuran kecenderungan pusat baik dari distribusi probabilitas atau dari variabel acak yang ditandai oleh distribusi itu. Dalam kasus distribusi probabilitas diskrit dari variabel acak X, rata-rata sama dengan jumlah atas setiap nilai yang mungkin ditimbang dengan probabilitas nilai tersebut; yaitu, dihitung dengan mengambil produk dari setiap nilai yang mungkin x dari X dan probabilitasnya P (x), dan kemudian menambahkan semua produk ini bersama-sama, memberikan $\mu = \sum x P(x)$ .

Untuk kumpulan data, istilah rata-rata aritmatika, ekspektasi matematis, dan kadang-kadang rata-rata digunakan secara sinonim untuk merujuk pada nilai pusat dari serangkaian angka yang terpisah: secara khusus, jumlah nilai dibagi dengan jumlah nilai. Mean aritmatika dari sekumpulan angka $x_1, x_2, ..., x_n$ biasanya dilambangkan dengan $\bar{x}$ , dilafalkan "x bar". Jika kumpulan data didasarkan pada serangkaian pengamatan yang diperoleh dengan sampling dari populasi statistik, rata-rata aritmatika disebut mean sampel (dilambangkan $\bar{x}$ ) untuk membedakannya dari mean populasi (dilambangkan $\mu$ atau $\mu_x$ ).

Seperti yang disarankan oleh entri Wikipedia ini , berarti berlaku untuk distribusi dan sampel atau kumpulan data. Mean dari dataset atau sampel juga merupakan rata-rata dari distribusi empiris yang terkait dengan sampel ini. Entri juga mencontohkan kemungkinan kebingungan antara istilah karena memberikan rata-rata dan harapan sebagai sinonim.

ekspektasi kata benda: expectation; jamak kata benda: harapan

Matematika: istilah lain untuk nilai yang diharapkan.

Saya akan membatasi penggunaan harapan untuk objek yang diperoleh oleh integral, seperti pada

E [X] = \int_{X} x d P (x)

$\mathbb{E}[X]=\int_\mathcal{X} x\text{d}P(x)$ tetapi rata-rata sampel sekali lagi harapan yang terkait dengan distribusi empiris yang berasal dari sampel ini.

— Xi'an
sumber