Berapa banyak kalkulus diperlukan untuk memahami estimasi kemungkinan maksimum?

11

Saya mencoba merencanakan rencana studi untuk belajar MLE. Untuk melakukan ini, saya mencoba mencari tahu apa tingkat minimum kalkulus yang diperlukan untuk memahami MLE.

Apakah cukup untuk memahami dasar-dasar kalkulus (yaitu menemukan fungsi minimum dan maksimum) untuk memahami MLE?

estimation mathematical-statistics maximum-likelihood

— histelheim
sumber

2

Seperti biasa, itu tergantung . Jika Anda hanya mencoba memahami dasar-dasarnya, dapat menemukan ekstrema fungsi memberi Anda cara yang adil (meskipun dalam banyak kasus praktis MLE, L adalah M secara numerik, dalam hal ini Anda memerlukan beberapa keterampilan lain juga. karena beberapa kalkulus dasar).

— Glen_b -Reinstate Monica

Terima kasih. Bisakah Anda menjelaskan kasus yang Anda sebutkan secara lebih rinci? Kedengarannya menarik.

— histelheim

oke tapi sekarang saya harus menjawabnya. Tunggu sebentar.

— Glen_b -Reinstate Monica

20

Untuk memperluas komentar saya - itu tergantung. Jika Anda hanya mencoba memahami dasar-dasarnya, dapat menemukan ekstrema fungsi memberi Anda cara yang adil (meskipun dalam banyak kasus praktis MLE, kemungkinan dimaksimalkan secara numerik, dalam hal ini Anda memerlukan beberapa keterampilan lain serta beberapa kalkulus dasar).

Saya akan mengesampingkan kasus-kasus sederhana yang bagus di mana Anda mendapatkan solusi aljabar eksplisit. Meski begitu, kalkulus seringkali sangat bermanfaat.

Saya akan menganggap kemerdekaan di seluruh. Mari kita ambil contoh yang paling sederhana dari optimasi 1-parameter. Pertama kita akan melihat kasus di mana kita dapat mengambil turunan dan memisahkan fungsi parameter dan statistik.

Pertimbangkan kerapatan $\rm{Gamma}(\alpha,1)$

f_{X} (x; α) = \frac{1}{Γ (α)} x^{α - 1} \exp (- x); x > 0; α > 0

$f_X(x;\alpha) = \frac{1}{\Gamma(\alpha)} x^{\alpha-1} \exp(-x); \,\,\, x>0;\,\,\alpha>0$

Kemudian untuk sampel ukuran , kemungkinannya adalah $n$

L (α; x) = \prod_{i = 1}^{n} f_{X} (x_{i}; α)

$\mathcal{L}(\alpha; \mathbf{x}) = \prod_{i=1}^n f_X(x_i;\alpha)$

dan kemungkinan lognya adalah mana . Mengambil turunan,

l (α; x) = \sum_{i = 1}^{n} \ln f_{X} (x_{i}; α) = \sum_{i = 1}^{n} \ln (\frac{1}{Γ (α)} x_{i}^{α - 1} \exp (- x_{i}))

$\mathcal{l}(\alpha; \mathbf{x}) = \sum_{i=1}^n \ln{f_X(x_i;\alpha)} \\ = \sum_{i=1}^n \ln{\left(\frac{1}{\Gamma(\alpha)} x_i^{\alpha-1} \exp(-x_i)\right)}\\$

= \sum_{i = 1}^{n} - \ln Γ (α) + (α - 1) \ln x_{i} - x_{i}

$= \sum_{i=1}^n -\ln{\Gamma(\alpha)}+(\alpha-1)\ln{x_i} -x_i\\$

= - n \ln Γ (α) + (α - 1) S_{x} - n \bar{x}

$= -n\ln{\Gamma(\alpha)}+(\alpha-1)S_x -n\bar{x}$

S_{x} = \sum_{i = 1}^{n} \ln x_{i}

$S_x=\sum_{i=1}^n\ln{x_i}$

\frac{d}{d α} l (α; x) = \frac{d}{d α} (- n \ln Γ (α) + (α - 1) S_{x} - n \bar{x})

$\frac{d}{d\alpha}\mathcal{l}(\alpha; \mathbf{x}) = \frac{d}{d\alpha} \left(-n\ln{\Gamma(\alpha)}+(\alpha-1)S_x -n\bar{x}\right)\\$

= - n \frac{Γ^{'} (α)}{Γ (α)} + S_{x}

$= -n\frac{\Gamma'(\alpha)}{{\Gamma(\alpha)}}+S_x\\$

= - n ψ (α) + S_{x}

$= -n\psi(\alpha)+S_x$

Jadi jika kita atur ke nol dan coba pecahkan untuk , kita bisa mendapatkan ini: $\hat{\alpha}$

ψ (\hat{α}) = \ln G (x)

$\psi(\hat{\alpha})=\ln{G(\mathbf{x})}\\$

di mana adalah fungsi digamma dan adalah rata- rata geometris . Kita tidak boleh lupa bahwa secara umum Anda tidak bisa hanya mengatur turunan ke nol dan yakin Anda akan menemukan argmax ; Anda masih harus menunjukkan dalam beberapa cara bahwa solusinya adalah maksimum (dalam hal ini adalah). Secara lebih umum, Anda mungkin mendapatkan titik minimum, atau titik-titik horizontal infleksi, dan bahkan jika Anda memiliki maksimum lokal, Anda mungkin tidak memiliki maksimum global (yang saya sentuh mendekati akhir). $\psi(\cdot)$ $G(\cdot)$

Jadi tugas kita sekarang adalah menemukan nilai untuk itu $\hat{\alpha}$

ψ (\hat{α}) = g

$\psi(\hat{\alpha})=g$

di mana . $g=\ln{G(\mathbf{x})}$

Ini tidak memiliki solusi dalam hal fungsi dasar, itu harus dihitung secara numerik; setidaknya kami bisa mendapatkan fungsi parameter di satu sisi dan fungsi data di sisi lain. Ada berbagai algoritma penemuan nol yang dapat digunakan jika Anda tidak memiliki cara eksplisit untuk menyelesaikan persamaan (bahkan jika Anda tanpa turunan, ada bagian biner, misalnya).

Seringkali, tidak sebagus itu. Pertimbangkan kepadatan logistik dengan skala satuan: Argmax dari kemungkinan atau fungsi log-likelihood tidak dapat diperoleh secara aljabar - Anda harus menggunakan metode optimasi numerik. Dalam hal ini, fungsi tersebut berperilaku cukup baik dan metode Newton-Raphson biasanya cukup untuk menemukan estimasi ML dari . Jika turunannya tidak tersedia atau jika Newton-Raphson tidak konvergen, metode optimasi numerik lainnya mungkin diperlukan, seperti golden-section (ini tidak dimaksudkan untuk menjadi ikhtisar dari metode terbaik yang tersedia, hanya menyebutkan beberapa metode Anda lebih kemungkinan akan bertemu di tingkat dasar).

f (x; μ) = \frac{1}{4} {sech}^{2} (\frac{x - μ}{2}) .

$f(x; \mu) =\frac{1}{4} \operatorname{sech}^2\!\left(\frac{x-\mu}{2}\right).$

μ

$\mu$

Secara umum, Anda bahkan mungkin tidak bisa melakukan itu. Pertimbangkan Cauchy dengan median dan skala satuan: $\theta$

f_{X} (x; θ) = \frac{1}{π (1 + (x - θ)^{2})} .

$f_X(x;\theta) = \frac{1}{\pi (1 + (x-\theta)^2)}\,.$

Secara umum kemungkinan di sini tidak memiliki maksimum lokal yang unik, tetapi beberapa maksimum lokal. Jika Anda menemukan sebuah maksimum lokal, mungkin ada yang lain, lebih besar di tempat lain. (Kadang-kadang orang fokus mengidentifikasi maksimum lokal terdekat dengan median, atau semacamnya.)

Sangat mudah bagi pemula untuk mengasumsikan bahwa jika mereka menemukan titik balik cekung bahwa mereka memiliki argmax fungsi, tetapi selain beberapa mode (sudah dibahas), mungkin ada maxima yang tidak terkait dengan titik balik sama sekali. Mengambil turunan dan menetapkannya ke nol tidak cukup; pertimbangkan memperkirakan parameter untuk seragam pada misalnya. $(0,\theta)$

Dalam kasus lain, ruang parameter mungkin terpisah.

Terkadang menemukan yang maksimal mungkin cukup terlibat.

Dan itu hanya contoh masalah dengan satu parameter. Ketika Anda memiliki banyak parameter, hal-hal menjadi lebih terlibat lagi.

— Glen_b -Reinstate Monica
sumber

4

Iya. Tentu saja, kita tidak berbicara tentang fungsi satu dimensi, tetapi fungsi untuk dimaksimalkan (yaitu, kemungkinan), jadi ini sedikit lebih maju daripada yang satu- kasus dimensi. $\mathbb{R}^p \to \mathbb{R}$

Beberapa fasilitas dengan logaritma pasti akan membantu, karena memaksimalkan logaritma kemungkinan biasanya lebih mudah daripada memaksimalkan kemungkinan itu sendiri.

Cukup banyak yang bisa dipahami oleh MLE sederhana (matriks informasi, dll.) Jika Anda dapat menangani turunan kedua dari fungsi , yaitu matriks Hessian. $\mathbb{R}^p \to \mathbb{R}$

— Stephan Kolassa
sumber