Tujuan pemasangan kemungkinan maksimum adalah untuk menentukan parameter dari beberapa distribusi yang paling sesuai dengan data - dan lebih umum, bagaimana parameter tersebut dapat bervariasi dengan kovariat. Dalam kasus GLM, kami ingin menentukan parameterθ dari beberapa distribusi keluarga eksponensial, dan bagaimana mereka adalah fungsi dari beberapa kovariat X.
Untuk setiap distribusi probabilitas dalam keluarga eksponensial berlebih, mean μ dijamin terkait dengan parameter keluarga eksponensial kanonik θ melalui fungsi tautan kanonik, θ=g(μ). Kami bahkan dapat menentukan formula umum untukg, dan biasanya gjuga bisa dibalik. Jika kita hanya mengaturμ=g−1(θ) dan θ=Xβ, kami secara otomatis mendapatkan model untuk caranya μ dan θ berbeda dengan X, tidak peduli apa pun distribusi yang kita hadapi, dan model itu dapat dengan mudah dan andal cocok dengan data dengan optimasi cembung . Jawaban Matt menunjukkan cara kerjanya untuk distribusi Bernoulli, tetapi keajaiban sebenarnya adalah ia bekerja untuk setiap distribusi dalam keluarga.
Mode tidak menikmati properti ini. Faktanya, seperti yang ditunjukkan oleh Cliff AB, mode ini mungkin bahkan tidak memiliki hubungan bijective dengan parameter distribusi, sehingga kesimpulan dari mode ini memiliki daya yang sangat terbatas. Ambil distribusi Bernoulli, misalnya. Mode ini adalah 0 atau 1, dan mengetahui mode hanya memberitahu Anda apakahp, probabilitas 1, lebih besar atau kurang dari 1/2. Sebaliknya, mean memberi tahu Anda apa sebenarnyap adalah.
Sekarang, untuk mengklarifikasi beberapa kebingungan dalam pertanyaan: kemungkinan maksimum bukan tentang menemukan mode distribusi, karena kemungkinan fungsi tidak sama dengan distribusi. Kemungkinannya melibatkan distribusi model Anda dalam formulanya, tetapi di situlah kesamaan berakhir. Fungsi kemungkinanL(θ) mengambil nilai parameter θsebagai input, dan memberi tahu Anda seberapa "mungkin" seluruh dataset Anda , mengingat distribusi model memilikinyaθ. Distribusi modelfθ(y) tergantung pada θ, tetapi sebagai fungsi, dibutuhkan nilai y sebagai input dan memberi tahu Anda seberapa sering sampel acak dari distribusi itu akan sama y. MaksimalL(θ) dan mode fθ(y) bukan hal yang sama.
Mungkin membantu untuk melihat formula kemungkinan. Dalam hal data IIDy1,y2,…,yn, kita punya
L(θ)=∏i=1nfθ(yi)
Nilai-nilai
yisemuanya sudah diperbaiki - mereka adalah nilai dari data Anda. Kemungkinan maksimum adalah menemukan
θ yang memaksimalkan
L(θ). Menemukan mode distribusi akan menemukan
y yang memaksimalkan
fθ(y), yang bukan itu yang kita inginkan:
y diperbaiki dalam kemungkinan, bukan variabel.
Jadi menemukan maksimum fungsi kemungkinan tidak, secara umum, sama dengan menemukan mode distribusi model. (Ini adalah mode distribusi lain , jika Anda bertanya pada Bayesian yang objektif, tapi itu cerita yang sangat berbeda!)