Mengapa metode Least-Squares dan Maximum-Likelihood tidak setara ketika kesalahan tidak terdistribusi secara normal?


11

Judul mengatakan itu semua. Saya mengerti bahwa Least-Squares dan Maximum-Likelihood akan memberikan hasil yang sama untuk koefisien regresi jika kesalahan model terdistribusi secara normal. Tetapi, apa yang terjadi jika kesalahan tidak terdistribusi secara normal? Mengapa kedua metode ini tidak lagi setara?


Apakah maksud Anda (a) menggunakan MLE ketika asumsi normalitas tidak terpenuhi, atau (b) menggunakan fungsi kemungkinan non-Gaussian?
Tim

(a), ketika asumsi kenormalan tidak terpenuhi
Shuklaswag

Bahkan ketika asumsi tidak terpenuhi (yaitu nilai-nilai yang diamati tidak terdistribusi Gaussian) ... jika Anda menghitung MLE dengan menggunakan fungsi kemungkinan Gaussian maka Anda melakukan hal yang sama dengan optimasi kuadrat terkecil. Metode optimisasi setara secara matematis, dan independen dari apakah asumsi normalitas benar atau tidak.
Sextus Empiricus

Bahkan dengan distribusi normal, kuadrat-rendah memaksakan varian tetap.
CodesInChaos

Jawaban:


16

Jawaban singkat

Densitas probabilitas variabel multistarian Gaussian terdistribusi , dengan rata-rata terkait dengan kuadrat euclidean jarak antara mean dan variabel ( ), atau dengan kata lain jumlah kuadrat.x=(x1,x2,...,xn)μ=(μ1,μ2,...,μn)|μx|22


Jawaban panjang

Jika Anda mengalikan banyak distribusi Gaussian untuk kesalahan Anda, di mana Anda mengasumsikan penyimpangan yang sama, maka Anda mendapatkan jumlah kuadrat.n

L(μj,xij)=P(xij|μj)=i=1n12πσ2exp[(xijμi)22σ2]=(12πσ2)nexp[i=1n(xijμi)22σ2]

atau dalam bentuk logaritmik yang nyaman:

log(L(μj,xij))=nlog(12πσ2)12σ2i=1n(xijμj)2

Jadi mengoptimalkan untuk meminimalkan jumlah kuadrat sama dengan memaksimalkan kemungkinan (log) (mis. Produk dari beberapa distribusi Gaussian, atau distribusi Gaussian multivarian).μ

Ini adalah kotak bersarang dari perbedaan di dalam struktur eksponensial, , yang tidak dimiliki distribusi lain.(μx)exp[(xiμ)2]


Bandingkan misalnya dengan kasus untuk distribusi Poisson

log(L)=log(μjxijxij!exp[μj])=μjlog(xij!)+log(μj)xij

yang memiliki maksimum ketika hal-hal berikut diminimalkan:

μjlog(μj)xij

yang merupakan binatang yang berbeda.


Selain itu (sejarah)

Sejarah distribusi normal (mengabaikan deMoivre sampai ke distribusi ini sebagai perkiraan untuk distribusi binomial) sebenarnya sebagai penemuan distribusi yang membuat MLE sesuai dengan metode kuadrat terkecil (daripada metode kuadrat terkecil yang menjadi metode yang dapat mengekspresikan MLE dari distribusi normal, pertama datang metode kuadrat terkecil, kedua datang distribusi Gaussian)

Perhatikan bahwa Gauss, menghubungkan 'metode kemungkinan maksimum' dengan 'metode kuadrat terkecil', muncul dengan 'distribusi Gaussian', , sebagai satu-satunya distribusi kesalahan yang mengarahkan kita ke buat hubungan ini antara kedua metode.ex2

Dari terjemahan Charles Henry Davis (Teori gerakan benda-benda langit yang bergerak di sekitar matahari di bagian kerucut. Terjemahan karya Gauss "Theoria motus," dengan lampiran) ...

Gauss mendefinisikan:

Dengan demikian, probabilitas untuk ditugaskan ke setiap kesalahan akan diekspresikan oleh fungsi yang akan kita tunjukkan dengan .ΔΔψΔ

(Italisasi dilakukan oleh saya)

Dan berlanjut ( dalam bagian 177 hlm. 258 ):

... dari mana dapat disimpulkan bahwa harus kuantitas yang konstan. yang akan kami tunjukkan dengan . Karenanya kita memiliki menunjukkan basis logaritma hiperbolik oleh dan mengasumsikanψΔΔk

log ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
e
Constant=logx

berakhir (setelah normalisasi dan menyadari ) padak<0

ψΔ=hπehhΔΔ


Ditulis oleh StackExchangeStrike


Apakah Anda ingat dari mana Anda mendapat pengetahuan ini? Maukah Anda menambahkan sumber ke posting Anda? (Saya mengalami kesulitan menemukan buku teks yang menjelaskan hal ini dengan baik.)
Joooeey

@ Joooeey Saya telah menambahkan judul sumber untuk kutipan terjemahan Gauss serta tautan ke salah satu dari banyak sumber online. Teks asli ini berat, tetapi Anda harus menemukan perjanjian yang lebih ringan dalam deskripsi apa pun tentang sejarah distribusi normal.
Sextus Empiricus

Fungsi kemungkinan muncul di banyak tempat. Jika Anda mencari sumber di mana saya mendapatkan 'pengetahuan' ini, maka saya rasa saya bisa mengatakan artikel Pearson tahun 1900 tentang uji chi-squared di mana distribusi normal multivariat diperlakukan secara geometris. Fisher juga menggunakan representasi geometris beberapa kali (misalnya, artikel yang satu ini di tahun 20-an, tentang efisiensi estimasi, di mana ia membandingkan kesalahan kuadrat rata-rata dan kesalahan absolut rata-rata dan di mana ia berbicara tentang permukaan di hyperspace).
Sextus Empiricus

@ Joooeey Saya telah membuat referensi ke artikel Fisher sebelumnya di sini . Dan jawaban saya di sini menggunakan sudut pandang geometris untuk mendapatkan properti distribusi-t berhubungan dengan Fisher juga (saya percaya artikel di mana ia membuktikan distribusi-t Gosset atau mungkin beberapa artikel kemudian).
Sextus Empiricus

5

Karena MLE berasal dari asumsi residu yang terdistribusi normal.

Catat itu

minβ  Xβy2

Tidak memiliki arti probabilistik : cukup temukan yang meminimalkan fungsi kerugian kuadrat. Semuanya deterministik, dan tidak ada komponen acak di sana.β

Di mana konsep probabilitas dan kemungkinan datang, adalah kita asumsikan

y=Xβ+ϵ

Di mana kami mempertimbangkan sebagai variabel acak, dan didistribusikan secara normal.ϵyϵ


@Matthew Drury mengapa mengubah notasi matriks dan menambahkan tanda penjumlahan?
Haitao Du

Saya pikir itu akan menjadi jelas, tetapi jika Anda mengklaim bahwa pernyataan tidak memiliki makna probalistik, Anda tidak dapat menggunakan ekspresi dengan simbol yang paling baik ditafsirkan sebagai variabel acak. Masalah optimalisasi yang Anda perbaiki terkait dengan data tetap, saya membuatnya secara eksplisit.
Matthew Drury

5

Kuadrat terkecil dan kesesuaian kemungkinan (gaussian) maksimum selalu sama. Artinya, mereka diminimalkan oleh set koefisien yang sama.

Mengubah asumsi kesalahan mengubah fungsi kemungkinan Anda (memaksimalkan kemungkinan model sama dengan memaksimalkan kemungkinan istilah kesalahan), dan karenanya fungsi tidak akan lagi diminimalkan oleh set koefisien yang sama.

Jadi dalam prakteknya keduanya sama, tetapi dalam teori, ketika Anda memaksimalkan kemungkinan yang berbeda, Anda akan mendapatkan jawaban yang berbeda dari Least-square


"atau selalu setara"?
nbro

0

Contoh konkret: Misalkan kita mengambil fungsi kesalahan sederhana p (1) = .9, p (-9) = .10. Jika kita mengambil dua poin, maka LS hanya akan mengambil garis melalui mereka. ML, di sisi lain, akan mengasumsikan bahwa kedua poin adalah satu unit terlalu tinggi, dan dengan demikian akan mengambil garis melalui poin yang bergeser ke bawah pada unit.


2
Teladan Anda tidak jelas; khususnya, sulit untuk melihat model apa yang Anda coba gambarkan atau mengapa ML akan menghasilkan hasil yang Anda klaim. Bisakah Anda menguraikan lebih lanjut dalam jawaban ini?
whuber

Modelnya adalah bahwa y = mx + b + kesalahan, di mana kesalahan memiliki peluang 90% menjadi +1 dan peluang 10% menjadi -9. Mengingat setiap titik yang diamati, titik sebenarnya memiliki kemungkinan 90% menjadi satu unit di bawah dan kemungkinan 10% menjadi sembilan unit di atas. Oleh karena itu, ML menyatakan bahwa poin sebenarnya adalah satu unit di bawah ini. Apa yang tidak Anda mengerti tentang ini?
Akumulasi

2
Komentar Anda bermanfaat, tetapi jawaban Anda masih tidak menggambarkan model dengan cara yang jelas atau dapat dimengerti. Bisakah Anda memasukkan penjelasan itu dalam jawaban itu sendiri? Ini contoh yang bagus.
whuber
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.