Bisakah Hessian empiris dari penaksir-M menjadi tidak terbatas?


15

Jeffrey Wooldridge dalam Analisis Ekonometrik dari Cross Section dan Panel Data (halaman 357) mengatakan bahwa Hessian empiris "tidak dijamin pasti positif, atau bahkan semidefinit positif, untuk sampel tertentu yang sedang kami kerjakan.".

Ini kelihatannya salah bagi saya sebagai (masalah numerik terpisah) Hessian harus semidefinit positif sebagai hasil dari definisi M-estimator sebagai nilai parameter yang meminimalkan fungsi tujuan untuk sampel yang diberikan dan fakta yang terkenal bahwa pada minimum (lokal) Goni adalah semidefinit positif.

Apakah argumen saya benar?

[EDIT: Pernyataan ini telah dihapus pada edisi ke-2. buku. Lihat komentar.]

LATAR BELAKANG Misalkan adalah estimator yang diperoleh dengan meminimalkan mana menunjukkan observasi ke- .1θ^Nwii

1Ni=1Nq(wi,θ),
wii

Mari kita menunjukkan Hessian dari oleh , H (q, \ theta) _ {ij} = \ frac {\ partial ^ 2 q} {\ partial \ theta_i \ partial \ theta_j}H H ( q , θ ) i j = 2 qqH

H(q,θ)ij=2qθiθj

Kovarians asimptotik dari θ^n melibatkan E[H(q,θ0)] mana θ0 adalah nilai parameter sebenarnya. Salah satu cara untuk memperkirakannya adalah dengan menggunakan Hesssian empiris

H^=1Nsaya=1NH(wsaya,θ^n)

Ini adalah kepastian dari H^ yang dipertanyakan.


1
@Jyotirmoy, bagaimana jika minimum terjadi pada batas ruang parameter Anda?
kardinal

@kardinal. Anda benar, argumen saya tidak akan berfungsi dalam kasus itu. Tapi Wooldridge mempertimbangkan kasus di mana minimum ada di interior. Bukankah dia salah dalam kasus itu?
Jyotirmoy Bhattacharya

@Jyotirmoy, itu pasti hanya semidefinit positif. Pikirkan fungsi linear atau fungsi di mana sekumpulan titik minimum membentuk cembung polytope. Untuk contoh yang lebih sederhana, pertimbangkan polinomial pada x = 0 . f(x)=x2nx=0
kardinal

1
@kardinal. Benar. Yang mengganggu saya adalah ungkapan "bahkan semidefinit positif" dalam pernyataan yang dikutip.
Jyotirmoy Bhattacharya

@Jyotirmoy, apakah ada bentuk spesifik dari penaksir-M yang diberikan dalam buku yang dapat Anda berikan? Berikan juga ruang parameter yang dipertimbangkan. Mungkin kita bisa mencari tahu apa yang ada dalam pikiran penulis. Secara umum, saya pikir kita sudah menetapkan bahwa pernyataan penulis itu benar. Menempatkan kendala lebih lanjut pada bentuk atau ruang parameter yang dipertimbangkan dapat mengubah itu. q
kardinal

Jawaban:


16

Saya pikir kamu benar. Mari saring argumen Anda menjadi intinya:

  1. meminimalkan fungsiQdidefinisikan sebagaiQ(θ)=1θ^NQQ(θ)=1Ni=1Nq(wi,θ).

  2. Biarkan menjadi Hessian dari Q , dari mana H ( θ ) = 2 QHQ oleh definisi dan ini pada gilirannya, dengan linearitas diferensiasi, sama dengan1H(θ)=2Qθiθj.1Ni=1NH(wi,θn)

  3. Dengan asumsi θ N terletak pada bagian dalam domain dari Q , maka H ( θ N ) harus positif semi-pasti.θ^NQH(θ^N)

Ini hanyalah sebuah pernyataan tentang fungsi : bagaimana ia didefinisikan hanyalah pengalih perhatian, kecuali sejauh yang diasumsikan differentiability urutan kedua dari q sehubungan dengan nya argumen kedua ( θ ) menjamin differentiability urutan kedua dari Q .QqθQ


Menemukan M-estimator bisa rumit. Pertimbangkan data ini yang disediakan oleh @mpiktas:

{1.168042, 0.3998378}, {1.807516, 0.5939584}, {1.384942, 3.6700205}, {1.327734, -3.3390724}, {1.602101, 4.1317608}, {1.604394, -1.9045958}, {1.124633, -3.0865249}, {1.294601, -1.8331763},{1.577610, 1.0865977}, { 1.630979, 0.7869717}

Prosedur R untuk menemukan estimator-M dengan menghasilkan solusi ( c 1 , c 2 ) = ( - 114.91316 , - 32.54386 ) . Nilai fungsi objektif (rata-rata q ) pada titik ini sama dengan 62.3542. Berikut ini adalah plot yang cocok:q((x,y),θ)=(yc1xc2)4(c1,c2)(114.91316,32.54386)q

Pas 1

Berikut adalah plot fungsi objektif (log) di lingkungan yang cocok ini:

Tujuan 1

Ada sesuatu yang mencurigakan di sini: parameter kecocokan sangat jauh dari parameter yang digunakan untuk mensimulasikan data (dekat ) dan kami tampaknya tidak minimum: kami berada di lembah yang sangat dangkal yang miring menuju nilai yang lebih besar dari kedua parameter:(0.3,0.2)

Tujuan 1, tampilan 3D

Penentu negatif Hessian pada saat ini menegaskan bahwa ini bukan minimum lokal! Namun demikian, ketika Anda melihat label sumbu z, Anda dapat melihat bahwa fungsi ini rata hingga lima digit di seluruh wilayah, karena sama dengan konstanta 4.1329 (logaritma 62.354). Ini mungkin menyebabkan minimizer fungsi R (dengan toleransi defaultnya) untuk menyimpulkan itu mendekati minimum.

Sebenarnya, solusinya jauh dari titik ini. Untuk memastikannya, saya menggunakan metode " Principal Axis " yang mahal secara komputasi tetapi sangat efektif dalam Mathematica , menggunakan 50 digit presisi (basis 10) untuk menghindari kemungkinan masalah numerik. Ia menemukan minimum dekat mana fungsi objektif memiliki nilai 58.292655: sekitar 6% lebih kecil dari "minimum" yang ditemukan oleh R. Minimum ini terjadi di bagian yang tampak sangat datar , tapi saya bisa membuatnya terlihat (hanya nyaris) seperti minimum yang benar, dengan kontur elips, dengan membesar-besarkan c 2(c1,c2)=(0.02506,7.55973)c2 arah dalam plot:

Tujuan 2

Konturnya berkisar dari 58.29266 di tengah hingga 58.29284 di sudut (!). Inilah tampilan 3D (lagi dari tujuan log):

Tujuan 2, tampilan 3D

Di sini Hessian pasti-positif: nilai eigen-nya adalah 55062,02 dan 0,430978. Jadi titik ini adalah minimum lokal (dan mungkin minimum global). Berikut adalah kesesuaiannya dengan:

Pas 2

Saya pikir ini lebih baik daripada yang lain. Nilai parameter tentu saja lebih realistis dan jelas kita tidak akan bisa melakukan jauh lebih baik dengan keluarga kurva ini.

Ada pelajaran berguna yang bisa kita ambil dari contoh ini:

  1. Optimalisasi numerik bisa sulit, terutama dengan fungsi nonlinear fitting dan non-kuadrat. Karena itu:
  2. Periksa ulang hasil sebanyak mungkin, termasuk:
  3. Buat grafik fungsi objektif kapan pun Anda bisa.
  4. Ketika hasil numerik tampak melanggar teorema matematika, menjadi sangat mencurigakan.
  5. Ketika hasil statistik mengejutkan - seperti nilai parameter mengejutkan yang dikembalikan oleh kode R - menjadi sangat mencurigakan.

+1, analisis yang bagus. Saya pikir itu sebabnya Wooldridge memasukkan komentar itu. Saya masih berpikir adalah mungkin untuk memikirkan beberapa contoh di mana goni akan tidak terbatas. Membatasi ruang parameter secara artifisial misalnya. Dalam contoh ini ruang parameter adalah seluruh bidang, itulah sebabnya minimum lokal akan menghasilkan goni semi-positif. Saya pikir waktunya telah tiba untuk menulis email yang bagus kepada Wooldridge untuk menerima pertanyaannya :)
mpiktas

@mpikta Ya, saya yakin ada masalah di mana interior global minimum memiliki Hessian yang tidak terbatas, namun di mana semua parameter dapat diidentifikasi. Tetapi tidak mungkin bagi Hessian pada tingkat global minimum yang cukup mulus untuk menjadi tidak terbatas. Hal semacam ini telah terbukti berulang kali, seperti dalam Topologi Milnor dari Sudut Pandang yang Berbeda . Saya menduga Wooldridge mungkin disesatkan oleh "solusi" numerik yang salah. (Kesalahan ketik pada halaman yang dikutip menunjukkan bahwa itu ditulis dengan tergesa-gesa.)
whuber

bahkan di perbatasan, goni akan positif? Saya akan memeriksa buku itu, saya melihat bahwa saya benar-benar tidak memiliki pengetahuan yang luas di bidang ini. Teorema klasik sangat sederhana, jadi saya berasumsi bahwa seharusnya tidak ada hal lain yang terlalu rumit. Itu mungkin salah satu alasan mengapa saya kesulitan menjawab pertanyaan itu.
mpiktas

@mpiktas Di perbatasan, Hessian bahkan tidak perlu didefinisikan . Idenya adalah ini: jika matriks turunan Jacobian / Hessian / kedua didefinisikan pada titik kritis, maka di lingkungan fungsi bertindak seperti bentuk kuadrat yang ditentukan oleh matriks ini. Jika matriks memiliki nilai eigen positif dan negatif, fungsinya harus meningkat ke beberapa arah dan menurun di lain: ia tidak bisa menjadi ekstrem lokal. Inilah yang menjadi perhatian @Jyotirmoy tentang kutipan, yang tampaknya bertentangan dengan properti dasar ini.
Whuber

Terima kasih Anda berdua dan @mpiktas untuk analisis yang sangat bagus. Saya cenderung setuju dengan Anda bahwa Wooldridge mengacaukan kesulitan numerik dengan properti teoritis estimator. Mari kita lihat apakah ada jawaban lain.
Jyotirmoy Bhattacharya

7

θ^N

minθΘN1i=1Nq(wi,θ)

θ^NΘH^

N1i=1Nq(wi,θ)θ0

minθΘEq(w,θ).

N1i=1Nq(wi,θ)Θ

Selanjutnya dalam bukunya Wooldridge memberikan contoh perkiraan Hessian yang dijamin pasti positif secara numerik. Dalam praktiknya, kepastian non-positif Hessian harus menunjukkan bahwa solusi berada pada titik batas atau algoritma gagal menemukan solusi. Yang biasanya merupakan indikasi lebih lanjut bahwa model yang dipasang mungkin tidak sesuai untuk data yang diberikan.

Ini adalah contoh angka. Saya menghasilkan masalah kuadrat terkecil non-linear:

yi=c1xic2+εi

X[1,2]εσ2set.seed(3)xiyi

Saya memilih fungsi fungsi kuadrat dari fungsi objektif kuadrat terkecil non-linear biasa:

q(w,θ)=(yc1xic2)4

Berikut adalah kode dalam R untuk mengoptimalkan fungsi, gradien dan hessiannya.

##First set-up the epxressions for optimising function, its gradient and hessian.
##I use symbolic derivation of R to guard against human error    
mt <- expression((y-c1*x^c2)^4)

gradmt <- c(D(mt,"c1"),D(mt,"c2"))

hessmt <- lapply(gradmt,function(l)c(D(l,"c1"),D(l,"c2")))

##Evaluate the expressions on data to get the empirical values. 
##Note there was a bug in previous version of the answer res should not be squared.
optf <- function(p) {
    res <- eval(mt,list(y=y,x=x,c1=p[1],c2=p[2]))
    mean(res)
}

gf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res <- sapply(gradmt,function(l)eval(l,evl))
    apply(res,2,mean)
}

hesf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res1 <- lapply(hessmt,function(l)sapply(l,function(ll)eval(ll,evl)))
    res <- sapply(res1,function(l)apply(l,2,mean))
    res
}

Tes pertama bahwa gradien dan goni berfungsi seperti yang diiklankan.

set.seed(3)
x <- runif(10,1,2)
y <- 0.3*x^0.2

> optf(c(0.3,0.2))
[1] 0
> gf(c(0.3,0.2))
[1] 0 0
> hesf(c(0.3,0.2))
     [,1] [,2]
[1,]    0    0
[2,]    0    0
> eigen(hesf(c(0.3,0.2)))$values
[1] 0 0

xy

> df <- read.csv("badhessian.csv")
> df
          x          y
1  1.168042  0.3998378
2  1.807516  0.5939584
3  1.384942  3.6700205
4  1.327734 -3.3390724
5  1.602101  4.1317608
6  1.604394 -1.9045958
7  1.124633 -3.0865249
8  1.294601 -1.8331763
9  1.577610  1.0865977
10 1.630979  0.7869717
> x <- df$x
> y <- df$y
> opt <- optim(c(1,1),optf,gr=gf,method="BFGS")  
> opt$par
[1] -114.91316  -32.54386
> gf(opt$par)
[1] -0.0005795979 -0.0002399711
> hesf(opt$par)
              [,1]         [,2]
[1,]  0.0002514806 -0.003670634
[2,] -0.0036706345  0.050998404
> eigen(hesf(opt$par))$values
[1]  5.126253e-02 -1.264959e-05

Gradien adalah nol, tetapi goni itu tidak positif.

Catatan: Ini adalah upaya ketiga saya untuk memberikan jawaban. Saya berharap saya akhirnya berhasil memberikan pernyataan matematika yang tepat, yang menghindari saya di versi sebelumnya.


@mpiktas, Itu beberapa notasi yang menarik di sana (saya tahu itu bukan milik Anda). SEBUAHw di sisi kiri dan y dan xdi sisi kanan. saya menebakw=(x,y)atau semacam itu. Juga, saya mengasumsikan kuadrat seharusnya terjadiy-m(x,θ) dan bukan hanya untuk m(x,θ). Tidak?
kardinal

@mpiktas, saya tidak cukup yakin bagaimana menafsirkan kalimat pertama Anda karena kata-kata. Saya dapat melihat dua cara, yang saya sebut benar dan yang lain tidak. Juga, sebenarnya, saya tidak setuju dengan kalimat kedua di paragraf pertama Anda. Seperti yang telah saya perlihatkan di atas, adalah mungkin untuk berada pada minimum lokal di bagian dalam ruang parameter tanpa Hessian menjadi positif pasti.
kardinal

@ kardinal, ya Anda benar. Wooldridge menggunakanw untuk alasan konsistensi, y dan xdicadangkan untuk tanggapan dan prediksi di seluruh buku ini. Dalam contoh iniw=(x,y).
mpiktas

@ kardinal, saya memperbaiki kata-kata saya. Sekarang harusnya ok. Terima kasih telah menunjukkan masalahnya.
mpiktas

@mptikas. Baik Wooldridge maupun saya tidak mengklaim bahwa Hessian pasti positif di mana-mana. Klaim saya adalah bahwa untuk interior maksimum Hessian empiris harus semidefinit positif sebagai syarat yang diperlukan agar fungsi halus mencapai maksimum. Wooldridge tampaknya mengatakan sesuatu yang berbeda.
Jyotirmoy Bhattacharya

3

Goni itu tidak terbatas pada titik pelana. Ada kemungkinan bahwa ini mungkin satu-satunya titik stasioner di interior ruang parameter.

Pembaruan: Biarkan saya uraikan. Pertama, mari kita asumsikan bahwa Goni empiris ada di mana-mana.

Jika θ^n adalah minimum lokal (atau bahkan global) dari sayaq(wsaya,) dan di bagian dalam ruang parameter (diasumsikan sebagai set terbuka) maka harus Hessian (1/N)sayaH(wsaya,θ^n)adalah semidefinit positif. Jika tidak, makaθ^nbukan minimum lokal. Ini mengikuti dari kondisi optimalitas urutan kedua - secara lokalsayaq(wsaya,) tidak boleh menurun ke arah mana pun yang jauh dari θ^n.

Salah satu sumber kebingungan mungkin definisi "berfungsi" dari suatu penaksir-M. Meskipun pada prinsipnya penduga-M harus didefinisikan sebagaiargminθsayaq(wsaya,θ), mungkin juga didefinisikan sebagai solusi untuk persamaan

0=sayaq˙(wsaya,θ),
dimana q˙ adalah gradien dari q(w,θ) dengan hormat θ. Ini kadang-kadang disebutΨ-Tipe. Dalam kasus terakhir solusi dari persamaan itu tidak harus minimum lokal. Ini bisa menjadi titik pelana dan dalam hal ini Goni akan menjadi tidak terbatas.

Secara praktis, bahkan Hessian pasti positif yang hampir tunggal atau dikondisikan buruk akan menyarankan bahwa estimator miskin dan Anda harus lebih khawatir daripada memperkirakan variansnya.


dapatkah Anda mengadaptasi jawaban Anda sehingga cocok dengan notasi pertanyaan? Untuk apax2-y2merujuk? Di mana ini dimasukkan ke dalam persamaan yang diberikan dalam pertanyaan?
probabilityislogic

+1 Poin bagus dalam pembaruan, terutama paragraf terakhir. Ketika Goni tersedia - seperti yang secara implisit diasumsikan dalam diskusi ini - seseorang akan secara otomatis menggunakan kepastian positifnya sebagai salah satu kriteria untuk menguji setiap titik kritis dan oleh karena itu masalah ini tidak dapat muncul. Hal ini membuat saya percaya bahwa kutipan Wooldridge harus menyangkut Hessian pada tingkat minimum global, bukan pada titik kritis belaka.
whuber

1

Ada banyak pemukulan di utas ini tentang apakah Goni harus positif (semi) pasti pada minimum lokal. Jadi saya akan membuat pernyataan yang jelas tentang itu.

Menganggap fungsi obyektif dan semua fungsi kendala dua kali terus menerus dapat dibedakan, maka pada tingkat minimum lokal apa pun, Goni Lagrangian yang diproyeksikan ke ruang nol Jacobian dari batasan aktif harus semidefinit positif. Yaitu, jikaZ adalah dasar untuk ruang kosong dari Jacobian dari batasan aktif ZT(Goni Lagrangian)Zharus semidefinit positif. Ini harus positif pasti untuk minimum lokal yang ketat.

Jadi Hessian dari fungsi tujuan dalam masalah terbatas yang memiliki kendala aktif tidak perlu semidefinite positif jika ada kendala aktif.

Catatan:

1) Kendala aktif terdiri dari semua kendala kesetaraan, ditambah kendala ketidaksetaraan yang dipenuhi dengan kesetaraan.

2) Lihat definisi Lagrangian di https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .

3) Jika semua kendala linier, maka Hessian dari Lagrangian = Hessian dari fungsi tujuan karena turunan ke-2 dari fungsi linear adalah nol. Tetapi Anda masih perlu melakukan jazz proyeksi jika ada kendala yang aktif. Perhatikan bahwa kendala batas bawah atau atas adalah kasus-kasus tertentu dari kendala ketimpangan linear. Jika satu-satunya kendala yang aktif adalah batasan terikat, proyeksi Hessian ke dalam ruang nol Jacobian dari batasan aktif sama dengan menghilangkan baris dan kolom Hessian yang sesuai dengan komponen-komponen pada batasnya.

4) Karena pengali Lagrange dari batasan tidak aktif adalah nol, jika tidak ada batasan aktif, Hessian dari Lagrangian = Hessian dari fungsi tujuan, dan matriks Identity adalah dasar untuk ruang kosong dari Jacobian dari batasan aktif, yang hasil dalam penyederhanaan kriteria menjadi kondisi umum bahwa Goni fungsi objektif menjadi semidefinit positif minimum lokal (positif pasti jika minimum lokal ketat).


0

Jawaban positif di atas adalah benar tetapi mereka meninggalkan asumsi identifikasi penting - jika model Anda tidak diidentifikasi (atau jika hanya ditetapkan diidentifikasi) Anda mungkin memang, seperti yang ditunjukkan oleh Wooldridge, menemukan diri Anda dengan Hessian empiris non-PSD. Jalankan saja beberapa model psikometrik / ekonometrik non-mainan dan lihat sendiri.


Karena ini tampaknya tidak mungkin secara matematis, dapatkah Anda menawarkan contoh yang sederhana dan jelas untuk menunjukkan bagaimana Hessian dari fungsi obyektif yang dapat didiferensiasikan dua kali dapat gagal menjadi PSD pada minimum global?
whuber
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.