Memecahkan persamaan Hamilton-Jacobi-Bellman; perlu dan cukup untuk optimalitas?

Pertimbangkan persamaan diferensial berikut mana adalah status dan sebagai variabel kontrol. Solusi diberikan oleh mana adalah status inital yang diberikan.

\begin{aligned} \dot{x} (t) = f (x (t), u (t)) \end{aligned}

$\begin{align} \dot x(t)=f(x(t),u(t)) \end{align}$

x

$x$

u

$u$

\begin{aligned} x (t) = x_{0} + \int_{0}^{t} f (x (s), u (s)) d s . \end{aligned}

$\begin{align} x(t)=x_0 + \int^t_0f(x(s),u(s))ds. \end{align}$

x_{0} := x (0)

$x_0:=x(0)$

Sekarang pertimbangkan program berikut mana menunjukkan preferensi waktu, adalah nilainya dan fungsi obyektif. Aplikasi ekonomi klasik adalah model pertumbuhan optimal Ramsey-Cass-Koopmans. Persamaan Hamilton-Jacobi-Bellman diberikan oleh

\begin{aligned} V (x_{0}) := max_{u} \int_{0}^{\infty} e^{- ρ t} F (x (t), u (t)) d t \\ s . t . & \dot{x} (t) = f (x (t), u (t)) \\ x (0) = x_{0} \end{aligned}

$\begin{align} &V(x_0) := \max_u \int^\infty_0 e^{-\rho t}F(x(t),u(t))dt\\ s.t.~&\dot x(t)=f(x(t),u(t))\\ &x(0) = x_0 \end{align}$

ρ > 0

$\rho > 0$

V (\cdot)

$V(\cdot)$

F (\cdot)

$F(\cdot)$

\begin{aligned} ρ V (x) = max_{u} [F (x, u) + V^{'} (x) f (x, u)], \forall t \in [0, \infty) . \end{aligned}

$\begin{align} \rho V(x)=\max_u [F(x,u) + V'(x)f(x,u)],\quad \forall t\in[0,\infty). \end{align}$

Katakanlah saya sudah memecahkan HJB untuk $V$ . Kontrol optimal kemudian diberikan oleh

\begin{aligned} u^{*} = \arg max_{u} [F (x, u) + V^{'} (x) f (x, u)] . \end{aligned}

$\begin{align} u^*=\arg\max_u [F(x,u) + V'(x)f(x,u)]. \end{align}$ Saya akan mendapatkan lintasan optimal untuk status dan mengontrol

{(x^{*} (t), u^{*} (t)) : t \in [0, \infty)}

$\{(x^*(t),u^*(t)):t\in[0,\infty)\}$ .

The wiki Artikel mengatakan

... tetapi ketika diselesaikan di seluruh ruang keadaan, persamaan HJB adalah kondisi yang diperlukan dan cukup untuk optimal.

Dalam Bertsekas (2005) Dinamis Pemrograman dan Kontrol Optimal , Vol 1, 3rd ed., Di Proposisi 3.2.1 ia menyatakan bahwa pemecahan untuk $V$ adalah optimal fungsi biaya-to-go dan terkait $u^*$ optimal. Namun, ia secara eksplisit menyatakannya sebagai teorema kecukupan.

Sebenarnya, saya hanya ingin memastikan, bahwa jika saya telah memecahkan HJB dan memulihkan keadaan terkait dan mengontrol lintasan, bahwa saya tidak perlu khawatir dengan kondisi optimalitas tambahan.

Larutan

Saya mencoba

Saya pikir saya bisa mendapatkan kondisi yang diperlukan dari prinsip maksimum dengan persamaan HJB itu sendiri.

Tentukan hamiltonian

\begin{aligned} H (x, u, V^{'} (x)) := F (x, u) + V^{'} (x) f (x, u) \end{aligned}

$\begin{align} H(x,u,V'(x)) := F(x,u) + V'(x)f(x,u) \end{align}$

maka kita memiliki

\begin{aligned} ρ V (x) = max_{u} H (x, u, V^{'} (x)) \end{aligned}

$\begin{align} \rho V(x)=\max_u H(x,u,V'(x)) \end{align}$

yaitu

\begin{aligned} ρ V (x) = H (x, u^{*}, V^{'} (x)) . \end{aligned}

$\begin{align} \rho V(x)= H(x,u^*,V'(x)). \end{align}$

Tentukan fungsi sembarang $q:[0,\infty)\to\mathbb{R}$ dengan $q(0)=\lim_{t\to\infty} q(t)=0$ . Sekarang perbaiki

\begin{aligned} x = x^{*} + ε q \end{aligned}

$\begin{align} x = x^*+\varepsilon q \end{align}$

di mana adalah parameter. Masukkan istilah ke dalam hamiltonian maksimal yang memberi $\varepsilon\in\mathbb{R}$

\begin{aligned} ρ V (x^{*} + ε q) = H (x^{*} + ε q, u^{*}, V^{'} (x^{*} + ε q)) . \end{aligned}

$\begin{align} \rho V(x^*+\varepsilon q)= H(x^*+\varepsilon q,u^*,V'(x^*+\varepsilon q)). \end{align}$

Pada kami memiliki solusi optimal. Jadi bedakan dengan untuk mendapatkan kondisi urutan pertama $\varepsilon = 0$ $\varepsilon$

\begin{aligned} ρ V^{'} q = H_{x} q + H_{V^{'}} V^{″} q . \end{aligned}

$\begin{align} \rho V'q = H_x q + H_{V'}V''q. \end{align}$

Sekarang tentukan variabel adjoint dengan

\begin{aligned} λ = V^{'} (x) . \end{aligned}

$\begin{align} \lambda = V'(x). \end{align}$

Bedakan dari waktu ke waktu

\begin{aligned} \dot{λ} = V^{″} \dot{x} . \end{aligned}

$\begin{align} \dot \lambda = V''\dot x. \end{align}$

dan perhatikan bahwa

\begin{aligned} H_{V^{'}} = f (x, u) = \dot{x} . \end{aligned}

$\begin{align} H_{V'} = f(x,u) = \dot x. \end{align}$

Tancapkan everthing ke foc yang memberikan

\begin{aligned} ρ λ = H_{x} + \dot{λ} . \end{aligned}

$\begin{align} \rho \lambda = H_x + \dot \lambda. \end{align}$

Cukup banyak. Jadi penyelesaian HJB memang perlu dan memadai (dihilangkan di sini) untuk optimalitas. Seseorang harus menambahkannya ke wiki. Mungkin menghemat waktu untuk orang-orang yang berpikir tentang masalah seperti itu (tidak akan banyak menurut saya).

Namun kondisi transversalitas hilang.

\begin{aligned} lim_{t \to \infty} e^{- ρ t} λ (t) = 0 \end{aligned}

$\begin{align} \lim_{t\to\infty} e^{-\rho t}\lambda(t) = 0 \end{align}$

II Mencoba

Tentukan fungsional hasil

\begin{aligned} J (u) := \int_{0}^{\infty} e^{- ρ t} F (x, u) d t \end{aligned}

$\begin{align} J(u):=\int^\infty_0 e^{-\rho t}F(x,u)dt \end{align}$

Perhatikan bahwa dengan definisi . Tambahkan Term netral ke pembayaran funtional

\begin{aligned} \int_{0}^{\infty} e^{- ρ t} λ [f (x, u) - \dot{x}] d t = 0 \end{aligned}

$\begin{align} \int^\infty_0{e^{-\rho t}\lambda[f(x,u) - \dot x]dt} = 0 \end{align}$

\dot{x} = f (x, u)

$\dot x = f(x,u)$

\begin{aligned} J (u) & = \int_{0}^{\infty} e^{- ρ t} [F (x, u) + λ f (x, u)] d t - \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t \\ = \int_{0}^{\infty} e^{- ρ t} H (x, u, λ) - \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t \end{aligned}

$\begin{align} J(u)&=\int^\infty_0 e^{-\rho t}[F(x,u)+\lambda f(x,u)]dt - \int^\infty_0{e^{-\rho t}\lambda\dot xdt}\\ &=\int^\infty_0 e^{-\rho t}H(x,u,\lambda) - \int^\infty_0{e^{-\rho t}\lambda\dot xdt} \end{align}$

Integrasi dengan bagian-bagian dari istilah yang tepat dan hasil rhs

\begin{aligned} \int_{0}^{\infty} e^{- ρ t} λ \dot{x} d t = [e^{- ρ t} λ (t) x (t)]_{0}^{\infty} - \int_{0}^{\infty} e^{- ρ t} x (\dot{λ} - ρ λ) d t \end{aligned}

$\begin{align} \int^\infty_0{e^{-\rho t}\lambda\dot xdt} = [e^{-\rho t}\lambda(t)x(t)]^\infty_0 - \int^\infty_0{e^{-\rho t}x(\dot \lambda-\rho\lambda)dt} \end{align}$

Ganti kembali istilah itu

\begin{aligned} J (u) = \int_{0}^{\infty} e^{- ρ t} [H (x, u, λ) + x (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) x (t) + λ (0) x (0) \end{aligned}

$\begin{align} J(u)=\int^\infty_0 e^{-\rho t}[H(x,u,\lambda) + x(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)x(t) + \lambda(0)x(0) \end{align}$

Tentukan

\begin{aligned} x & = x^{*} + ε q \\ u & = u^{*} + ε p \end{aligned}

$\begin{align} x &= x^*+\varepsilon q\\ u &= u^*+\varepsilon p \end{align}$

yang memberi

\begin{aligned} J (ε) = \int_{0}^{\infty} e^{- ρ t} [H (x^{*} + ε q, u^{*} + ε p, λ) + (x^{*} + ε q) (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) [x^{*} (t) + ε q (t)] + λ (0) x (0) \end{aligned}

$\begin{align} J(\varepsilon)=\int^\infty_0 e^{-\rho t}[H(x^*+\varepsilon q,u^*+\varepsilon p,\lambda) + (x^*+\varepsilon q)(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)[x^*(t)+\varepsilon q(t)] + \lambda(0)x(0) \end{align}$

FOC untuk maksimum $J_\varepsilon = 0$

\begin{aligned} J_{ε} = \int_{0}^{\infty} e^{- ρ t} [H_{x} q + H_{u} p + q (\dot{λ} - ρ λ)] d t - lim_{t \to \infty} e^{- ρ t} λ (t) q (t) = 0 \end{aligned}

$\begin{align} J_\varepsilon=\int^\infty_0 e^{-\rho t}[H_x q + H_u p + q(\dot \lambda-\rho\lambda)]dt - \lim_{t\to\infty}e^{-\rho t}\lambda(t)q(t) = 0 \end{align}$

Karena dan tidak dibatasi, kita harus memiliki $q$ $p$

\begin{aligned} H_{u} & = 0 \\ H_{x} & = ρ λ - \dot{λ} \\ lim_{t \to \infty} e^{- ρ t} λ (t) & = 0 \end{aligned}

$\begin{align} H_u &= 0\\ H_x &= \rho\lambda - \dot \lambda\\ \lim_{t\to\infty}e^{-\rho t}\lambda(t) &= 0 \end{align}$

mathematical-economics reference-request dynamic-programming

— tidak mengerti
sumber

Sudahkah Anda mengidentifikasi kondisi yang diperlukan dan cukup?

— Jamzy

Dalam konteks ekonomi apa ini muncul?

— Stan Shunpike

Model Ramsey misalnya cer.ethz.ch/resec/people/tsteger/Ramsey_Model.pdf

— clueless

Saya pikir utas ini lebih cocok untuk math.stackexchange.com karena tidak benar-benar terkait dengan econ. Mod dapat mentransfernya.

— tidak mengerti

Saya tidak yakin apa yang ditanyakan di sini: jika per Bertsekas menyelesaikan HJB sudah cukup , maka Anda tidak perlu "khawatir tentang kondisi optimalitas tambahan". "Cukup hanya" terhadap "perlu dan cukup" akan muncul jika HJB tidak terpecahkan - dalam hal ini orang akan mengatakan "ini tidak berarti bahwa tidak ada solusi". Omong-omong, Usaha Anda I dan II adalah konten yang berharga di sini - yang pertama menunjukkan tautan antara HJB dan Kontrol Optimal, yang kedua menunjukkan bagaimana FOC Kontrol Optimal dapat diturunkan.

— Alecos Papadopoulos

(Ini mungkin harus dianggap sebagai komentar.)

Jika Anda telah menyelesaikan persamaan HJB, itu sudah cukup untuk mendapatkan solusi optimal. Jadi Anda tidak "harus peduli dengan kondisi optimal lainnya," yang menurut saya tampaknya menjawab pertanyaan Anda.

Tampaknya Anda khawatir tentang komponen teorema yang "perlu". Sisi keharusan dari pernyataan tersebut adalah sebagai berikut: jika ada solusi optimal, harus ada solusi untuk persamaan HJB.

Saya belum bekerja dengan masalah khusus ini, tetapi jawabannya secara umum adalah bahwa kita tidak berharap memiliki fungsi terdiferensiasi V. Karenanya kita tidak memiliki solusi untuk persamaan seperti yang dinyatakan. Sebaliknya, kita perlu melihat turunan umum, dan mengubah persamaan HJB menjadi ketidaksetaraan. Dalam hal ini, Anda mungkin mendapatkan "solusi viskositas." Jika kami memperluas penggunaan derivatif umum, dimungkinkan untuk membuktikan bahwa solusi seperti itu selalu ada. Melirik bukti Anda, mereka tidak akan membantu pada kondisi kebutuhan, karena Anda mengasumsikan dapat dibedakan.

— Brian Romanchuk
sumber