1. PROBABILITAS YANG TIDAK PERLU.
Dua bagian selanjutnya dari catatan ini menganalisis masalah "tebak mana yang lebih besar" dan "dua amplop" menggunakan alat standar teori keputusan (2). Pendekatan ini, meskipun sederhana, tampaknya baru. Secara khusus, ini mengidentifikasi seperangkat prosedur keputusan untuk masalah dua amplop yang terbukti lebih unggul daripada prosedur "selalu beralih" atau "tidak pernah beralih".
Bagian 2 memperkenalkan terminologi, konsep, dan notasi (standar). Ini menganalisis semua prosedur keputusan yang mungkin untuk "tebak yang merupakan masalah yang lebih besar." Pembaca yang akrab dengan materi ini mungkin ingin melewati bagian ini. Bagian 3 menerapkan analisis yang mirip dengan masalah dua amplop. Bagian 4, kesimpulan, merangkum poin-poin utama.
Semua analisis yang dipublikasikan dari teka-teki ini mengasumsikan ada distribusi probabilitas yang mengatur kemungkinan keadaan alamiah. Asumsi ini, bagaimanapun, bukan bagian dari pernyataan puzzle. Gagasan kunci untuk analisis ini adalah bahwa menjatuhkan asumsi (tidak beralasan) ini mengarah pada resolusi sederhana dari paradoks yang tampak dalam teka-teki ini.
2. MASALAH “Tebak YANG LEBIH BESAR”.
Eksperimen diberi tahu bahwa bilangan real yang berbeda dan x 2 ditulis pada dua lembar kertas. Dia melihat nomor pada slip yang dipilih secara acak. Berdasarkan hanya pada satu pengamatan ini, dia harus memutuskan apakah itu lebih kecil atau lebih besar dari dua angka.x1x2
Masalah sederhana tapi terbuka seperti ini tentang probabilitas terkenal karena membingungkan dan kontra-intuitif. Secara khusus, setidaknya ada tiga cara berbeda di mana probabilitas memasuki gambaran. Untuk memperjelas ini, mari kita mengadopsi sudut pandang eksperimental formal (2).
Mulailah dengan menentukan fungsi kerugian . Tujuan kami adalah untuk meminimalkan harapannya, dalam arti yang akan didefinisikan di bawah ini. Pilihan yang baik adalah membuat kerugian sama dengan ketika eksperimen menebak dengan benar dan 0 sebaliknya. Ekspektasi fungsi kerugian ini adalah kemungkinan tebakan yang salah. Secara umum, dengan menetapkan berbagai hukuman untuk tebakan yang salah, fungsi kerugian menangkap tujuan menebak dengan benar. Yang pasti, mengadopsi fungsi kerugian sama sewenang-wenangnya dengan mengasumsikan distribusi probabilitas sebelumnya pada x 1 dan x 210x1x2, tetapi lebih alami dan mendasar. Ketika kita dihadapkan pada pengambilan keputusan, secara alami kita mempertimbangkan konsekuensi dari benar atau salah. Jika tidak ada konsekuensinya, lalu mengapa peduli? Kami secara implisit melakukan pertimbangan potensi kerugian setiap kali kami membuat keputusan (rasional) dan karenanya kami mendapat manfaat dari pertimbangan kerugian yang eksplisit, sedangkan penggunaan probabilitas untuk menggambarkan nilai-nilai yang mungkin pada slip kertas tidak perlu, buatan, dan - sebagai kita akan melihat - dapat mencegah kita dari mendapatkan solusi yang berguna.
Teori keputusan memodelkan hasil pengamatan dan analisis kami terhadap mereka. Ini menggunakan tiga objek matematika tambahan: ruang sampel, satu set "keadaan alamiah," dan prosedur keputusan.
Ruang sampel terdiri dari semua pengamatan yang mungkin; di sini dapat diidentifikasi dengan R (himpunan bilangan real). SR
Keadaan alamiah adalah distribusi probabilitas yang memungkinkan yang mengatur hasil eksperimen. (Ini adalah pengertian pertama di mana kita dapat berbicara tentang "probabilitas" suatu peristiwa.) Dalam masalah "tebak yang lebih besar", ini adalah distribusi diskrit yang mengambil nilai pada bilangan real yang berbeda x 1 dan x 2 dengan probabilitas yang sama dari 1Ωx1x2 pada setiap nilai. Ω dapat diparameterisasi dengan{ω=(x1,x2)∈R×R| x1>x2}.12Ω{ω=(x1,x2)∈R×R | x1>x2}.
Ruang keputusan adalah himpunan biner dari kemungkinan keputusan.Δ={smaller,larger}
Dalam istilah ini, fungsi kerugian adalah fungsi bernilai riil yang didefinisikan pada . Ini memberi tahu kita seberapa buruk keputusan itu (argumen kedua) dibandingkan dengan kenyataan (argumen pertama).Ω×Δ
The paling prosedur keputusan umum tersedia untuk eksperimen adalah acak satu: nilai untuk setiap hasil eksperimen adalah distribusi probabilitas pada Δ . Yaitu, keputusan yang diambil pada mengamati hasil x tidak selalu pasti, tetapi harus dipilih secara acak sesuai dengan distribusi δ ( x ) . (Ini adalah cara kedua di mana kemungkinan terlibat.)δΔxδ(x)
Ketika hanya memiliki dua elemen, prosedur acak apa pun dapat diidentifikasi dengan probabilitas yang diberikannya pada keputusan yang ditentukan sebelumnya, yang konkretnya kita anggap “lebih besar”. Δ
Pemintal fisik mengimplementasikan prosedur acak biner seperti itu: penunjuk pemintalan bebas akan berhenti di area atas, sesuai dengan satu keputusan dalam , dengan probabilitas δ , dan sebaliknya akan berhenti di area kiri bawah dengan probabilitas 1 - δ ( x ) . Spinner sepenuhnya ditentukan dengan menentukan nilai δ ( x ) ∈ [ 0 , 1 ] .Δδ1−δ(x)δ(x)∈[0,1]
Dengan demikian prosedur pengambilan keputusan dapat dianggap sebagai suatu fungsi
δ′:S→[0,1],
dimana
Prδ(x)(larger)=δ′(x) and Prδ(x)(smaller)=1−δ′(x).
Sebaliknya, fungsi tersebut menentukan prosedur keputusan acak. Keputusan acak termasuk keputusan deterministik dalam kasus khusus di mana kisaran δ ′ terletak pada { 0 , 1 } .δ′δ′{0,1}
Katakanlah bahwa biaya prosedur keputusan untuk hasil x adalah kerugian yang diharapkan dari δ ( x ) . Harapannya adalah sehubungan dengan distribusi probabilitas δ ( x ) pada ruang keputusan Δ . Setiap keadaan alami ω (yang, ingat, adalah distribusi probabilitas Binomial pada ruang sampel S ) menentukan biaya yang diharapkan dari setiap prosedur δ ; ini adalah resiko dari δ untuk ω , Risiko δ ( ω )δxδ(x)δ(x)ΔωSδδωRiskδ(ω). Di sini, harapan diambil sehubungan dengan keadaan alam .ω
Prosedur pengambilan keputusan dibandingkan dalam hal fungsi risikonya. Ketika keadaan alam benar-benar tidak diketahui, dan δ adalah dua prosedur, dan Risiko ε ( ω ) ≥ Risiko δ ( ω ) untuk semua ω , maka tidak ada gunanya menggunakan prosedur ε , karena prosedur δ tidak pernah lebih buruk ( dan mungkin lebih baik dalam beberapa kasus). Prosedur seperti itu ε tidak dapat diterimaεδRiskε(ω)≥Riskδ(ω)ωεδε; jika tidak, itu bisa diterima. Seringkali ada banyak prosedur yang dapat diterima. Kami akan menganggap salah satu dari mereka “baik” karena tidak satu pun dari mereka dapat secara konsisten dikalahkan oleh beberapa prosedur lain.
Perhatikan bahwa tidak ada distribusi sebelumnya yang diperkenalkan pada ("strategi campuran untuk C " dalam terminologi (1)). Ini adalah cara ketiga di mana probabilitas dapat menjadi bagian dari pengaturan masalah. Menggunakannya membuat analisis ini lebih umum daripada analisis (1) dan rujukannya, namun lebih sederhana.ΩC
Tabel 1 mengevaluasi risiko ketika keadaan sebenarnya diberikan oleh ω=(x1,x2). Ingat bahwa x1>x2.
Tabel 1.
Decision:Outcomex1x2Probability1/21/2LargerProbabilityδ′(x1)δ′(x2)LargerLoss01SmallerProbability1−δ′(x1)1−δ′(x2)SmallerLoss10Cost1−δ′(x1)1−δ′(x2)
Risk(x1,x2): (1−δ′(x1)+δ′(x2))/2.
Dalam istilah ini masalah "tebak yang lebih besar" menjadi
Mengingat Anda tidak tahu apa-apa tentang dan x 2 , kecuali mereka berbeda, dapatkah Anda menemukan prosedur pengambilan keputusan δ yang risikonya [ 1 - δ ′ ( maks ( x 1 , x 2 ) ) + δ ′ ( min ( x ( 1 , x 2 ) ) ] / 2 pastinya kurang dari 1x1x2δ[1–δ′(max(x1,x2))+δ′(min(x1,x2))]/2 ?12
Pernyataan ini setara dengan mengharuskan setiap kali x > y . Oleh karena itu, perlu dan cukup untuk prosedur keputusan eksperimen yang akan ditentukan oleh beberapa fungsi yang benar-benar meningkat δ ′ : S → [ 0 , 1 ] . Serangkaian prosedur ini mencakup, tetapi lebih besar dari, semua "strategi campuran Q " dari 1 . Ada banyak sekaliδ′(x)>δ′(y)x>y.δ′:S→[0,1].Q prosedur keputusan acak yang lebih baik daripada prosedur tidak acak!
3. MASALAH “DUA ENVELOPE”.
Sangat menggembirakan bahwa analisis langsung ini mengungkapkan sejumlah besar solusi untuk masalah "tebak yang lebih besar", termasuk yang baik yang belum diidentifikasi sebelumnya. Mari kita lihat apa yang bisa diungkapkan oleh pendekatan yang sama tentang masalah lain sebelum kita, masalah "dua amplop" (atau "masalah kotak," seperti yang kadang-kadang disebut). Ini menyangkut permainan yang dimainkan dengan memilih secara acak salah satu dari dua amplop, yang salah satunya diketahui memiliki uang dua kali lebih banyak daripada yang lain. Setelah membuka amplop dan mengamati jumlah x uang di dalamnya, pemain memutuskan apakah akan menyimpan uang di dalam amplop yang belum dibuka (untuk "beralih") atau untuk menyimpan uang dalam amplop yang terbuka. Orang akan berpikir bahwa beralih dan tidak beralih akan menjadi strategi yang sama-sama dapat diterima, karena pemain sama tidak pasti mengenai amplop mana yang berisi jumlah yang lebih besar. Paradoksnya adalah bahwa beralih tampaknya menjadi pilihan yang unggul, karena menawarkan alternatif yang "sama-sama memungkinkan" antara hadiah dan x / 2 , yang nilai harapan 5 x / 4 melebihi nilai dalam amplop yang dibuka. Perhatikan bahwa kedua strategi ini bersifat deterministik dan konstan.2xx/2,5x/4
Dalam situasi ini, kita dapat menulis secara resmi
SΩΔ={x∈R | x>0},={Discrete distributions supported on {ω,2ω} | ω>0 and Pr(ω)=12},and={Switch,Do not switch}.
Seperti sebelumnya, prosedur keputusan apa pun dapat dianggap sebagai fungsi dari S ke [ 0 , 1 ] , kali ini dengan mengaitkannya dengan kemungkinan tidak beralih, yang lagi-lagi dapat ditulis δ ′ ( x ) . Probabilitas switching tentu saja harus menjadi nilai komplementer 1 - δ ′ ( x ) .δS[0,1],δ′(x)1–δ′(x).
Kerugian, ditunjukkan pada Tabel 2 , adalah negatif dari hasil permainan. Ini adalah fungsi dari keadaan alami yang sebenarnya , hasil x (yang dapat berupa ω atau 2 ω ), dan keputusan, yang tergantung pada hasil.ωxω2ω
Meja 2.
Outcome(x)ω2ωLossSwitch−2ω−ωLossDo not switch−ω−2ωCost−ω[2(1−δ′(ω))+δ′(ω)]−ω[1−δ′(2ω)+2δ′(2ω)]
In addition to displaying the loss function, Table 2 also computes the cost of an arbitrary decision procedure δ. Because the game produces the two outcomes with equal probabilities of 12, the risk when ω is the true state of nature is
Riskδ(ω)=−ω[2(1−δ′(ω))+δ′(ω)]/2+−ω[1−δ′(2ω)+2δ′(2ω)]/2=(−ω/2)[3+δ′(2ω)−δ′(ω)].
A constant procedure, which means always switching (δ′(x)=0) or always standing pat (δ′(x)=1), will have risk −3ω/2. Any strictly increasing function, or more generally, any function δ′ with range in [0,1] for which δ′(2x)>δ′(x) for all positive real x, determines a procedure δ having a risk function that is always strictly less than −3ω/2 and thus is superior to either constant procedure, regardless of the true state of nature ω! The constant procedures therefore are inadmissible because there exist procedures with risks that are sometimes lower, and never higher, regardless of the state of nature.
Comparing this to the preceding solution of the “guess which is larger” problem shows the close connection between the two. In both cases, an appropriately chosen randomized procedure is demonstrably superior to the “obvious” constant strategies.
These randomized strategies have some notable properties:
There are no bad situations for the randomized strategies: no matter how the amount of money in the envelope is chosen, in the long run these strategies will be no worse than a constant strategy.
No randomized strategy with limiting values of 0 and 1 dominates any of the others: if the expectation for δ when (ω,2ω) is in the envelopes exceeds the expectation for ε, then there exists some other possible state with (η,2η) in the envelopes and the expectation of ε exceeds that of δ .
The δ strategies include, as special cases, strategies equivalent to many of the Bayesian strategies. Any strategy that says “switch if x is less than some threshold T and stay otherwise” corresponds to δ(x)=1 when x≥T,δ(x)=0 otherwise.
What, then, is the fallacy in the argument that favors always switching? It lies in the implicit assumption that there is any probability distribution at all for the alternatives. Specifically, having observed x in the opened envelope, the intuitive argument for switching is based on the conditional probabilities Prob(Amount in unopened envelope | x was observed), which are probabilities defined on the set of underlying states of nature. But these are not computable from the data. The decision-theoretic framework does not require a probability distribution on Ω in order to solve the problem, nor does the problem specify one.
This result differs from the ones obtained by (1) and its references in a subtle but important way. The other solutions all assume (even though it is irrelevant) there is a prior probability distribution on Ω and then show, essentially, that it must be uniform over S. That, in turn, is impossible. However, the solutions to the two-envelope problem given here do not arise as the best decision procedures for some given prior distribution and thereby are overlooked by such an analysis. In the present treatment, it simply does not matter whether a prior probability distribution can exist or not. We might characterize this as a contrast between being uncertain what the envelopes contain (as described by a prior distribution) and being completely ignorant of their contents (so that no prior distribution is relevant).
4. CONCLUSIONS.
In the “guess which is larger” problem, a good procedure is to decide randomly that the observed value is the larger of the two, with a probability that increases as the observed value increases. There is no single best procedure. In the “two envelope” problem, a good procedure is again to decide randomly that the observed amount of money is worth keeping (that is, that it is the larger of the two), with a probability that increases as the observed value increases. Again there is no single best procedure. In both cases, if many players used such a procedure and independently played games for a given ω, then (regardless of the value of ω) on the whole they would win more than they lose, because their decision procedures favor selecting the larger amounts.
In both problems, making an additional assumption-—a prior distribution on the states of nature—-that is not part of the problem gives rise to an apparent paradox. By focusing on what is specified in each problem, this assumption is altogether avoided (tempting as it may be to make), allowing the paradoxes to disappear and straightforward solutions to emerge.
REFERENCES
(1) D. Samet, I. Samet, and D. Schmeidler, One Observation behind Two-Envelope Puzzles. American Mathematical Monthly 111 (April 2004) 347-351.
(2) J. Kiefer, Introduction to Statistical Inference. Springer-Verlag, New York, 1987.
sum(p(X) * (1/2X*f(X) + 2X(1-f(X)) ) = X
, di mana f (X) adalah kemungkinan amplop pertama menjadi lebih besar, mengingat setiap X tertentu