Apa arti dari “Semua model salah, tetapi ada yang berguna”


76

"Pada dasarnya, semua model salah, tetapi beberapa berguna."

--- Box, George EP; Norman R. Draper (1987). Permukaan Model-Bangunan dan Permukaan Respons, p. 424, Wiley. ISBN 0471810339.

Apa sebenarnya arti frasa di atas?


13
Di buku yang sama disebutkan sebelumnya: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.Mungkin ini lebih bermanfaat.
usεr11852 mengatakan Reinstate Monic

Jawaban:


101

Saya pikir maknanya paling baik dianalisis dengan melihatnya dalam dua bagian:

"Semua model salah" yaitu, setiap model salah karena itu adalah penyederhanaan kenyataan. Beberapa model, terutama dalam ilmu "keras", hanya sedikit salah. Mereka mengabaikan hal-hal seperti gesekan atau efek gravitasi dari tubuh kecil. Model-model lain banyak yang salah - mereka mengabaikan hal-hal yang lebih besar. Dalam ilmu sosial, kami banyak mengabaikan.

"Tapi ada yang berguna" - penyederhanaan realitas bisa sangat berguna. Mereka dapat membantu kita menjelaskan, memprediksi, dan memahami alam semesta dan semua komponennya yang beragam.

Ini tidak hanya benar dalam statistik! Peta adalah jenis model; mereka salah. Namun peta yang baik sangat berguna. Contoh-contoh dari model lain yang bermanfaat tetapi salah berlimpah.


20
+1 Karena saya menyukai analogi peta. Saya akan menggunakannya di masa depan!
usεr11852 mengatakan Reinstate Monic

4
Banyak model dalam ilmu "keras" juga cukup jauh (kemarin saya menghadiri sebuah seminar di mana pengukuran di mana model berada di dalam errorbar, tetapi errorbar adalah dua urutan besarnya).
gerrit

7
+1. Saya pikir kalimat kunci Anda adalah "setiap model salah karena itu adalah penyederhanaan kenyataan". Orang sering melupakan ini - misalnya dalam kritik naif terhadap ekonomi (saya punya kritik sendiri, tetapi mereka harus lebih canggih daripada hanya bahwa "kenyataan lebih kompleks daripada model Anda"). Jika kami tidak menyederhanakannya, Anda memiliki realitas mentah, yang terlalu rumit untuk kami pahami. Jadi kita harus menyederhanakannya untuk mendapatkan wawasan apa pun.
Peter Ellis

13
Fantasi peta sempurna pada skala 1: 1 telah digunakan oleh banyak penulis, termasuk Lewis Carroll, Jorge Luis Borges dan Umberto Eco. Ini sebenarnya tidak ada gunanya karena itu hanya akan menjadi rumit karena area yang dipetakan dan tidak mudah untuk dipahami (belum lagi kecanggungan membuka dan meletakkannya untuk dibaca).
Nick Cox

2
Mungkin Anda juga dapat menambahkan bahwa model harus sedikit salah, karena jika tidak maka tidak akan digeneralisasi dan karenanya tidak dapat diterapkan di tempat lain. Ada beberapa jawaban yang mengatakan ini lebih jauh ke bawah. Tetapi sekarang ada terlalu banyak jawaban untuk membaca semuanya.
ziggystar

9

Ini berarti wawasan yang berguna dapat diberikan dari model yang bukan merupakan representasi sempurna dari fenomena yang mereka modelkan.

Model statistik adalah deskripsi sistem yang menggunakan konsep matematika. Dengan demikian dalam banyak kasus Anda menambahkan lapisan abstraksi tertentu untuk memfasilitasi prosedur inferensial Anda (mis. Normalitas kesalahan pengukuran, simetri gabungan dalam struktur korelasi, dll.). Hal ini hampir mustahil untuk model tunggal untuk menggambarkan sempurna fenomena dunia nyata diberikan diri kita memiliki pandangan subjektif dari dunia (sistem sensorik kita tidak sempurna); namun kesimpulan statistik yang berhasil memang terjadi karena dunia kita memang memiliki tingkat konsistensi tertentu yang kita eksploitasi. Jadi model kami yang hampir selalu salah terbukti berguna .

(Saya yakin Anda akan segera mendapatkan jawaban yang berani, tetapi saya mencoba untuk menjelaskannya!)


Bisakah kita mengatakan bahwa model yang berguna ini memberikan solusi perkiraan?
gpuguy

2
@ gpuguy: Tentu Anda bisa. Mengutip John Tukey: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.(Saya sebenarnya mengutip hal JT sangat luar biasa.)
usεr11852 mengatakan Reinstate Monic

6
"Jauh lebih baik jawaban perkiraan untuk pertanyaan yang benar, yang seringkali tidak jelas, daripada jawaban yang tepat untuk pertanyaan yang salah, yang selalu dapat dibuat tepat." John W. Tukey 1962 Masa depan analisis data. Annals of Statistics Matematika 33: 1-67 (lihat hal.13-14) Tidak diragukan lagi dia mengatakan hal yang sama di waktu lain, tetapi itulah sumber yang biasa.
Nick Cox

Saya c-p'ed kutipan langsung dari utas kutipan CV yang relevan.
usεr11852 mengatakan Reinstate Monic

6
Saya menyalin milik saya dari publikasi asli.
Nick Cox

6

Saya menemukan ceramah JSA 2009 ini oleh Thad Tarpey untuk memberikan penjelasan dan komentar yang bermanfaat tentang petikan Box. Dia berpendapat bahwa jika kita menganggap model sebagai perkiraan kebenaran, kita bisa dengan mudah memanggil semua model dengan benar.

Inilah abstraknya:

Siswa statistik sering diperkenalkan dengan kutipan terkenal George Box: "semua model salah, ada yang berguna." Dalam pembicaraan ini saya berpendapat bahwa kutipan ini, meskipun bermanfaat, salah. Perspektif yang berbeda dan lebih positif adalah untuk mengakui bahwa model hanyalah sarana mengekstraksi informasi yang menarik dari data. Kebenaran itu sangat kompleks dan sebuah model hanyalah perkiraan terhadap kebenaran. Jika pendekatannya buruk atau menyesatkan, maka modelnya tidak berguna. Dalam pembicaraan ini saya memberikan contoh model yang benar yang bukan model yang benar. Saya mengilustrasikan bagaimana gagasan tentang model yang "salah" dapat mengarah pada kesimpulan yang salah.


3

Bagi saya wawasan yang sebenarnya terletak pada aspek berikut:

Model tidak harus benar untuk menjadi berguna.

Sayangnya dalam banyak ilmu sering dilupakan bahwa model tidak perlu representasi yang tepat dari kenyataan untuk memungkinkan penemuan dan prediksi baru!

Jadi jangan buang waktu Anda membangun model yang rumit yang membutuhkan pengukuran yang akurat dari berbagai variabel. Jenius sejati menciptakan model sederhana yang melakukan pekerjaan.


3

Sebuah model tidak dapat memberikan prediksi akurat 100% jika ada keacakan hasil. Jika tidak ada ketidakpastian, tidak ada keacakan, dan tidak ada kesalahan, maka itu akan dianggap sebagai fakta daripada model. Yang pertama sangat penting, karena model sering digunakan untuk memodelkan harapan peristiwa yang belum terjadi. Ini hampir menjamin bahwa ada beberapa ketidakpastian tentang peristiwa nyata.

Dengan informasi yang sempurna, secara teori dimungkinkan untuk membuat model yang memberikan prediksi sempurna untuk peristiwa yang diketahui dengan tepat. Namun, bahkan mengingat keadaan yang tidak lazim ini, model seperti itu mungkin sangat kompleks sehingga secara komputasi tidak layak untuk digunakan, dan mungkin hanya akurat pada saat tertentu ketika faktor-faktor lain mengubah bagaimana nilai berubah dengan peristiwa.

Karena ketidakpastian dan keacakan hadir di sebagian besar data dunia nyata, upaya untuk mendapatkan model yang sempurna adalah latihan yang sia-sia. Sebaliknya, itu lebih berharga untuk melihat mendapatkan model yang cukup akurat yang cukup sederhana untuk dapat digunakan baik dari segi data dan perhitungan yang diperlukan untuk penggunaannya. Sementara model-model ini diketahui tidak sempurna, beberapa kelemahan ini sudah dikenal luas dan dapat dipertimbangkan untuk pengambilan keputusan berdasarkan model-model tersebut.

Model yang lebih sederhana mungkin tidak sempurna, tetapi mereka juga lebih mudah untuk dipertimbangkan, dibandingkan satu sama lain, dan mungkin lebih mudah untuk dikerjakan karena mereka cenderung kurang menuntut komputasi.


3

Kalau boleh, dari satu komentar saja semoga bermanfaat. Versi prase yang saya sukai adalah

(...) semua model adalah perkiraan. Intinya, semua model salah, tetapi ada juga yang berguna (...)

diambil dari Respons Permukaan, Campuran, dan Analisis Ridge oleh Box and Draper (2007, hal. 414, Wiley). Melihat kutipan yang diperluas, lebih jelas apa yang dimaksud Box - pemodelan statistik adalah tentang mendekati kenyataan dan perkiraan tidak pernah tepat, jadi ini adalah tentang menemukan perkiraan yang paling tepat . Apa yang sesuai untuk tujuan Anda adalah hal yang subyektif, itu sebabnya itu bukan salah satu model yang berguna, tetapi mungkin beberapa dari mereka, tergantung pada tujuan pemodelan.


3

Karena tidak ada yang menambahkannya, George Box menggunakan fase yang dikutip untuk memperkenalkan bagian berikut dalam sebuah buku. Saya percaya dia melakukan pekerjaan terbaik untuk menjelaskan apa yang dia maksud:

PV=RTPVTR

Untuk model seperti itu tidak perlu mengajukan pertanyaan "Apakah model itu benar?". Jika "kebenaran" ingin menjadi "seluruh kebenaran" jawabannya haruslah "Tidak". Satu-satunya pertanyaan yang menarik adalah "Apakah modelnya menerangi dan bermanfaat?".

Box, GEP (1979), "Kuat dalam strategi membangun model ilmiah", di Launer, RL; Wilkinson, GN, Robustness in Statistics , Academic Press, hlm. 201–236.


2

Anda mungkin berpikir seperti ini. kompleksitas maksimum (yaitu, entropi) dari suatu objek mematuhi beberapa bentuk dari batas Bekenstein :

I2πREcln2

ER

Itu angka yang besar, dalam banyak kasus:

2.58991·1042Ω=2I107.79640·1041

Jadi, apakah Anda ingin menggunakan "peta terbaik", yaitu wilayah itu sendiri, dengan semua persamaan gelombang untuk semua partikel di setiap sel? Benar-benar tidak. Tidak hanya itu akan menjadi bencana komputasi, tetapi Anda akan membuat model hal-hal yang pada dasarnya tidak ada hubungannya dengan apa yang Anda pedulikan. Jika semua yang ingin Anda lakukan adalah, katakanlah, identifikasi apakah saya bangun atau tidak, Anda tidak perlu tahu apa yang dilakukan elektron # 32458 dalam neuron # 844030 ribosome # 2305 molekul # 2. Jika Anda tidak membuat model itu, model Anda memang "salah," tetapi jika Anda dapat mengidentifikasi apakah saya bangun atau tidak, model Anda pasti berguna.


2

Saya pikir Peter dan user11852 memberikan jawaban yang bagus. Saya juga akan menambahkan (dengan negasi) bahwa jika sebuah model benar-benar bagus, mungkin akan sia-sia karena overfitting (karenanya, tidak dapat digeneralisasikan).


2
+1 untuk titik overfitting. Algoritma seperti Naive Bayes dan analisis diskriminan linier seringkali bekerja dengan sangat baik, bahkan jika Anda tahu model yang mendasarinya salah (mis. Penyaringan spam), hanya karena lebih sedikit data yang diperlukan untuk memperkirakan parameter.
Dikran Marsupial

1

Interpretasi asam saya adalah: Percaya bahwa model matematika menggambarkan dengan tepat semua faktor, dan interaksinya, yang mengatur fenomena yang menarik akan terlalu sederhana dan sombong. Kita bahkan tidak tahu apakah logika yang kita gunakan sudah cukup untuk memahami alam semesta kita. Namun, beberapa model matematika mewakili perkiraan yang cukup baik (dalam hal metode ilmiah) yang berguna untuk menarik kesimpulan tentang fenomena tersebut.


1

Sebagai seorang ahli astrostatistik (mungkin jenis langka), saya menganggap ketenaran diktum Box sangat disayangkan. Dalam ilmu fisika, kita sering memiliki konsensus yang kuat untuk memahami proses yang mendasari fenomena yang diamati, dan proses ini sering dapat dinyatakan oleh model matematika yang timbul dari hukum gravitasi, mekanika kuantum, termodinamika, dll. Tujuan statistik adalah memperkirakan parameter model terbaik-fit sifat fisik, serta pemilihan model dan validasi. Kasus dramatis baru-baru ini muncul dari rilis makalah Maret 2013 dari satelit Planck dari Badan Antariksa EropaPengukuran latar belakang gelombang mikro kosmik yang secara meyakinkan membentuk model 6-parameter `LambdaCDM 'sederhana untuk Big Bang. Saya ragu bahwa diktum Box akan berlaku di mana saja dalam berbagai metode statistik canggih yang digunakan dalam 29 makalah ini.


1

Saya baru saja mengulangi jawaban di atas dengan mempertimbangkan model proses sebagai titik fokus. Pernyataan tersebut dapat diartikan sebagai berikut:

"Semua model salah" yaitu, setiap model salah karena itu adalah penyederhanaan kenyataan. Beberapa model hanya sedikit salah. Mereka mengabaikan beberapa hal, Misalnya: -> mengubah persyaratan, -> Mengabaikan penyelesaian proyek dalam tenggat waktu, -> tidak mempertimbangkan tingkat kualitas yang diinginkan pelanggan dll ... Model lain banyak yang salah - mereka mengabaikan hal yang lebih besar. Model proses perangkat lunak klasik mengabaikan banyak dibandingkan dengan model Proses gesit yang mengabaikan kurang.

"Tapi ada yang berguna" - penyederhanaan realitas bisa sangat berguna. Mereka dapat membantu kami menjelaskan, memprediksi, dan memahami keseluruhan proyek dan berbagai komponennya. Model digunakan karena fitur-fiturnya sesuai dengan sebagian besar program pengembangan perangkat lunak.


0

Saya ingin memberikan interpretasi lain dari istilah "berguna". Mungkin bukan satu-satunya Box yang dipikirkan.

Ketika Anda harus membuat keputusan, dan inilah yang akhirnya semua informasi akan digunakan, maka Anda harus mengukur kesuksesan Anda dalam beberapa bentuk. Ketika berbicara tentang keputusan dengan informasi yang tidak pasti, ukuran ini sering disebut utilitas.

Jadi kita juga bisa menganggap model yang berguna sebagai model yang memungkinkan kita membuat keputusan yang lebih tepat; untuk mencapai tujuan kami dengan lebih efektif.

Ini menambahkan dimensi lain di atas kriteria biasa, seperti kemampuan model untuk memprediksi sesuatu dengan benar: Ini memungkinkan kita untuk menimbang aspek yang berbeda dari model yang saling bertentangan.


-2

"Semua model salah, tetapi beberapa berguna". Mungkin itu berarti: Kita harus melakukan yang terbaik yang kita bisa dengan + yang kita ketahui + mencari pembelajaran baru?


4
(-1) Bisakah Anda memberikan referensi yang menunjukkan bahwa Kotak GEP bermaksud seperti itu? Seperti yang dapat Anda temukan dari jawaban lain, maksudnya adalah sesuatu yang sangat berbeda.
Tim

OP mungkin mengambil kutipan dan memberinya interpretasi baru. Saya setuju dengan Tim bahwa Box kurang lebih mengatakan tidak menganggap model itu sebagai interpretasi yang tepat atas kenyataan, tetapi mengakui bahwa beberapa model dapat menggambarkan data dengan baik.
Michael Chernick
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.