Apa perbedaan antara prediksi dan kesimpulan?


37

Saya membaca " Pengantar Pembelajaran Statistik ". Dalam bab 2, mereka membahas alasan untuk memperkirakan fungsi .f

2.1.1 Mengapa Memperkirakan ?f

Ada dua alasan utama yang kami perkirakan untuk memperkirakan f : prediksi dan inferensi . Kami membahas masing-masing secara bergantian.

Saya sudah membacanya beberapa kali, tetapi saya masih belum jelas tentang perbedaan antara prediksi dan kesimpulan. Bisakah seseorang memberikan contoh (praktis) perbedaan?


5
Para penulis Pengantar Pembelajaran Statistik telah merugikan kami di sini. Seseorang membuat kesimpulan untuk membuat prediksi seperti halnya seseorang membuat kesimpulan untuk memahami sebab dan akibat. Merriam-webster.com mendefinisikan "menyimpulkan" pada prinsipnya sebagai "diturunkan sebagai kesimpulan dari fakta atau premis." Itu mencakup penalaran kausal dan prediksi. Ini menyesatkan, membingungkan, dan menentang penggunaan standar jangka panjang untuk mempersempit definisi "menyimpulkan" dengan hanya memasukkan masalah kausalitas. Jadi: mari kita kontraskan inferensi prediktif dengan inferensial kausal.
rolando2

2
@ rolando2: Maka saya kira kita juga perlu inferensi deskriptif , yaitu, inferensi tentang parameter dalam model deskriptif (non-kausal).
kjetil b halvorsen

Jawaban:


29

Inferensi: Diberikan seperangkat data yang ingin Anda simpulkan bagaimana output dihasilkan sebagai fungsi data.

Prediksi: Diberikan pengukuran baru, Anda ingin menggunakan set data yang ada untuk membangun model yang andal memilih pengidentifikasi yang benar dari serangkaian hasil.


Kesimpulan: Anda ingin mengetahui apa pengaruh Usia, Kelas Penumpang, dan Jenis Kelamin terhadap selamat dari Bencana Titanic. Anda dapat melakukan regresi logistik dan menyimpulkan efek masing-masing karakteristik penumpang pada tingkat kelangsungan hidup.

Prediksi: Diberikan beberapa informasi tentang penumpang Titanic, Anda ingin memilih dari himpunan dan koreksi sesering mungkin. (Lihat tradeoff varians bias untuk prediksi jika Anda bertanya-tanya bagaimana cara mengoreksi sesering mungkin.){hidup,mati}


Prediksi tidak berkisar pada membangun hubungan yang paling akurat antara input dan output, prediksi akurat peduli menempatkan pengamatan baru ke kelas yang tepat sesering mungkin.

Jadi 'contoh praktis' secara kasar bermuara pada perbedaan berikut: Diberikan satu set data penumpang untuk satu penumpang, pendekatan inferensi memberi Anda kemungkinan selamat, pengklasifikasi memberi Anda pilihan antara hidup atau mati.

Tuning classifier adalah topik yang sangat menarik dan krusial dengan cara yang sama yang menginterpretasikan nilai-p dan interval kepercayaan dengan benar.


1
Jawaban yang bagus. Tetapi ketika beberapa orang mendengar kata "inferensi," mereka berpikir "inferensial kausal." Anda mungkin ingin mengatakan sesuatu tentang itu juga, meskipun (atau mungkin terutama karena) ISLR tidak fokus padanya.
generic_user

1
Saya pikir dalam dunia pembelajaran yang mendalam, inferensi hampir sama dengan prediksi misalnya. blogs.nvidia.com/blog/2016/08/22/…
user1893354

1
Ini sepertinya jawaban yang sangat bagus untuk saya.
gung - Reinstate Monica

3
Saya percaya jawaban ini salah, khususnya "pendekatan inferensi memberi Anda kemungkinan untuk bertahan hidup, pengklasifikasi memberi Anda pilihan antara hidup atau mati", bahkan lebih khusus bagian pertama. Menghitung probabilitas bahwa seorang penumpang yang selamat adalah prediksi, khususnya probabilitas. Dalam kasus kontinu itu akan menjadi perkiraan kepadatan. Kita kemudian bisa mengesampingkan probabilitas yang diperkirakan ini untuk mendapatkan klasifikasi yang sulit , ya. ...
S. Kolassa - Reinstate Monica

3
... Sedangkan prediksi adalah tentang memprediksi hasil , kesimpulannya adalah tentang memahami hubungan input dengan hasil: input mana yang memiliki hubungan seperti itu, dan bagaimana kita dapat membedakan hubungan "benar" dari kovarisasi acak (di mana nilai p masuk)? Bisakah seseorang menjelaskan kepada saya di mana saya salah?
S. Kolassa - Reinstate Monica

12

Secara umum ketika melakukan analisis data, kita membayangkan bahwa ada semacam "proses menghasilkan data" yang menimbulkan data, dan kesimpulan mengacu pada pembelajaran tentang struktur proses ini, sedangkan prediksi berarti dapat benar-benar memperkirakan data yang berasal darinya. . Seringkali keduanya berjalan bersama, tetapi tidak selalu.

Contoh di mana keduanya berjalan seiring akan menjadi model regresi linier sederhana

Ysaya=β0+β1xsaya+ϵsaya.

Inferensi dalam kasus ini berarti memperkirakan parameter model dan β 1 dan prediksi kami hanya akan dihitung dari estimasi parameter ini. Tetapi ada jenis model lain di mana seseorang dapat membuat prediksi yang masuk akal, tetapi model tersebut tidak selalu mengarah pada wawasan yang bermakna tentang apa yang terjadi di balik layar. Beberapa contoh model semacam ini akan menjadi metode ensembel yang rumit yang dapat menyebabkan prediksi yang baik tetapi kadang-kadang sulit atau tidak mungkin untuk dipahami.β0β1


3
"Tapi model itu tidak selalu mengarah pada wawasan yang bermakna tentang apa yang terjadi di balik layar." Istilah " kotak hitam " muncul di pikiran. :)
Alexis

atau jaring saraf multi-layer
Shihab Shahriar Khan

"Tetapi ada jenis model lain di mana seseorang dapat membuat prediksi yang masuk akal, tetapi model tersebut tidak selalu mengarah pada wawasan yang bermakna tentang apa yang terjadi di balik layar.", Siapa yang peduli? Masalah inferensi, seperti yang Anda definisikan, masih merupakan salah satu penentu parameter model. Saya tidak mengerti mengapa Anda memulai kalimat ini dengan "Tapi" dan mengapa Anda bahkan menulis kalimat ini, sehubungan dengan definisi Anda tentang inferensi dan prediksi.
nbro

1
Penggunaan "tetapi" adalah karena deskripsi dari model sebelumnya & model berikut ini benar, namun model berikut ini berbeda dari sifat model sebelumnya dengan cara yang tidak Anda harapkan hingga Anda memahami perbedaan antara prediksi & kesimpulan. yang sedang diilustrasikan. Saya sudah terbiasa dengan perbedaannya, namun, saya menemukan contoh ini berwawasan & membantu. +1
gung - Pasang kembali Monica

11

Di halaman 20 buku ini, penulis memberikan contoh yang indah yang membuat saya mengerti perbedaannya.

Inilah paragraf dari buku ini: Pengantar Pembelajaran Statistik

"Sebagai contoh , dalam pengaturan real estat, seseorang dapat berusaha untuk menghubungkan nilai-nilai rumah dengan input seperti tingkat kejahatan, zonasi, jarak dari sungai, kualitas udara, sekolah, tingkat pendapatan masyarakat, ukuran rumah, dan sebagainya. Dalam hal ini orang mungkin tertarik pada bagaimana variabel input individu mempengaruhi harga — yaitu, berapa banyak nilai tambahan rumah jika memiliki pemandangan sungai? Ini adalah masalah inferensi . Atau, orang mungkin hanya tertarik dalam memprediksi nilai sebuah rumah mengingat karakteristiknya: apakah rumah ini dinilai terlalu rendah atau lebih? Ini adalah masalah prediksi . "


5

ytx1,tx2,t

yt=f(x1,t-1,x2,t-1)+εt

Sekarang, jika Anda mendapatkan data tentang pendapatan, katakanlah seri pendapatan pribadi dari BEA, dan buat variabel waktu tahun, Anda dapat memperkirakan fungsi f , lalu masukkan nilai-nilai terbaru dari pendapatan populasi dan waktu tahun ke ini. fungsi. Ini akan menghasilkan prediksi untuk kuartal berikutnya dari pendapatan toko.

f/x2tβ2x2,t-1

xberkorelasi lebih sulit untuk memisahkan dampak prediktor dari dampak prediktor lain. Untuk prediksi ini tidak masalah, yang Anda pedulikan hanyalah kualitas ramalannya.


3

Bayangkan, Anda adalah seorang dokter di unit perawatan intensif. Anda memiliki pasien dengan demam yang kuat dan jumlah sel darah tertentu dan berat badan yang diberikan dan seratus data yang berbeda dan Anda ingin memprediksi, apakah ia akan bertahan hidup. Jika ya, dia akan menyembunyikan cerita tentang anak yang lain kepada istrinya, jika tidak, penting baginya untuk mengungkapkannya, selagi dia bisa.

Dokter dapat melakukan prediksi ini berdasarkan data dari mantan pasien yang ia miliki di unitnya. Berdasarkan pengetahuan perangkat lunaknya, ia dapat memprediksi menggunakan regresi linier umum (glm) atau melalui jaringan saraf (nn).

1. Model Linear Umum

Ada banyak parameter berkorelasi jauh untuk glm sehingga untuk mendapatkan hasil, dokter harus membuat asumsi (linearitas dll) dan keputusan tentang parameter mana yang cenderung memiliki pengaruh. Glm akan menghadiahinya dengan uji-t signifikansi untuk masing-masing parameternya sehingga ia dapat mengumpulkan bukti kuat, bahwa jenis kelamin dan demam memiliki pengaruh signifikan, berat badan belum tentu demikian.

2. Jaring saraf

Jaring saraf akan menelan dan mencerna semua informasi yang ada dalam sampel mantan pasien. Tidak akan peduli, apakah prediktor berkorelasi dan tidak akan mengungkapkan informasi sebanyak itu, tentang apakah pengaruh berat badan tampaknya hanya penting dalam sampel yang ada atau secara umum (setidaknya tidak pada tingkat keahlian yang dimiliki dokter). ditawarkan). Itu hanya akan menghitung hasilnya.

Apa yang lebih baik

Metode apa yang harus dipilih tergantung pada sudut dari mana Anda melihat masalah: Sebagai seorang pasien, saya lebih suka jaringan saraf yang menggunakan semua data yang tersedia untuk tebakan terbaik tentang apa yang akan terjadi pada saya tanpa asumsi yang kuat dan jelas salah seperti linearitas. Sebagai dokter, yang ingin menyajikan beberapa data dalam jurnal, ia membutuhkan nilai-p. Kedokteran sangat konservatif: mereka akan meminta nilai-p. Jadi dokter ingin melaporkan, bahwa dalam situasi seperti itu, gender memiliki pengaruh yang signifikan. Bagi pasien, itu tidak masalah, gunakan saja pengaruh apa pun yang kemungkinan besar sampel sarankan.

Dalam contoh ini, pasien menginginkan prediksi, sisi ilmuwan dari dokter menginginkan kesimpulan. Sebagian besar, ketika Anda ingin memahami suatu sistem, maka kesimpulannya bagus. Jika Anda perlu membuat keputusan di mana Anda tidak dapat memahami sistem, prediksi harus cukup.


1
"Sebagai pasien, saya lebih suka jaringan saraf ..." Anda tampaknya mengabaikan fakta bahwa sejumlah besar data bisa sangat sulit didapat dalam ilmu klinis. Kumpulan data hanya beberapa pengamatan per kelompok tidak jarang karena masalah keamanan, privasi dan etika. Jika Anda dapat membuat asumsi yang dapat dipertahankan pada proses pembuatan data, Anda dapat menggunakan data dengan jauh lebih efisien.
Frans Rodenburg

Ini seharusnya merupakan skenario hipotetis di mana seseorang dapat dengan mudah berhubungan dengan mengapa masalah yang tampaknya sama dapat mendorong pertanyaan inferensi dan masalah prediksi dan mengapa mereka tidak sama. Saya tidak mengusulkan metode untuk benar-benar memprediksi peluang bertahan hidup pasien dan ya, saya sangat menyadari betapa sulitnya untuk mendapatkan data klinis yang dapat diandalkan dari ukuran yang terlihat. Asumsi / pengetahuan IMHO yang baik tentang proses menghasilkan data akan membantu dalam prediksi maupun inferensi, sehingga tidak banyak membedakan keduanya.
Bernhard

1

Anda tidak sendirian di sini. Setelah membaca jawaban, saya tidak bingung lagi - bukan karena saya mengerti perbedaannya, tetapi karena saya mengerti itu ada di mata yang melihatnya dan diinduksi secara verbal. Saya yakin sekarang kedua istilah itu adalah definisi politik daripada definisi ilmiah. Ambil contoh penjelasan dari buku, yang coba digunakan perguruan tinggi sebagai yang bagus: "berapa banyak nilai tambahan sebuah rumah jika memiliki pemandangan sungai? Ini masalah inferensi." Dari sudut pandang saya, ini benar-benar masalah prediksi. Anda adalah pemilik perusahaan konstruksi sipil, dan Anda ingin memilih tanah terbaik untuk membangun set rumah berikutnya. Anda harus memilih antara dua lokasi di kota yang sama, satu di dekat sungai, berikutnya di dekat stasiun kereta. Anda ingin memprediksiharga untuk kedua lokasi. Atau Anda ingin menyimpulkan . Anda akan menerapkan metode statistik yang tepat, tetapi Anda menyebutkan prosesnya. :)


Gagasan bahwa pandangan tentang sungai akan membutuhkan harga tertentu adalah interpretasi kausal . Prediksi agnostik tentang kausalitas: Saya dapat memprediksi efek dari sebab, akibat dari efek, atau 1 efek dari efek lain dengan penyebab yang serupa. Anggap teman saya Billy, yang berumur 5'10 "& yang memiliki saudara kembar yang identik, Bobby, yang belum pernah saya temui. Meskipun demikian, saya dapat memperkirakan Bobby berusia 5'10", tetapi jika saya membuat Billy lebih tinggi dengan memberinya sepatu lift, Saya tidak bisa memprediksi Billy juga akan lebih tinggi.
gung - Reinstate Monica

Contoh yang Anda kutip hanyalah contoh yang buruk, karena itu membingungkan. Jelas ada lebih banyak perbedaan antara kesimpulan dan prediksi daripada "politik".
Richard Hardy

1

Ada penelitian bagus yang menunjukkan bahwa prediktor kuat apakah peminjam akan membayar kembali pinjaman mereka adalah apakah mereka menggunakan kain merasa untuk melindungi lantai mereka agar tidak tergores oleh kaki furnitur. Variabel "felt" ini akan menjadi bantuan yang berbeda untuk model prediksi di mana hasilnya dibayar vs default. Namun, jika pemberi pinjaman ingin mendapatkan pengaruh yang lebih besar atas hasil ini, mereka akan lalai dalam berpikir bahwa mereka dapat melakukannya dengan mendistribusikan perasaan seluas mungkin.

"Seberapa besar kemungkinan peminjam ini membayar?" adalah masalah prediksi; "Bagaimana saya bisa memengaruhi hasilnya?" adalah masalah inferensi kausal.


-1

y = f (x) lalu

prediksi (berapa nilai Y dengan nilai x yang diberikan: jika nilai spesifik x apa yang bisa menjadi nilai Y

inference (bagaimana y berubah dengan perubahan x): apa yang bisa menjadi pengaruhnya pada Y jika x berubah

Contoh prediksi: misalkan y merupakan gaji seseorang maka jika kita memberikan input seperti pengalaman bertahun-tahun, gelar sebagai variabel input maka fungsi kita memprediksi gaji karyawan.

Contoh kesimpulan: anggap biaya perubahan hidup lalu berapa perubahan gaji


Saya tidak melihat mengapa jawaban ini pantas untuk dua downvotes.
gung - Reinstate Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.