Apa sebenarnya yang membangun model statistik?


15

Apa sebenarnya yang membangun model statistik?

Saat ini ketika saya melamar pekerjaan penelitian atau pekerjaan konsultasi, istilah "membangun model" atau "model" sering muncul. Istilah ini kedengarannya keren, tapi sebenarnya apa yang mereka maksud? Bagaimana Anda membangun model Anda?

Saya mencari pemodelan prediktif , yang meliputi k-nn dan regresi logistik.


1
Itu cukup luas, bisa merujuk pada berbagai macam model - berbagai macam regresi, model bertingkat, pohon dan variannya, pengelompokan .... dll.
Peter Flom - Reinstate Monica

Model statistik sama dengan model matematika, kecuali model statistik memiliki variabel akuntansi untuk kesalahan. Model matematika: Berat = Tinggi * 2.7. Model statistik: Berat = Tinggi * 2,7 + kesalahan.
Neil McGuigan

2
Saya ingin mengutip makalah ini : Pemodelan Statistik: Dua budaya
user13985

Jawaban:


12

Saya akan mengambil celah ini meskipun saya bukan ahli statistik dengan cara apa pun tetapi akhirnya melakukan banyak 'pemodelan' - statistik dan non-statistik.

Pertama mari kita mulai dengan dasar-dasarnya:

Apa sebenarnya model itu?

Model adalah representasi dari kenyataan meskipun sangat disederhanakan. Pikirkan 'model' lilin / kayu untuk rumah. Anda bisa menyentuh / merasakan / menciumnya. Sekarang model matematika adalah representasi dari kenyataan menggunakan angka.

Apa 'realitas' yang kudengar ini kamu tanyakan? Baik. Jadi pikirkan situasi sederhana ini: Gubernur negara Anda menerapkan kebijakan yang mengatakan bahwa harga sebungkus rokok sekarang akan berharga $ 100 untuk tahun berikutnya. 'Tujuannya' adalah untuk mencegah orang dari membeli rokok sehingga mengurangi merokok sehingga membuat perokok menjadi lebih sehat (karena mereka akan berhenti).

Setelah 1 tahun gubernur bertanya kepada Anda - apakah ini berhasil? Bagaimana Anda bisa mengatakan itu? Baik Anda menangkap data seperti jumlah paket yang terjual / hari atau per tahun, respons survei, data terukur apa pun yang bisa Anda dapatkan yang relevan dengan masalah tersebut. Anda baru saja mulai 'memodelkan' masalah. Sekarang Anda ingin menganalisis apa ini 'model' kata . Di situlah pemodelan statistik berguna. Anda dapat menjalankan plot korelasi / sebar sederhana untuk melihat seperti apa modelnya. Anda bisa membiasakan diri untuk menentukan hubungan sebab, yaitu, jika kenaikan harga memang menyebabkan penurunan merokok atau apakah ada faktor-faktor pengganggu lainnya yang sedang bermain (yaitu, mungkin itu adalah sesuatu yang sama sekali berbeda dan model Anda mungkin melewatkannya?).

Sekarang, membangun model ini dilakukan oleh 'seperangkat aturan' (lebih seperti pedoman) yaitu, apa yang / tidak legal atau apa yang / tidak masuk akal. Anda harus tahu apa yang Anda lakukan dan bagaimana menafsirkan hasil model ini. Membangun / Melaksanakan / Menafsirkan model ini membutuhkan pengetahuan dasar tentang statistik. Pada contoh di atas, Anda perlu tahu tentang korelasi / plot pencar, regresi (uni dan multivarian) dan hal-hal lain. Saya sarankan membaca bacaan menyenangkan / informatif mutlak tentang memahami statistik secara intuitif: Apa itu nilai-p Pokoknya itu adalah pengantar lucu untuk statistik dan akan mengajarkan Anda 'pemodelan' di sepanjang jalan dari yang sederhana ke lanjutan (yaitu, regresi linier). Maka Anda dapat melanjutkan dan membaca hal-hal lain.

Jadi, ingat model adalah representasi dari kenyataan dan bahwa "Semua model itu salah tetapi beberapa lebih berguna daripada yang lain" . Model adalah representasi kenyataan yang disederhanakan dan Anda tidak mungkin mempertimbangkan segalanya tetapi Anda harus tahu apa yang harus dan tidak harus dipertimbangkan untuk memiliki model yang baik yang dapat memberi Anda hasil yang bermakna.

Itu tidak berhenti di sini. Anda dapat membuat model untuk mensimulasikan kenyataan juga! Begitulah cara sekelompok angka akan berubah seiring waktu (katakanlah). Angka-angka ini memetakan ke beberapa interpretasi yang berarti di domain Anda. Anda juga dapat membuat model ini untuk menambang data Anda untuk melihat bagaimana berbagai tindakan berhubungan satu sama lain (aplikasi statistik di sini mungkin dipertanyakan, tetapi jangan khawatir untuk saat ini). Contoh: Anda melihat penjualan grosir untuk toko per bulan dan menyadari bahwa setiap kali bir dibeli begitu juga paket popok (Anda membangun model yang berjalan melalui kumpulan data dan menunjukkan kepada Anda asosiasi ini). Mungkin aneh tapi mungkin menyiratkan bahwa sebagian besar ayah membeli ini selama akhir pekan ketika bayi duduk anak-anak mereka? Letakkan popok di dekat bir dan Anda dapat meningkatkan penjualan Anda! Aaah! Pemodelan :)

Ini hanya contoh dan tidak berarti referensi untuk pekerjaan profesional. Anda pada dasarnya membangun model untuk memahami / memperkirakan bagaimana realitas berfungsi / untuk mengambil keputusan yang lebih baik berdasarkan output. Statistik atau tidak, Anda mungkin telah melakukan pemodelan sepanjang hidup Anda tanpa menyadarinya. Semoga berhasil :)


11

Membangun model statistik melibatkan membangun deskripsi matematika dari beberapa fenomena dunia nyata yang menjelaskan ketidakpastian dan / atau keacakan yang terlibat dalam sistem itu. Bergantung pada bidang aplikasi, ini bisa berkisar dari sesuatu yang sederhana seperti regresi linier, atau pengujian hipotesis dasar, melalui analisis faktor multivariat yang rumit atau penggalian data.


5
Saya telah membatalkan ini karena ini merupakan upaya yang berani dan bernanah untuk menanggapi pertanyaan yang sangat luas. Saya memiliki beberapa keraguan tentang apakah "penambangan data" melibatkan pemodelan statistik apa pun, dan akan sangat menghargai melihat contoh atau klarifikasi apa yang Anda maksud dengan frasa itu.
whuber

@whuber LASSO melakukan pemilihan fitur, bukankah membangun model regresi dalam arti tertentu?
user13985

Dengan kata lain, ini seperti membangun rumah hanya menggunakan batu bata dan mortir imajiner? Komentar esoteris saya adalah kata bercanda. :)
Graeme Walsh

1
Penambangan data dapat digunakan sebagai bagian dari proses membangun atau memvalidasi model yang diberikan.
Dave

5

Pemodelan bagi saya melibatkan menentukan kerangka kerja probabilistik untuk data yang diamati dengan parameter yang dapat diperkirakan yang dapat digunakan untuk membedakan perbedaan yang berharga dalam data yang dapat diamati ketika ada. Ini disebut kekuatan. Model probabilistik dapat digunakan untuk prediksi atau inferensi. Mereka dapat digunakan untuk mengkalibrasi mesin, untuk menunjukkan defisiensi pengembalian investasi, untuk meramalkan cuaca atau stok, atau menyederhanakan pengambilan keputusan medis.

Model tidak perlu dibangun. Dalam percobaan terisolasi, seseorang dapat menggunakan pendekatan pemodelan non-parametrik, seperti uji-t untuk menentukan apakah ada perbedaan yang signifikan dalam rata-rata antara dua kelompok. Namun, untuk banyak tujuan peramalan, model dapat dibangun untuk mendeteksi perubahan waktu. Misalnya, model Markov berbasis transisi dapat digunakan untuk memprediksi naik turunnya nilai pasar untuk investasi, tetapi sejauh mana "penurunan" dapat dianggap lebih buruk dari yang diharapkan? Dengan menggunakan bukti historis dan prediktor yang diamati, seseorang dapat membangun model yang canggih untuk mengkalibrasi apakah penurunan yang diamati secara signifikan berbeda dari yang telah dipertahankan secara historis. Menggunakan alat-alat seperti diagram kontrol, grafik insiden kumulatif, kurva survival, dan grafik "berdasarkan waktu" lainnya, itu

Bergantian, beberapa model "dibangun" dengan memiliki fleksibilitas untuk beradaptasi ketika data tumbuh. Deteksi Twitter tentang tren dan sistem rekomendasi Netflix adalah contoh utama dari model-model tersebut. Mereka memiliki spesifikasi umum (Bayesian Model Averaging, untuk yang terakhir) yang memungkinkan model fleksibel untuk mengakomodasi perubahan dan tren historis dan mengkalibrasi ulang untuk mempertahankan prediksi terbaik, seperti pengenalan film berdampak tinggi, penyerapan besar pengguna baru, atau perubahan dramatis dalam preferensi film karena musiman.

Beberapa pendekatan penambangan data diperkenalkan karena mereka sangat mahir dalam mencapai beberapa jenis pendekatan prediksi (sekali lagi, masalah mendapatkan tren atau nilai "yang diharapkan" dalam data). K-NN adalah cara menggabungkan data dimensi tinggi dan menyimpulkan apakah subjek dapat menerima prediksi yang dapat diandalkan hanya karena kedekatan (baik dari usia, selera musik, sejarah seksual, atau beberapa sifat terukur lainnya). Regresi logistik di sisi lain dapat memperoleh klasifikasi biner, tetapi jauh lebih umum digunakan untuk menyimpulkan tentang hubungan antara hasil biner dan satu atau lebih eksposur dan kondisi melalui parameter yang disebut rasio odds. Karena teorema batas dan hubungannya dengan model linier umum, rasio odds adalah parameter yang sangat teratur yang memiliki kesalahan tipe I "sangat kekal" (yaitu


Terima kasih untuk kata-kata anda Dalam hal deteksi Twitter tentang Netflix, bukankah itu lebih atau kurang dalam bidang pembelajaran mesin? Saya sering tidak bisa menggambar garis antara pemodelan dan pembelajaran mesin.
user13985

1
Pembelajaran mesin biasanya pemodelan dimensi tinggi. Banyak metode adalah kasus khusus dari metode berbasis kemungkinan yang ada dengan hukuman atau pembobotan.
AdamO

Terima kasih telah memvalidasi pikiran saya, beri tahu saya jika Anda ingin hal lain.
user13985

3

Pemodelan adalah proses mengidentifikasi model yang cocok.

Seringkali seorang modeller akan memiliki gagasan bagus tentang variabel-variabel penting, dan mungkin bahkan memiliki landasan teori untuk model tertentu. Mereka juga akan mengetahui beberapa fakta tentang respons dan jenis hubungan umum dengan para prediktor, tetapi mungkin masih belum yakin bahwa gagasan umum mereka tentang suatu model benar-benar memadai - bahkan dengan gagasan teoritis yang sangat baik tentang bagaimana cara kerja rata-rata, mungkin tidak, misalnya, yakin bahwa varians tidak terkait dengan rata-rata, atau mereka mungkin menduga beberapa ketergantungan serial mungkin terjadi.

Jadi mungkin ada siklus beberapa tahap identifikasi model yang membuat referensi ke (setidaknya beberapa) data. Alternatifnya adalah secara teratur mengambil risiko memiliki model yang sangat tidak sesuai.

(Tentu saja, jika mereka bertanggung jawab, mereka harus memperhitungkan bagaimana menggunakan data dengan cara ini memengaruhi kesimpulan mereka.)

Proses aktual agak berbeda dari satu daerah ke daerah lain dan dari orang ke orang, tetapi dimungkinkan untuk menemukan beberapa orang yang secara eksplisit mendaftarkan langkah-langkah dalam proses mereka (misalnya Box dan Jenkins menguraikan satu pendekatan seperti itu dalam buku mereka tentang deret waktu). Gagasan tentang bagaimana melakukan identifikasi model berubah seiring waktu.


0

Saya tidak berpikir ada definisi umum tentang apa yang merupakan model statistik. Dari pengalaman saya di industri tampaknya menjadi sinonim dengan apa yang dalam ekonometrika disebut model formulir tereduksi . Saya akan jelaskan.

Misalkan, di bidang Anda ada hubungan atau "hukum" yang mapan, misalnya dalam Fisika F=md2xdt2menyatakan bahwa gaya sebanding dengan akselerasi (alias "hukum kedua mekanika"). Jadi, mengetahui hukum ini Anda bisa membangun model matematika lintasan bola meriam.

Model ini akan memiliki apa yang oleh para fisikawan disebut "konstanta" atau "koefisien", misalnya kepadatan udara pada suhu dan ketinggian tertentu. Anda harus mencari tahu apa koefisien-koefisien ini secara eksperimental. Dalam kasus kami, kami akan meminta artileri untuk menembakkan meriam di bawah berbagai kondisi yang dikontrol ketat, seperti sudut, suhu dll.

Kami mengumpulkan semua data, dan menyesuaikan model menggunakan teknik statistik. Ini bisa sesederhana regresi linier atau rata-rata. Setelah mendapatkan semua koefisien, kami sekarang menjalankan model matematika kami untuk menghasilkan tabel penembakan. Ini dijelaskan dengan rapi dalam dokumen yang tidak diklasifikasi di sini , yang disebut "PRODUKSI TABEL PEMADAMAN UNTUK ARTILLERY CANNON."

Apa yang baru saja saya jelaskan bukanlah model statistik. Ya, memang menggunakan statistik, tetapi model ini menggunakan hukum Fisika, yang merupakan inti dari model tersebut. Di sini, statistik adalah alat belaka untuk menentukan nilai dari beberapa parameter penting. Dinamika sistem dijelaskan dan ditentukan sebelumnya oleh lapangan.

Misalkan, kita tidak tahu atau tidak peduli dengan hukum Fisika, dan hanya mencoba untuk membangun hubungan antara jarak terbang meriam dan parameter seperti sudut tembak dan suhu menggunakan "model statistik." Kami akan membuat kumpulan data besar dengan sekelompok kandidat variabel, atau fitur, dan transformasi variabel, mungkin serangkaian suhu polinomial, dll. Kemudian kami akan menjalankan semacam regresi, dan mengidentifikasi koefisien. Koefisien-koefisien ini tidak harus memiliki interpretasi yang kuat di lapangan. Kami menyebutnya sensitivitas terhadap kuadrat suhu dll. Model ini mungkin sebenarnya cukup baik dalam memprediksi titik akhir bola meriam, karena proses yang mendasarinya cukup stabil.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.