Kiat dan trik untuk memulai dengan pemodelan statistik?

10

Saya bekerja di bidang penambangan data dan memiliki sekolah formal yang sangat sedikit dalam statistik. Akhir-akhir ini saya telah membaca banyak pekerjaan yang berfokus pada paradigma Bayes untuk pembelajaran dan penambangan, yang menurut saya sangat menarik.

Pertanyaan saya adalah (di beberapa bagian), diberikan masalah apakah ada kerangka umum yang memungkinkan untuk membangun model statistik? Apa hal pertama yang Anda lakukan ketika diberi dataset yang ingin Anda modelkan proses dasarnya? Apakah ada buku / tutorial bagus di luar sana yang menjelaskan proses ini atau apakah ini masalah pengalaman? Apakah kesimpulan di garis depan pikiran Anda ketika membangun model Anda atau apakah Anda pertama kali bertujuan untuk menggambarkan data sebelum Anda khawatir tentang bagaimana menggunakannya untuk menghitung?

Wawasan apa pun akan sangat dihargai! Terima kasih.

— Nick
sumber

4

Hai Nick - selamat datang di CV. Pertanyaan Anda sangat luas; Anda mungkin lebih beruntung mendapatkan jawaban yang baik jika Anda membaginya menjadi pertanyaan yang lebih kecil (dan begitu Anda melakukannya, Anda mungkin menemukan bahwa beberapa dari mereka sudah dijawab di sini). Paling tidak, Anda harus menandai pertanyaan Anda sebagai "komunitas wiki". Itu pada dasarnya berarti bahwa alih-alih format bersaing-jawaban yang biasa di sini, semua jawaban secara keseluruhan akan dianggap sebagai Jawaban.

— Matt Parker

1

@Matt Kotak centang CW tidak lagi muncul untuk sebuah pertanyaan. Mod perlu menandai pertanyaan sebagai CW sesuai kebutuhan.

@ Nick..Aku juga baru. Saya pikir hal yang umum dan yang paling penting yang perlu diingat adalah bagaimana Anda ingin menggambarkan variabel output Anda .. apakah ini continious, apakah biner? Karena pada akhirnya Anda ingin mengamati / memodelkan variabel output. Hal berikutnya yang akan saya pikirkan adalah apa cara yang mungkin untuk memodelkan variabel yang diperlukan .. hal yang akan datang kemudian adalah bahwa jika variabel dikotomi prosedur adalah model logit .. Pertimbangan selanjutnya adalah data, seluk beluknya dan berbagai masalah satu pertemuan .. Semoga ini masuk akal.

— ayush biyani

6

Di Statistik, seperti di Penambangan Data, Anda mulai dengan data dan tujuan. Dalam statistik ada banyak fokus pada inferensi, yaitu, menjawab pertanyaan tingkat populasi menggunakan sampel. Dalam penggalian data, fokus biasanya prediksi: Anda membuat model dari sampel Anda (data pelatihan) untuk memprediksi data uji.

Proses dalam statistik adalah:

Jelajahi data menggunakan ringkasan dan grafik - tergantung pada bagaimana data-driven ahli statistik, beberapa akan lebih berpikiran terbuka, melihat data dari semua sudut, sementara yang lain (terutama ilmuwan sosial) akan melihat data melalui lensa dari pertanyaan yang menarik (misalnya, plot terutama variabel yang menarik dan bukan yang lain)
1. Pilih keluarga model statistik yang sesuai (misalnya, regresi linier untuk Y terus menerus, regresi logistik untuk Y biner, atau Poisson untuk data jumlah), dan lakukan pemilihan model
2. Perkirakan model terakhir
3. Asumsi model pengujian untuk memastikan mereka terpenuhi secara wajar (berbeda dari pengujian untuk akurasi prediksi dalam data mining)
4. Gunakan model untuk inferensi - ini adalah langkah utama yang berbeda dari data mining. Kata "p-value" tiba di sini ...

Lihatlah buku teks statistik dasar dan Anda akan menemukan bab tentang Analisis Data Eksplorasi diikuti oleh beberapa distribusi (yang akan membantu memilih model perkiraan yang masuk akal), kemudian inferensi (interval kepercayaan dan tes hipotesis) dan model regresi.

Saya menjelaskan kepada Anda proses statistik klasik. Namun, saya punya banyak masalah dengannya. Fokus pada kesimpulan telah sepenuhnya mendominasi bidang, sementara prediksi (yang sangat penting dan berguna) hampir diabaikan. Selain itu, jika Anda melihat bagaimana para ilmuwan sosial menggunakan statistik untuk inferensi, Anda akan menemukan bahwa mereka menggunakannya dengan sangat berbeda! Anda dapat melihat lebih lanjut tentang ini di sini

— Galit Shmueli
sumber

2

Sejauh buku, "Elemen Pembelajaran Statistik" oleh Hastie, Tibshirani dan Friedman sangat baik.

Buku lengkap tersedia di situs web penulis ; Anda mungkin ingin melihat apakah itu cocok untuk kebutuhan Anda.

— NPE
sumber

2

Adapun referensi (online), saya akan merekomendasikan melihat slide tutorial Andrew Moore tentang Statistik Data Mining .

Ada banyak buku teks tentang penambangan data dan pembelajaran mesin; mungkin titik awal yang baik adalah Prinsip Penambangan Data , oleh Hand et al., dan Pengantar Pembelajaran Mesin , oleh Alpaydin.

— chl
sumber

1

Buku Bayesian pengantar terbaik yang saya temukan adalah Analisis Data - A Bayesian Tutorial . Ini cukup praktis.

— John Salvatier
sumber