Di Statistik, seperti di Penambangan Data, Anda mulai dengan data dan tujuan. Dalam statistik ada banyak fokus pada inferensi, yaitu, menjawab pertanyaan tingkat populasi menggunakan sampel. Dalam penggalian data, fokus biasanya prediksi: Anda membuat model dari sampel Anda (data pelatihan) untuk memprediksi data uji.
Proses dalam statistik adalah:
Jelajahi data menggunakan ringkasan dan grafik - tergantung pada bagaimana data-driven ahli statistik, beberapa akan lebih berpikiran terbuka, melihat data dari semua sudut, sementara yang lain (terutama ilmuwan sosial) akan melihat data melalui lensa dari pertanyaan yang menarik (misalnya, plot terutama variabel yang menarik dan bukan yang lain)
Pilih keluarga model statistik yang sesuai (misalnya, regresi linier untuk Y terus menerus, regresi logistik untuk Y biner, atau Poisson untuk data jumlah), dan lakukan pemilihan model
Perkirakan model terakhir
Asumsi model pengujian untuk memastikan mereka terpenuhi secara wajar (berbeda dari pengujian untuk akurasi prediksi dalam data mining)
Gunakan model untuk inferensi - ini adalah langkah utama yang berbeda dari data mining. Kata "p-value" tiba di sini ...
Lihatlah buku teks statistik dasar dan Anda akan menemukan bab tentang Analisis Data Eksplorasi diikuti oleh beberapa distribusi (yang akan membantu memilih model perkiraan yang masuk akal), kemudian inferensi (interval kepercayaan dan tes hipotesis) dan model regresi.
Saya menjelaskan kepada Anda proses statistik klasik. Namun, saya punya banyak masalah dengannya. Fokus pada kesimpulan telah sepenuhnya mendominasi bidang, sementara prediksi (yang sangat penting dan berguna) hampir diabaikan. Selain itu, jika Anda melihat bagaimana para ilmuwan sosial menggunakan statistik untuk inferensi, Anda akan menemukan bahwa mereka menggunakannya dengan sangat berbeda! Anda dapat melihat lebih lanjut tentang ini di sini