Saya suka buku G van Belle tentang Aturan Statistik Thumb , dan pada tingkat lebih rendah Kesalahan Umum dalam Statistik (dan Cara Menghindari Mereka) dari Phillip I Good dan James W. Hardin. Mereka mengatasi perangkap umum ketika menafsirkan hasil dari studi eksperimental dan pengamatan dan memberikan rekomendasi praktis untuk inferensi statistik, atau analisis data eksplorasi. Tapi saya merasa bahwa pedoman "modern" agak kurang, terutama dengan semakin meningkatnya penggunaan statistik komputasi dan kuat di berbagai bidang, atau pengenalan teknik dari komunitas pembelajaran mesin, misalnya biostatistik klinis atau epidemiologi genetik.
Terlepas dari trik komputasi atau perangkap umum dalam visualisasi data yang dapat diatasi di tempat lain, saya ingin bertanya: Apa aturan utama yang Anda rekomendasikan untuk analisis data yang efisien? ( tolong, satu aturan per jawaban ).
Saya sedang memikirkan pedoman yang mungkin Anda berikan kepada seorang kolega, seorang peneliti tanpa latar belakang yang kuat dalam pemodelan statistik, atau seorang siswa dalam kursus menengah hingga lanjutan. Ini mungkin berkaitan dengan berbagai tahap analisis data, misalnya strategi pengambilan sampel, pemilihan fitur atau pembuatan model, perbandingan model, estimasi pascabayar, dll.