Saya akan mengajukan pertanyaan ini melalui contoh.
Misalkan saya memiliki satu set data, seperti set data harga perumahan boston, di mana saya memiliki variabel kontinu dan kategori. Di sini, kami memiliki variabel "kualitas", dari 1 hingga 10, dan harga jual. Saya dapat memisahkan data menjadi rumah-rumah berkualitas "rendah", "sedang" dan "tinggi" dengan cara (secara sewenang-wenang) membuat cutoff untuk kualitas. Kemudian, dengan menggunakan pengelompokan ini, saya dapat memetakan histogram dari harga jual satu sama lain. Seperti itu:
Di sini, "rendah" adalah , dan "tinggi" adalah pada skor "kualitas". Kami sekarang memiliki distribusi harga jual untuk masing-masing dari tiga kelompok. Jelas bahwa ada perbedaan di pusat lokasi untuk rumah-rumah berkualitas menengah dan tinggi. Sekarang, setelah melakukan semua ini, saya pikir "Hm. Tampaknya ada perbedaan di pusat lokasi! Mengapa saya tidak melakukan uji-t pada sarana?". Kemudian, saya mendapatkan nilai-p yang tampaknya menolak hipotesis nol dengan benar bahwa tidak ada perbedaan dalam rata-rata.
Sekarang, anggaplah saya tidak punya pikiran untuk menguji hipotesis ini sampai saya merencanakan data.
Apakah data ini pengerukan?
Apakah masih pengerukan data jika saya berpikir: "Hm, saya yakin rumah-rumah berkualitas lebih tinggi harganya lebih mahal, karena saya adalah manusia yang pernah tinggal di rumah sebelumnya. Saya akan memplot data. Ah ha! Tampak berbeda! Waktu untuk uji-t! "
Tentu saja, bukan pengerukan data jika kumpulan data dikumpulkan dengan maksud menguji hipotesis ini sejak awal. Tetapi seringkali kita harus bekerja dengan set data yang diberikan kepada kita, dan disuruh "mencari pola". Bagaimana seseorang menghindari pengerukan data dengan tugas yang tidak jelas ini dalam pikiran? Buat set penahan untuk menguji data? Apakah visualisasi "dihitung" sebagai pengintaian untuk menguji hipotesis yang disarankan oleh data?