Data mining dikategorikan sebagai deskriptif atau prediktif. Penambangan data deskriptif adalah untuk mencari kumpulan data besar-besaran dan menemukan lokasi struktur atau hubungan, pola, tren, kluster, dan outlier yang tidak terduga dalam data. Di sisi lain, Predictive adalah untuk membangun model dan prosedur untuk regresi, klasifikasi, pengenalan pola, atau tugas pembelajaran mesin, dan menilai akurasi prediksi model dan prosedur tersebut ketika diterapkan pada data baru.
Mekanisme yang digunakan untuk mencari pola atau struktur dalam data dimensi tinggi mungkin manual atau otomatis; pencarian mungkin memerlukan secara interaktif menanyakan sistem manajemen basis data, atau mungkin memerlukan menggunakan perangkat lunak visualisasi untuk menemukan anomali dalam data. Dalam istilah pembelajaran mesin, penambangan data deskriptif dikenal sebagai pembelajaran tanpa pengawasan, sedangkan penambangan data prediktif dikenal sebagai pembelajaran terbimbing.
Sebagian besar metode yang digunakan dalam penambangan data terkait dengan metode yang dikembangkan dalam statistik dan pembelajaran mesin. Yang terpenting di antara metode-metode tersebut adalah topik umum regresi, klasifikasi, pengelompokan, dan visualisasi. Karena ukuran yang sangat besar dari kumpulan data, banyak aplikasi penambangan data fokus pada teknik pengurangan dimensi (misalnya, pemilihan variabel) dan situasi di mana data dimensi tinggi diduga terletak pada pesawat terbang dimensi rendah. Perhatian baru-baru ini telah diarahkan pada metode mengidentifikasi data dimensi tinggi yang terletak pada permukaan atau manifol nonlinier.
Ada juga situasi dalam penggalian data ketika inferensi statistik - dalam pengertian klasik - baik tidak memiliki arti atau validitasnya meragukan: yang pertama terjadi ketika kita memiliki seluruh populasi untuk mencari jawaban, dan yang terakhir terjadi ketika kumpulan data adalah "Kenyamanan" sampel daripada sampel acak yang diambil dari beberapa populasi besar. Ketika data dikumpulkan melalui waktu (misalnya, transaksi ritel, transaksi pasar saham, catatan pasien, catatan cuaca), pengambilan sampel juga mungkin tidak masuk akal; urutan waktu pengamatan sangat penting untuk memahami fenomena yang menghasilkan data, dan untuk memperlakukan pengamatan sebagai independen ketika mereka mungkin sangat berkorelasi akan memberikan hasil yang bias.
Komponen utama dari data mining adalah - selain teori dan metode statistik - komputasi dan efisiensi komputasi, pemrosesan data otomatis, teknik visualisasi data yang dinamis dan interaktif, dan pengembangan algoritma.
Salah satu masalah terpenting dalam penambangan data adalah masalah skalabilitas komputasi . Algoritma yang dikembangkan untuk menghitung metode statistik exploratory dan konfirmasi standar dirancang agar cepat dan efisien secara komputasi ketika diterapkan pada set data kecil dan menengah; namun, telah ditunjukkan bahwa sebagian besar dari algoritma ini tidak sampai pada tantangan menangani kumpulan data yang sangat besar. Ketika set data tumbuh, banyak algoritma yang ada menunjukkan kecenderungan untuk melambat secara dramatis (atau bahkan terhenti).