Buku-buku bagus yang mencakup teknik preprocessing data dan deteksi outlier


11

Seperti judulnya, apakah ada yang tahu tentang buku yang bagus dan terkini yang mencakup preprocessing data secara umum dan khususnya teknik deteksi outlier?

Buku ini tidak perlu berfokus secara khusus pada hal itu, tetapi harus membahas topik-topik yang disebutkan di atas secara mendalam - saya tidak akan senang dengan sesuatu yang merupakan titik awal dan mengutip daftar makalah, penjelasan berbagai teknik harus muncul dalam buku itu sendiri.

Teknik untuk menangani data yang hilang lebih disukai, tetapi tidak perlu ...


Bisakah Anda memberi tahu kami apa jenis data (bidang ilmiah atau teknik pengukuran) yang Anda lihat?
cbeleites tidak senang dengan SX

Data dikumpulkan dari pengguna web (tidak bisa lebih spesifik). Termasuk cap waktu (meskipun data tidak sepenuhnya terkait waktu, setidaknya secara intuitif), atribut kategorikal dan atribut kontinu. Pencilan dapat disebabkan oleh banyak alasan, termasuk. robot web, pengguna jahat, dan banyak lagi sumber lainnya. Data ini juga cukup besar (GB dalam format CSV, beberapa juta entri)
em70

Bagi saya itu cukup spesifik: tidak perlu membuat Anda bosan dengan preprocessing untuk set data kimia atau spektroskopi ...
cbeleites tidak senang dengan SX

Jawaban:


3

Meskipun khusus untuk Stata, saya telah menemukan buku Scott Long, Alur Kerja Analisis Data Menggunakan Stata , sangat berharga di bidang manajemen dan persiapan data. Penulis memberikan banyak nasihat bermanfaat mengenai praktik-praktik yang baik dalam manajemen data, seperti membersihkan dan mengarsipkan data, memeriksa outlier dan menangani data yang hilang.


2
Saya suka buku ini juga, tetapi saya pengguna yang dicelup-dalam-wol-Stata sejauh menyangkut manajemen data. Sementara saya tidak setuju, orang lain dalam daftar ini berpendapat bahwa itu terlalu Stata spesifik untuk berguna, jadi peringatan emptor / lector.
Dimitriy V. Masterov

Sangat stata-ish dari apa yang saya kumpulkan, dan saya tidak terbiasa dengan stata, juga tidak akan membantu proyek ini jika saya (data terlalu besar, menggunakan teknologi yang berbeda)
em70

Buku itu memang sangat istimewa. Teknik penanganan data tertentu (dan terutama meta-data) adalah spesifik-Stata, tetapi gagasan umum dapat ditransfer antar platform. Saya terkejut bahwa dengan rasio sekitar 20 buku Stata / 100 R buku di pasaran, tidak ada buku yang sebanding tentang pengorganisasian alur kerja dalam R - apakah yang terakhir mustahil? Jumlah memori terbesar yang saya ingat dengan jelas mengalokasikan ke Stata adalah 48Gb pada mesin 64Gb - itulah ukuran ukurannya. Jika Anda perlu memanipulasi objek dengan struktur yang sangat berbeda, Anda ingin melakukan ini di R, bukan di Stata.
Tugas


0

Jika Anda memiliki dasar-dasar (mengidentifikasi outlier, nilai yang hilang, bobot, pengkodean) tergantung pada topik, ada banyak lagi dalam literatur akademik biasa yang dapat ditemukan. Misalnya dalam penelitian survei (yang merupakan topik di mana banyak hal bisa salah, dan rentan terhadap banyak sumber bias) ada banyak artikel bagus yang bisa ditemukan.

Ketika mempersiapkan regresi crossectional reguler, hal - hal mungkin kurang kompleks. Masalah mungkin ada misalnya bahwa Anda menghapus terlalu banyak 'outlier' dan dengan demikian secara artifisial sesuai dengan model Anda.

Saya juga merekomendasikan Anda selain belajar teknik yang baik, juga menjaga akal sehat. Pastikan Anda menerapkan teknik dengan benar dan tidak secara membabi buta. Adapun diskusi perangkat lunak dalam jawaban lain. Saya pikir SPSS tidak buruk untuk persiapan data (saya juga mendengar hal-hal baik tentang SAS) tergantung pada ukuran dataset Anda. Menu drop-down sangat intuitif.

Tetapi sebagai jawaban langsung untuk pertanyaan Anda, literatur akademik mungkin atau mungkin tidak menjadi sumber yang sangat baik untuk persiapan data Anda tergantung pada topik dan analisis.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.