Pertanyaan yang diberi tag «data-cleaning»

4
Membersihkan data format tidak konsisten dalam R?
Saya sering berurusan dengan data survei yang berantakan yang membutuhkan banyak pembersihan sebelum statistik dapat dilakukan. Saya biasa melakukan ini "secara manual" di Excel, kadang-kadang menggunakan rumus Excel, dan kadang-kadang memeriksa entri satu-per-satu. Saya mulai melakukan semakin banyak tugas ini dengan menulis skrip untuk melakukannya di R, yang sangat bermanfaat …
16 r  data-cleaning 

1
Terdepan dalam deduplikasi
Apa metode mutakhir dalam deduplikasi rekor? Deduplikasi juga kadang-kadang disebut: record linkage, resolusi entitas, resolusi identitas, gabungan / pembersihan. Saya tahu misalnya tentang CBLOCK [1]. Saya akan sangat menghargai jika jawaban juga termasuk referensi ke perangkat lunak yang ada yang menerapkan metode ini. Saya tahu misalnya bahwa Mahout mengimplementasikan kanopi-clustering …

3
Apa cara terbaik untuk membentuk kembali / merestrukturisasi data?
Saya seorang asisten peneliti untuk laboratorium (sukarelawan). Saya dan kelompok kecil telah ditugaskan untuk analisis data untuk satu set data yang ditarik dari sebuah penelitian besar. Sayangnya, data dikumpulkan dengan semacam aplikasi online, dan tidak diprogram untuk menampilkan data dalam bentuk yang paling dapat digunakan. Gambar-gambar di bawah menggambarkan masalah …
12 r  excel  data-cleaning 

3
Pembersihan data otomatis
Masalah umum adalah ML adalah kualitas data yang buruk: kesalahan dalam nilai fitur, contoh kesalahan klasifikasi, dll. Salah satu cara untuk mengatasi masalah ini adalah secara manual memeriksa data dan memeriksa, tetapi adakah teknik lain? (Aku yakin ada!) Mana yang lebih baik dan mengapa?

2
Membuat data "demo" dari data nyata: menyamarkan tanpa menodai
(Saya tidak tahu apa yang harus ditandai dengan ini karena saya bukan ahli statistik dan saya tidak tahu bidang apa ini. Jangan ragu untuk menambahkan tag yang lebih cocok.) Saya bekerja untuk perusahaan yang memproduksi perangkat lunak analisis data, dan kami membutuhkan set data yang layak untuk menguji dan mendemonstrasikan …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.