Adakah yang mengetahui perangkat lunak anonimisasi data yang baik? Atau mungkin paket untuk R yang melakukan anonimisasi data? Jelas tidak mengharapkan anonimisasi yang tidak dapat dipecahkan - hanya ingin membuatnya sulit.
Adakah yang mengetahui perangkat lunak anonimisasi data yang baik? Atau mungkin paket untuk R yang melakukan anonimisasi data? Jelas tidak mengharapkan anonimisasi yang tidak dapat dipecahkan - hanya ingin membuatnya sulit.
Jawaban:
The Cornell Anonymization Tookit adalah open source. Halaman penelitian mereka memiliki tautan ke publikasi terkait.
Peringatan: berhati-hatilah karena akan sangat sulit untuk menganonimkan data dengan cara yang mencegah identifikasi ulang (de-anonimisasi), tanpa kehilangan banyak nilai data. Ini bukan situasi di mana Anda bisa melempar perangkat lunak tanpa berpikir. Melindungi anonimitas orang membutuhkan pemikiran yang cermat. Lihat, misalnya, makalah ini untuk penjelasan yang lebih cermat tentang mengapa ini tidak sepele.
Contoh dari kisah peringatan adalah tantangan Netflix, di mana dataset yang tampaknya anonim sebenarnya dikaitkan kembali dengan identitas pengguna Netflix - atau rilis catatan pencarian AOL yang dianonimkan, yang banyak di antaranya (peneliti temukan) masih dapat diikat kembali ke individu melalui analisis yang lebih canggih. Contoh lain adalah dari Massachusetts, di mana komisi asuransi kesehatan merilis data tentang semua pegawai negeri, setelah menganoniminya dengan menghapus nama, alamat, SSN, dll. Namun, seorang peneliti privasi menemukan bahwa masih mungkin untuk mengidentifikasi kembali individu-individu, dan sebagai demonstrasi, menunjukkan cara mengidentifikasi catatan kesehatan gubernur. Dia kemudian menunjukkan, misalnya, bahwa kebanyakan orang dapat diidentifikasi secara unik hanya dari kode ZIP mereka (atau saluran sensus), tanggal lahir, dan jenis kelamin. Ini adalah kisah orang-orang yang rajin menganonimkan data; mereka mengira telah melakukan pekerjaan anonimisasi dengan baik, dan tidak menyadari betapa rumitnya masalah ini. Kisah - kisah peringatan ini harus memberi Anda jeda.
Karena alasan ini, saya mencegah Anda mencoba menganonimkan dataset Anda sendiri, jika Anda tidak memiliki pengalaman sebelumnya dalam bidang ini.
Penting: teknik yang diperlukan untuk menganonimkan data kemungkinan akan sangat bergantung pada jenis data yang Anda miliki dan domain aplikasi tempat Anda bekerja. Sayangnya, Anda tidak memberikan informasi ini. Akibatnya, hampir tidak mungkin untuk memberi Anda saran yang bagus tentang cara menganonimkan dataset Anda.
Saya membayangkan mungkin tergoda untuk melihat jawaban ini sebagai tidak membantu, karena alih-alih mengatakan "berbahagialah, jangan khawatir, buang saja perangkat lunak ajaib ini pada data Anda dan Anda tidak perlu berpikir", saya katakan " tunggu, ini lebih sulit daripada yang terlihat pada pandangan pertama, hati - hati ". Saya menyadari pesan ini mungkin tidak terlalu populer, tetapi saya pikir ini adalah pesan yang perlu didengar orang.
Lihatlah paket sdcMicro di CRAN. Salah satu penulis menulis makalah yang menggambarkan di luar sketsa yang disertakan juga.
Salah satu pendekatan akan menggunakan filter Bloom. Periksa situs web proyek SAFELINK untuk program - program di Java dan Python. Metode menjelaskan kertas ada di sini .
Ada juga pendekatan yang menarik untuk menganonimisasi string dalam konteks hubungan rekaman menggunakan n-gram yang dikembangkan oleh ANU Data Mining Group . Makalah dengan deskripsi dan contoh kode Python tersedia di sini .