Alat apa yang ada untuk masking data? (MySQL, Linux) [ditutup]


14

Saya mencari alat masking data (idealnya gratis, open-source). Apakah ada yang seperti itu?

Catatan: pertanyaan terkait ini berkaitan dengan alat untuk menghasilkan data pengujian, tetapi dalam pertanyaan ini saya lebih tertarik untuk memulai dengan data nyata, dan menutupinya untuk digunakan dalam pengujian tanpa kehilangan hubungan khusus yang membuatnya menarik untuk tujuan pengujian. Data yang dihasilkan baik untuk beberapa tujuan pengujian, tetapi data dunia nyata akan memunculkan masalah yang tidak pernah Anda pikirkan. Alat untuk menghasilkan kumpulan data uji yang besar

Jawaban:


9

Saya akan sangat terkejut jika ada alat generik untuk ini - bagaimana ia "tahu" apa data sensitif dan apa yang tidak? Misalnya perlu memeriksa semua data Anda dan mengenali semua format yang mungkin dari nomor kartu kredit, nomor telepon, kode pos, alamat email, dan apa pun data lain yang dianggap sensitif. Skema Anda juga perlu cerdas - mis. Haruskah ia menulis ulang semua alamat email pelanggan menjadi "nobody@company.com" - atau apakah ada bagian dari basis data, aplikasi, alat-alat Anda yang menganggap bahwa alamat email pelanggan (atau SSN atau apa pun) unik? Atau apakah Anda memiliki sebagian aplikasi yang memeriksa nomor kartu kredit, yang akan rusak jika Anda mengatur ulang semuanya menjadi 0000 0000 0000 0000? Atau apakah sistem telepon Anda menganggap bahwa pelanggan

Pada dasarnya, mengonfigurasi alat apa pun untuk melakukannya akan lebih atau lebih berfungsi daripada hanya menulis skrip Anda sendiri, menggunakan pengetahuan Anda tentang aplikasi tersebut. Di situs saya, kami membuat kebijakan bahwa siapa pun yang menambahkan kolom dengan data tersebut di pembaruan skrip untuk menganonimkannya pada saat yang sama, setelah audit awal untuk menemukan semua kolom itu dan menulis versi 1.


1
Saya tahu ada alat komersial, seperti di tempat kerja sebelumnya ada inisiatif (gagal) untuk menggunakannya untuk Oracle dbs kami. (Saya tidak terlibat dengan proyek itu, jadi saya tidak tahu alasan kegagalan. Saya menduga bahwa pengaturan alat penyembunyian data untuk warisan db akan menjadi tugas yang sangat membosankan, seperti yang Anda sarankan).
testerab

3
Oh saya berharap seseorang akan menjual Anda sesuatu yang mengklaim ini, tetapi seperti yang saya katakan, mengonfigurasinya akan lebih berhasil daripada menulis sendiri di SQL karena Anda harus mempelajari DSL tipuan mereka terlebih dahulu!
Gayus

5

Jika basis data Anda kecil, memiliki model data sederhana dan dipahami dengan baik oleh DBA saat ini - penulisan skrip "mungkin" menjadi jawabannya. Namun, upaya (dan biaya) untuk secara manual menganalisis dan menutupi basis data yang khas dapat keluar dengan cepat begitu persyaratan berubah, fungsionalitas ditambahkan dan pengembang / DBA datang dan pergi.

Meskipun saya tidak mengetahui adanya produk penyembunyian data sumber terbuka, ada penawaran komersial yang cukup komprehensif, relatif mudah digunakan, dan mungkin lebih masuk akal dari segi biaya. Banyak dari mereka termasuk kemampuan penemuan out-of-the-box untuk mengidentifikasi dan mengklasifikasikan data sensitif (SSN, kartu kredit, nomor telepon) serta fungsi untuk mempertahankan checksum, pemformatan alamat email, pengelompokan data, dll. Sehingga menutupi data terlihat dan terasa nyata.

Tetapi Anda tidak harus mengambil kata (yang memang bias) saya untuk itu. Tanyakan analis industri seperti Gartner atau Forrester yang memiliki sejumlah laporan yang tidak bias tentang masking yang dapat membantu.

Semoga komentar ini akan mendorong Anda untuk mempertimbangkan mengeksplorasi produk komersial serta pengembangan skrip internal. Pada akhirnya, hal terpenting adalah melindungi data sensitif yang banyak dari kita lihat hari demi hari yang sebenarnya tidak perlu kita lihat untuk melakukan pekerjaan kita - menempatkan kita dan orang-orang yang memiliki data yang kami pegang berisiko.

Kevin Hillier, Spesialis Integrasi Senior, Camouflage Software Inc.


1
Saya sadar Anda tidak ingin dianggap menjual produk Anda sendiri, tetapi akan berguna jika Anda bisa menyebutkan beberapa produk komersial, atau menunjuk ke beberapa saran khusus?
testerab

1
Saya mengerti bahwa Anda bekerja untuk perusahaan ini, dan bahwa Anda mungkin ingin merekomendasikan produk Anda sendiri, dan tidak menentangnya, tetapi karena sig sepertinya iklan inline yang megah, daripada "Saya tahu apa yang saya bicarakan , karena itulah yang saya lakukan "... Saya lebih dari bujukan" gunakan bla bla bla (Pengungkapan penuh: Saya mengerjakan produk ini) karena bla bla bla "dan jangan mencantumkan nama Anda di akhir. Jika kita ingin informasi pribadi Anda, kami dapat klik pada profee Anda dan membaca bahwa sig dan klik link di sana.
jcolebrand

5

Belum pernah melihat item seperti itu, tetapi setelah bekerja dengan beberapa set data sensitif di waktu saya, hal utama yang perlu diacak adalah identitas orang atau informasi identitas pribadi. Ini seharusnya hanya muncul di beberapa tempat dalam database.

Operasi masking Anda harus mempertahankan properti statistik dan hubungan data, dan mungkin perlu mempertahankan kode referensi yang sebenarnya (atau setidaknya semacam mekanisme terjemahan terkontrol) sehingga Anda dapat merekonsiliasi data aktual.

Hal semacam ini dapat dicapai dengan mendapatkan daftar nama yang berbeda di bidang dan menggantinya dengan sesuatu seperti FirstNameXXXX (di mana XXXX adalah nomor urut, satu untuk setiap nilai yang berbeda). Nomor kartu kredit dan informasi serupa yang dapat digunakan untuk pencurian identitas sangat mungkin menjadi tidak-tidak dalam lingkungan pengembangan, tetapi Anda hanya perlu yang nyata jika Anda menguji sistem pemrosesan pembayaran - biasanya vendor akan memberikan kode khusus kepada Anda untuk akun dummy.

Tidak terlalu sulit untuk menulis prosedur anonimisasi semacam ini, tetapi Anda harus menyetujui apa yang perlu dianonimkan dengan bisnis. Jika perlu, buka bidang basis data per bidang. Bertanya ya / tidak akan memberi Anda positif palsu yang tidak Anda inginkan. Minta perwakilan bisnis untuk menjelaskan mengapa, atau konsekuensi atau implikasi peraturan dari tidak menganonimkan data tertentu.


3

Saya memiliki tugas yang sama beberapa minggu yang lalu. kami mengevaluasi beberapa sistem perangkat lunak, tetapi kebanyakan dari mereka hanya untuk tepat satu jenis basis data, misalnya oracle dan mereka sering sangat rumit untuk digunakan ... jadi uhm bukan hal terbaik untuk mengevaluasi ini. Kami butuh berminggu-minggu.

Kami memutuskan untuk membeli versi profesional data masking karena itu yang paling mudah untuk mendapatkannya. Ia juga memiliki kemungkinan keren untuk menyamarkan data, misalnya Anda dapat mengubah alamat email menjadi yang tampak nyata, misalnya ... @ siemens.com menjadi mike.miller@seimsen.com.

Anda dapat mencobanya secara gratis untuk sekitar 500 (?) Catatan sejauh yang saya ingat.

Ini tautannya http://www.data-masking-tool.com/


1
Hanya titik data: pada saat penulisan ini, alat masking data hanya berjalan sedikit $ 1.000.
Michael Teper

2

Cara saya melakukan ini:

  1. Buat database baru dengan hanya melihat dan memilih hak untuk pengguna
  2. Membuat tampilan ke tabel yang harus dapat dilihat di database lain
  3. Topeng kolom yang perlu ditutup oleh: repeat ('*', char_length ( column to be masked))

2

Saya pertama kali menyatakan jalan ini beberapa tahun yang lalu dan sejak itu membangun konsultasi berdasarkan praktik ini.

Saya berasumsi bahwa tujuannya adalah untuk membangun data uji untuk digunakan dalam lingkungan uji di mana orang-orang yang mengakses data tidak memiliki hak untuk melihat informasi produksi.

Hal pertama yang harus ditetapkan adalah elemen data apa yang perlu Anda sembunyikan dan untuk melakukannya sebaiknya mulai dengan alat penemuan data seperti Schema Spy (Open source) dan Anda akan memerlukan driver jdbc yang relevan untuk tugas ini tetapi adalah langkah yang sangat berguna dalam prosesnya.

Talend Open Studio adalah salah satu alat terbaik yang saya gunakan dalam beberapa tahun terakhir untuk melakukan beberapa fungsi ETL dan Anda juga akan dapat melakukan beberapa praktik masking dasar dengan mengganti nilai dengan acak atau. Cari / ganti - untuk mempertahankan konsistensi - menggunakan komponen peta.

Tetapi jika Anda mencari alat masking data nyata saya belum menemukan alat open source yang cocok. Jika Anda memiliki anggaran yang sangat moderat untuk alat saya sarankan Data Masker tetapi Anda perlu melakukan impor dan ekspor melalui MS SQL atau Oracle karena hanya terhubung melalui protokol-protokol itu.

Lihatlah http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset untuk info tentang masking data, metodologi masking data, penemuan data, dan data uji pengelolaan. Ada juga blog yang bermanfaat di http://www.dataobfuscation.com.au


1

Ada alat yang tersedia di Pasar dari Informatica yang disebut Informatica ILM (TDM). Ini menggunakan PowerCenter sebagai backone untuk ETL dan menyamarkan data dengan berbagai opsi masking yang tersedia. Meskipun Anda membutuhkan analis data atau UKM yang dapat memahami bagaimana data harus ditutup. Alat itu sendiri tidak memberikan informasi bidang mana yang harus ditutup, namun ada algoritma atau prosedur atau proses internal untuk mengidentifikasi bidang data pasif seperti Nama, kolom ID dengan nomor, kartu kredit, nomor SSN, Nomor Akun dll.


Selain itu, Informatica ILM TDM memungkinkan untuk menghasilkan subset data. Jadi, Anda dapat mengelompokkan data dan menutupnya atau menutupi semua data lalu mengelompokkannya sesuai kebutuhan bisnis.
Awadhesh Yona

1

Tahun ini saya memiliki kesempatan untuk bekerja dengan IBM Optim yang mengklaim melakukan apa yang diminta. Tidak gratis, tetapi berfungsi dengan baik.


1

Yang paling saya sukai adalah IRI FieldShield ( https://www.iri.com/products/fieldshield ) dalam hal fleksibilitas (sebagian besar fungsi penutupan data), kecepatan (mesin CoSort untuk perpindahan data di dalam), dan ergonomi (pekerjaan 4GL sederhana) didukung dalam GUI Eclipse dengan banyak DB dan koneksi file). Harga-bijaksana itu tentang setengah IBM dan Informatica, meskipun juga tersedia dalam paket integrasi data yang lebih besar untuk transformasi data besar, migrasi, dan BI juga. Jadi tidak gratis juga, tetapi menggunakan beberapa sumber terbuka (IDE, dan dapat menggunakan OpenSSL dan GPG) dan skrip dijalankan pada Windows, Linux, dan citarasa Unix lainnya.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.