1. Konsep pelekat data
Masking data juga dikenali sebagai masking data. Ini adalah kaedah teknikal untuk menukar, mengubahsuai atau menutup data sensitif seperti nombor telefon bimbit, nombor kad bank dan maklumat lain apabila kami telah memberikan peraturan dan dasar masking. Teknik ini digunakan terutamanya untuk mencegah data sensitif daripada digunakan secara langsung dalam persekitaran yang tidak boleh dipercayai.
Prinsip Masking Data: Pelekat data harus mengekalkan ciri -ciri data asal, peraturan perniagaan, dan kaitan data untuk memastikan bahawa pembangunan, pengujian, dan analisis data berikutnya tidak akan terjejas oleh masking. Memastikan konsistensi dan kesahihan data sebelum dan selepas pelekat.
2. Klasifikasi Masking Data
Pelapik data boleh dibahagikan kepada Masking Data Statik (SDM) dan Masking Data Dinamik (DDM).
Masking Data Statik (SDM): Pelapik data statik memerlukan penubuhan pangkalan data persekitaran bukan pengeluaran baru untuk pengasingan dari persekitaran pengeluaran. Data sensitif diekstrak dari pangkalan data pengeluaran dan kemudian disimpan dalam pangkalan data bukan pengeluaran. Dengan cara ini, data desensitized diasingkan dari persekitaran pengeluaran, yang memenuhi keperluan perniagaan dan memastikan keselamatan data pengeluaran.
Masking Data Dinamik (DDM): Ia biasanya digunakan dalam persekitaran pengeluaran untuk menghilangkan data sensitif dalam masa nyata. Kadang -kadang, tahap pelekat yang berbeza diperlukan untuk membaca data sensitif yang sama dalam situasi yang berbeza. Sebagai contoh, peranan dan keizinan yang berbeza boleh melaksanakan skim pelekat yang berbeza.
Pelaporan Data dan Produk Data Aplikasi Masking
Senario sedemikian terutamanya termasuk produk pemantauan data dalaman atau papan iklan, produk data perkhidmatan luaran, dan laporan berdasarkan analisis data, seperti laporan perniagaan dan semakan projek.
3. Penyelesaian Masking Data
Skim pelekat data biasa termasuk: Pembatalan, nilai rawak, penggantian data, penyulitan simetri, nilai purata, mengimbangi dan pembulatan, dll.
Pembatalan: Pembatalan merujuk kepada penyulitan, pemotongan, atau menyembunyikan data sensitif. Skim ini biasanya menggantikan data sebenar dengan simbol khas (seperti *). Operasi ini mudah, tetapi pengguna tidak dapat mengetahui format data asal, yang mungkin menjejaskan aplikasi data berikutnya.
Nilai rawak: Nilai rawak merujuk kepada penggantian rawak data sensitif (nombor menggantikan digit, huruf menggantikan huruf, dan aksara menggantikan aksara). Kaedah pelekat ini akan memastikan format data sensitif ke tahap tertentu dan memudahkan aplikasi data berikutnya. Kamus masking mungkin diperlukan untuk beberapa perkataan yang bermakna, seperti nama orang dan tempat.
Penggantian data: Penggantian data adalah serupa dengan masking nilai null dan rawak, kecuali bahawa bukannya menggunakan aksara khas atau nilai rawak, data pelekat digantikan dengan nilai tertentu.
Penyulitan simetri: Penyulitan simetri adalah kaedah pelekat terbalik khas. Ia menyulitkan data sensitif melalui kunci penyulitan dan algoritma. Format ciphertext adalah konsisten dengan data asal dalam peraturan logik.
Purata: Skim purata sering digunakan dalam senario statistik. Untuk data berangka, kita mula -mula mengira min mereka, dan kemudian secara rawak mengedarkan nilai -nilai desensitized di sekitar min, dengan itu mengekalkan jumlah pemalar data.
Mengimbangi dan membulatkan: Kaedah ini mengubah data digital dengan peralihan rawak. Pembulatan offset memastikan keaslian anggaran julat sambil mengekalkan keselamatan data, yang lebih dekat dengan data sebenar daripada skim terdahulu, dan mempunyai kepentingan yang besar dalam senario analisis data besar.
Model yang disyorkan "ML-NPB-5660"Untuk masking data
4. Teknik pelekat data yang biasa digunakan
(1). Teknik Statistik
Pensampelan data dan pengagregatan data
- Pensampelan data: Analisis dan penilaian data asal yang ditetapkan dengan memilih subset wakil set data adalah kaedah penting untuk meningkatkan keberkesanan teknik pengenalpastian.
- Pengagregatan data: Sebagai koleksi teknik statistik (seperti penjumlahan, pengiraan, purata, maksimum dan minimum) yang digunakan untuk atribut dalam microdata, hasilnya mewakili semua rekod dalam set data asal.
(2). Kriptografi
Kriptografi adalah kaedah yang sama untuk menghilangkan atau meningkatkan keberkesanan desensitisasi. Jenis algoritma penyulitan yang berbeza boleh mencapai kesan desensitisasi yang berbeza.
- Penyulitan deterministik: Penyulitan simetri bukan rawak. Ia biasanya memproses data ID dan boleh menyahsulit dan memulihkan ciphertext ke ID asal apabila perlu, tetapi kunci perlu dilindungi dengan betul.
- Penyulitan yang tidak dapat dipulihkan: Fungsi hash digunakan untuk memproses data, yang biasanya digunakan untuk data ID. Ia tidak boleh disahsulit secara langsung dan hubungan pemetaan mesti disimpan. Di samping itu, disebabkan ciri fungsi hash, perlanggaran data mungkin berlaku.
- Penyulitan homomorfik: algoritma homomorfik ciphertext digunakan. Ciri -cirinya adalah bahawa hasil operasi ciphertext adalah sama dengan operasi plaintext selepas penyahsulitan. Oleh itu, ia biasanya digunakan untuk memproses bidang berangka, tetapi ia tidak digunakan secara meluas untuk sebab -sebab prestasi.
(3). Teknologi Sistem
Teknologi penindasan memadam atau melindungi item data yang tidak memenuhi perlindungan privasi, tetapi tidak menerbitkannya.
- Masking: Ia merujuk kepada kaedah desensitisasi yang paling biasa untuk menutup nilai atribut, seperti nombor lawan, kad ID ditandakan dengan asterisk, atau alamat dipotong.
- Penindasan tempatan: merujuk kepada proses memadam nilai atribut tertentu (lajur), mengeluarkan medan data yang tidak penting;
- Rekod penindasan: merujuk kepada proses memadam rekod tertentu (baris), memadam rekod data yang tidak penting.
(4). Teknologi Pseudonym
Pseudomanning adalah teknik pengenalpastian yang menggunakan nama samaran untuk menggantikan pengenal langsung (atau pengenal sensitif lain). Teknik pseudonym membuat pengenal unik untuk setiap subjek maklumat individu, bukan pengenal langsung atau sensitif.
- Ia boleh menjana nilai rawak secara bebas untuk sesuai dengan ID asal, menyimpan jadual pemetaan, dan mengawal akses ke jadual pemetaan.
- Anda juga boleh menggunakan penyulitan untuk menghasilkan nama samaran, tetapi perlu menyimpan kunci penyahsulitan dengan betul;
Teknologi ini digunakan secara meluas dalam kes sejumlah besar pengguna data bebas, seperti OpenID dalam senario platform terbuka, di mana pemaju yang berbeza memperoleh OpenID yang berbeza untuk pengguna yang sama.
(5). Teknik generalisasi
Teknik generalisasi merujuk kepada teknik pengenalpastian yang mengurangkan granulariti atribut yang dipilih dalam set data dan memberikan penerangan yang lebih umum dan abstrak mengenai data. Teknologi generalisasi mudah dilaksanakan dan dapat melindungi kesahihan data peringkat rekod. Ia biasanya digunakan dalam produk data atau laporan data.
- Bulat: Melibatkan memilih asas pembulatan untuk atribut yang dipilih, seperti forensik ke atas atau ke bawah, menghasilkan hasil 100, 500, 1K, dan 10K
- Teknik pengekodan atas dan bawah: Gantikan nilai di atas (atau di bawah) ambang dengan ambang yang mewakili tahap atas (atau bawah), menghasilkan hasil "di atas x" atau "di bawah x"
(6). Teknik rawak
Sebagai semacam teknik pengenalpastian, teknologi rawak merujuk kepada mengubah nilai atribut melalui rawak, supaya nilai selepas rawak adalah berbeza dari nilai sebenar asal. Proses ini mengurangkan keupayaan penyerang untuk memperoleh nilai atribut dari nilai atribut lain dalam rekod data yang sama, tetapi mempengaruhi kesahihan data yang dihasilkan, yang biasa dengan data ujian pengeluaran.
Masa Post: Sep-27-2022