1. Konsep Data Masking
Data masking juga dikenali sebagai data masking. Ia adalah kaedah teknikal untuk menukar, mengubah suai atau melindungi data sensitif seperti nombor telefon mudah alih, nombor kad bank dan maklumat lain apabila kami telah memberikan peraturan dan dasar penyamaran. Teknik ini digunakan terutamanya untuk menghalang data sensitif daripada digunakan secara langsung dalam persekitaran yang tidak boleh dipercayai.
Prinsip Penyamaran Data: Penyamaran data harus mengekalkan ciri data asal, peraturan perniagaan dan perkaitan data untuk memastikan bahawa pembangunan, ujian dan analisis data yang seterusnya tidak akan terjejas oleh penyamaran. Pastikan ketekalan dan kesahihan data sebelum dan selepas penyamaran.
2. Pengelasan Data Masking
Data masking boleh dibahagikan kepada static data masking (SDM) dan dynamic data masking (DDM).
Melindungi data statik (SDM): Penopengan data statik memerlukan penubuhan pangkalan data persekitaran bukan pengeluaran baharu untuk pengasingan daripada persekitaran pengeluaran. Data sensitif diekstrak daripada pangkalan data pengeluaran dan kemudian disimpan dalam pangkalan data bukan pengeluaran. Dengan cara ini, data desensitisasi diasingkan daripada persekitaran pengeluaran, yang memenuhi keperluan perniagaan dan memastikan keselamatan data pengeluaran.
Penyekat Data Dinamik (DDM): Ia biasanya digunakan dalam persekitaran pengeluaran untuk menyahpeka data sensitif dalam masa nyata. Kadangkala, tahap penyamaran yang berbeza diperlukan untuk membaca data sensitif yang sama dalam situasi yang berbeza. Contohnya, peranan dan kebenaran yang berbeza mungkin melaksanakan skim penyamaran yang berbeza.
Pelaporan data dan aplikasi penyamaran produk data
Senario sedemikian terutamanya termasuk produk pemantauan data dalaman atau papan iklan, produk data perkhidmatan luaran dan laporan berdasarkan analisis data, seperti laporan perniagaan dan semakan projek.
3. Penyelesaian Penyamaran Data
Skim penyamaran data biasa termasuk: ketidaksahihan, nilai rawak, penggantian data, penyulitan simetri, nilai purata, mengimbangi dan membulatkan, dsb.
Pembatalan: Pembatalan merujuk kepada penyulitan, pemotongan atau penyembunyian data sensitif. Skim ini biasanya menggantikan data sebenar dengan simbol khas (seperti *). Operasi ini mudah, tetapi pengguna tidak dapat mengetahui format data asal, yang mungkin menjejaskan aplikasi data berikutnya.
Nilai Rawak: Nilai rawak merujuk kepada penggantian rawak data sensitif (nombor menggantikan digit, huruf menggantikan huruf, dan aksara menggantikan aksara). Kaedah masking ini akan memastikan format data sensitif pada tahap tertentu dan memudahkan aplikasi data seterusnya. Menyamarkan kamus mungkin diperlukan untuk beberapa perkataan yang bermakna, seperti nama orang dan tempat.
Penggantian Data: Penggantian data adalah serupa dengan penutupan nilai nol dan rawak, kecuali daripada menggunakan aksara khas atau nilai rawak, data penutup digantikan dengan nilai tertentu.
Penyulitan simetri: Penyulitan simetri ialah kaedah penyamaran boleh balik khas. Ia menyulitkan data sensitif melalui kunci dan algoritma penyulitan. Format teks sifir adalah konsisten dengan data asal dalam peraturan logik.
Purata: Skim purata sering digunakan dalam senario statistik. Untuk data berangka, kami mula-mula mengira min mereka, dan kemudian mengedarkan nilai-nilai desensitisasi secara rawak di sekeliling min, dengan itu mengekalkan jumlah data yang tetap.
Offset dan Pembundaran: Kaedah ini menukar data digital dengan anjakan rawak. Pembundaran mengimbangi memastikan anggaran ketulenan julat sambil mengekalkan keselamatan data, yang lebih dekat dengan data sebenar berbanding skim sebelumnya, dan mempunyai kepentingan yang besar dalam senario analisis data besar.
Model yang Disyorkan "ML-NPB-5660" untuk Data Masking
4. Teknik Data Masking yang biasa digunakan
(1). Teknik Statistik
Persampelan data dan pengagregatan data
- Persampelan data: Analisis dan penilaian set data asal dengan memilih subset yang mewakili set data adalah kaedah penting untuk meningkatkan keberkesanan teknik nyahpengenalpastian.
- Pengagregatan data: Sebagai koleksi teknik statistik (seperti penjumlahan, pengiraan, purata, maksimum dan minimum) digunakan pada atribut dalam mikrodata, hasilnya mewakili semua rekod dalam set data asal.
(2). Kriptografi
Kriptografi ialah kaedah biasa untuk menyahpeka atau meningkatkan keberkesanan penyahpekaan. Jenis algoritma penyulitan yang berbeza boleh mencapai kesan penyahpekaan yang berbeza.
- Penyulitan deterministik: Penyulitan simetri bukan rawak. Ia biasanya memproses data ID dan boleh menyahsulit serta memulihkan teks sifir kepada ID asal apabila perlu, tetapi kunci perlu dilindungi dengan betul.
- Penyulitan tidak boleh balik: Fungsi cincang digunakan untuk memproses data, yang biasanya digunakan untuk data ID. Ia tidak boleh dinyahsulit secara langsung dan hubungan pemetaan mesti disimpan. Di samping itu, disebabkan oleh ciri fungsi cincang, perlanggaran data mungkin berlaku.
- Penyulitan homomorfik: Algoritma homomorfik siferteks digunakan. Cirinya ialah hasil operasi teks sifir adalah sama seperti operasi teks biasa selepas penyahsulitan. Oleh itu, ia biasanya digunakan untuk memproses medan berangka, tetapi ia tidak digunakan secara meluas atas sebab prestasi.
(3). Teknologi Sistem
Teknologi penindasan memadamkan atau melindungi item data yang tidak memenuhi perlindungan privasi, tetapi tidak menerbitkannya.
- Masking: ia merujuk kepada kaedah penyahpekaan yang paling biasa untuk menutup nilai atribut, seperti nombor lawan, kad ID ditandai dengan asterisk, atau alamat dipotong.
- Penindasan setempat: merujuk kepada proses memadamkan nilai atribut tertentu (lajur), mengalih keluar medan data yang tidak penting;
- Penindasan rekod: merujuk kepada proses pemadaman rekod tertentu (baris), pemadaman rekod data yang tidak penting.
(4). Teknologi nama samaran
Pseudomanning ialah teknik nyah pengenalan yang menggunakan nama samaran untuk menggantikan pengecam langsung (atau pengecam sensitif lain). Teknik nama samaran mencipta pengecam unik untuk setiap subjek maklumat individu, bukannya pengecam langsung atau sensitif.
- Ia boleh menjana nilai rawak secara bebas untuk sepadan dengan ID asal, menyimpan jadual pemetaan dan mengawal akses ke jadual pemetaan dengan ketat.
- Anda juga boleh menggunakan penyulitan untuk menghasilkan nama samaran, tetapi perlu menyimpan kunci penyahsulitan dengan betul;
Teknologi ini digunakan secara meluas dalam kes sejumlah besar pengguna data bebas, seperti OpenID dalam senario platform terbuka, di mana pembangun yang berbeza memperoleh Openid yang berbeza untuk pengguna yang sama.
(5). Teknik Generalisasi
Teknik generalisasi merujuk kepada teknik nyah pengenalan yang mengurangkan butiran atribut terpilih dalam set data dan memberikan penerangan yang lebih umum dan abstrak bagi data. Teknologi generalisasi mudah dilaksanakan dan boleh melindungi ketulenan data peringkat rekod. Ia biasanya digunakan dalam produk data atau laporan data.
- Pembundaran: melibatkan pemilihan pangkalan pembundaran untuk atribut yang dipilih, seperti forensik ke atas atau ke bawah, menghasilkan keputusan 100, 500, 1K dan 10K
- Teknik pengekodan atas dan bawah: Gantikan nilai di atas (atau di bawah) ambang dengan ambang yang mewakili tahap atas (atau bawah), menghasilkan hasil "di atas X" atau "di bawah X"
(6). Teknik Rawak
Sebagai sejenis teknik nyah pengenalan, teknologi rawak merujuk kepada mengubah suai nilai atribut melalui rawak, supaya nilai selepas rawak adalah berbeza daripada nilai sebenar asal. Proses ini mengurangkan keupayaan penyerang untuk memperoleh nilai atribut daripada nilai atribut lain dalam rekod data yang sama, tetapi menjejaskan ketulenan data yang terhasil, yang biasa dengan data ujian pengeluaran.
Masa siaran: Sep-27-2022