1. ແນວຄວາມຄິດຂອງ Data Masking
ການປິດບັງຂໍ້ມູນຍັງເອີ້ນວ່າການປິດບັງຂໍ້ມູນ.ມັນເປັນວິທີການດ້ານວິຊາການທີ່ຈະແປງ, ແກ້ໄຂຫຼືກວມເອົາຂໍ້ມູນທີ່ລະອຽດອ່ອນເຊັ່ນ: ເບີໂທລະສັບໂທລະສັບມືຖື, ເລກບັດທະນາຄານແລະຂໍ້ມູນອື່ນໆໃນເວລາທີ່ພວກເຮົາໄດ້ໃຫ້ກົດລະບຽບແລະນະໂຍບາຍຫນ້າກາກ.ເຕັກນິກນີ້ຖືກນໍາໃຊ້ຕົ້ນຕໍເພື່ອປ້ອງກັນບໍ່ໃຫ້ຂໍ້ມູນທີ່ລະອຽດອ່ອນຈາກການນໍາໃຊ້ໂດຍກົງໃນສະພາບແວດລ້ອມທີ່ບໍ່ຫນ້າເຊື່ອຖື.
ຫຼັກການ Masking ຂໍ້ມູນ: ການໃສ່ຫນ້າກາກຂໍ້ມູນຄວນຮັກສາຄຸນລັກສະນະຂອງຂໍ້ມູນຕົ້ນສະບັບ, ກົດລະບຽບທຸລະກິດແລະຄວາມກ່ຽວຂ້ອງຂອງຂໍ້ມູນເພື່ອຮັບປະກັນວ່າການພັດທະນາ, ການທົດສອບແລະການວິເຄາະຂໍ້ມູນຕໍ່ໄປຈະບໍ່ໄດ້ຮັບຜົນກະທົບຈາກການໃສ່ຫນ້າກາກ.ຮັບປະກັນຄວາມສອດຄ່ອງ ແລະຄວາມຖືກຕ້ອງຂອງຂໍ້ມູນກ່ອນ ແລະຫຼັງການໃສ່ໜ້າກາກ.
2. ການຈັດປະເພດການປິດບັງຂໍ້ມູນ
ການປິດບັງຂໍ້ມູນສາມາດແບ່ງອອກເປັນການປິດບັງຂໍ້ມູນແບບຄົງທີ່ (SDM) ແລະການປິດບັງຂໍ້ມູນແບບເຄື່ອນໄຫວ (DDM).
ການປິດບັງຂໍ້ມູນແບບຄົງທີ່ (SDM): ການປິດບັງຂໍ້ມູນແບບຄົງທີ່ຮຽກຮ້ອງໃຫ້ມີການສ້າງຖານຂໍ້ມູນສະພາບແວດລ້ອມທີ່ບໍ່ແມ່ນການຜະລິດໃຫມ່ສໍາລັບການໂດດດ່ຽວຈາກສະພາບແວດລ້ອມການຜະລິດ.ຂໍ້ມູນທີ່ລະອຽດອ່ອນຖືກສະກັດຈາກຖານຂໍ້ມູນການຜະລິດແລະຫຼັງຈາກນັ້ນເກັບໄວ້ໃນຖານຂໍ້ມູນທີ່ບໍ່ແມ່ນການຜະລິດ.ດ້ວຍວິທີນີ້, ຂໍ້ມູນ desensitized ແມ່ນໂດດດ່ຽວຈາກສະພາບແວດລ້ອມການຜະລິດ, ເຊິ່ງຕອບສະຫນອງຄວາມຕ້ອງການຂອງທຸລະກິດແລະຮັບປະກັນຄວາມປອດໄພຂອງຂໍ້ມູນການຜະລິດ.
ການປິດບັງຂໍ້ມູນແບບໄດນາມິກ (DDM): ມັນຖືກນໍາໃຊ້ໂດຍທົ່ວໄປໃນສະພາບແວດລ້ອມການຜະລິດເພື່ອ desensitize ຂໍ້ມູນທີ່ລະອຽດອ່ອນໃນເວລາທີ່ແທ້ຈິງ.ບາງຄັ້ງ, ລະດັບທີ່ແຕກຕ່າງກັນຂອງຫນ້າກາກແມ່ນຈໍາເປັນເພື່ອອ່ານຂໍ້ມູນທີ່ລະອຽດອ່ອນດຽວກັນໃນສະຖານະການທີ່ແຕກຕ່າງກັນ.ຕົວຢ່າງ, ພາລະບົດບາດແລະການອະນຸຍາດທີ່ແຕກຕ່າງກັນອາດຈະປະຕິບັດໂຄງການຫນ້າກາກທີ່ແຕກຕ່າງກັນ.
ການລາຍງານຂໍ້ມູນແລະຜະລິດຕະພັນຂໍ້ມູນຄໍາຮ້ອງສະຫມັກຫນ້າກາກ
ສະຖານະການດັ່ງກ່າວສ່ວນໃຫຍ່ແມ່ນປະກອບມີຜະລິດຕະພັນການກວດສອບຂໍ້ມູນພາຍໃນຫຼືປ້າຍໂຄສະນາ, ຜະລິດຕະພັນຂໍ້ມູນການບໍລິການພາຍນອກ, ແລະບົດລາຍງານໂດຍອີງໃສ່ການວິເຄາະຂໍ້ມູນ, ເຊັ່ນ: ບົດລາຍງານທຸລະກິດແລະການທົບທວນໂຄງການ.
3. Data Masking Solution
ໂຄງການປົກປ້ອງຂໍ້ມູນທົ່ວໄປປະກອບມີ: invalidation , ຄ່າ Random , ການທົດແທນຂໍ້ມູນ, ການເຂົ້າລະຫັດສົມມາດ, ມູນຄ່າສະເລ່ຍ, offset ແລະການມົນ, ແລະອື່ນໆ.
ບໍ່ຖືກຕ້ອງ: ບໍ່ຖືກຕ້ອງຫມາຍເຖິງການເຂົ້າລະຫັດ, ຕັດອອກ, ຫຼືການເຊື່ອງຂໍ້ມູນທີ່ລະອຽດອ່ອນ.ໂຄງການນີ້ປົກກະຕິແລ້ວທົດແທນຂໍ້ມູນທີ່ແທ້ຈິງທີ່ມີສັນຍາລັກພິເສດ (ເຊັ່ນ: *).ການດໍາເນີນງານແມ່ນງ່າຍດາຍ, ແຕ່ຜູ້ໃຊ້ບໍ່ສາມາດຮູ້ຮູບແບບຂອງຂໍ້ມູນຕົ້ນສະບັບ, ເຊິ່ງອາດຈະສົ່ງຜົນກະທົບຕໍ່ຄໍາຮ້ອງສະຫມັກຂໍ້ມູນຕໍ່ມາ.
ຄ່າສຸ່ມ: ຄ່າສຸ່ມໝາຍເຖິງການແທນທີ່ຂໍ້ມູນລະອຽດອ່ອນແບບສຸ່ມ (ຕົວເລກແທນຕົວເລກ, ຕົວອັກສອນແທນຕົວອັກສອນ ແລະ ຕົວອັກສອນແທນຕົວອັກສອນ).ວິທີການຫນ້າກາກນີ້ຈະຮັບປະກັນຮູບແບບຂອງຂໍ້ມູນທີ່ລະອຽດອ່ອນໃນລະດັບໃດຫນຶ່ງແລະສ້າງຄວາມສະດວກໃນການນໍາໃຊ້ຂໍ້ມູນຕໍ່ມາ.ການປິດບັງວັດຈະນານຸກົມອາດຈະຈໍາເປັນສໍາລັບບາງຄໍາທີ່ມີຄວາມຫມາຍ, ເຊັ່ນ: ຊື່ຂອງຄົນແລະສະຖານທີ່.
ການທົດແທນຂໍ້ມູນ: ການທົດແທນຂໍ້ມູນແມ່ນຄ້າຍຄືກັນກັບການປິດບັງຄ່າ null ແລະ random, ຍົກເວັ້ນວ່າແທນທີ່ຈະໃຊ້ຕົວອັກສອນພິເສດ ຫຼືຄ່າສຸ່ມ, ຂໍ້ມູນການໃສ່ໜ້າກາກຈະຖືກແທນທີ່ດ້ວຍຄ່າສະເພາະ.
ການເຂົ້າລະຫັດແບບ Symmetric: ການເຂົ້າລະຫັດແບບ Symmetric ແມ່ນວິທີການປິດບັງແບບປີ້ນກັບກັນແບບພິເສດ.ມັນເຂົ້າລະຫັດຂໍ້ມູນທີ່ລະອຽດອ່ອນຜ່ານກະແຈການເຂົ້າລະຫັດ ແລະສູດການຄິດໄລ່.ຮູບແບບ ciphertext ແມ່ນສອດຄ່ອງກັບຂໍ້ມູນຕົ້ນສະບັບໃນກົດລະບຽບທີ່ມີເຫດຜົນ.
ສະເລ່ຍ: ໂຄງການສະເລ່ຍມັກຈະຖືກນໍາໃຊ້ໃນສະຖານະການສະຖິຕິ.ສໍາລັບຂໍ້ມູນຕົວເລກ, ພວກເຮົາທໍາອິດຄິດໄລ່ຄ່າສະເລ່ຍຂອງພວກມັນ, ແລະຫຼັງຈາກນັ້ນແຈກຢາຍຄ່າ desensitized ແບບສຸ່ມປະມານຄ່າສະເລ່ຍ, ດັ່ງນັ້ນຈຶ່ງເຮັດໃຫ້ຜົນລວມຂອງຂໍ້ມູນຄົງທີ່.
Offset ແລະ Rounding: ວິທີນີ້ປ່ຽນຂໍ້ມູນດິຈິຕອນໂດຍການປ່ຽນແບບສຸ່ມ.ການປິດຮອບອອບເຊັດຮັບປະກັນຄວາມຖືກຕ້ອງປະມານຂອງຊ່ວງໃນຂະນະທີ່ຮັກສາຄວາມປອດໄພຂອງຂໍ້ມູນ, ເຊິ່ງໃກ້ຊິດກັບຂໍ້ມູນທີ່ແທ້ຈິງຫຼາຍກ່ວາໂຄງການທີ່ຜ່ານມາ, ແລະມີຄວາມສໍາຄັນຢ່າງຫຼວງຫຼາຍໃນສະຖານະການການວິເຄາະຂໍ້ມູນໃຫຍ່.
ຮູບແບບທີ່ແນະນໍາ "ML-NPB-5660"ສໍາລັບການ Masking ຂໍ້ມູນ
4. ເຕັກນິກການປິດບັງຂໍ້ມູນທີ່ໃຊ້ທົ່ວໄປ
(1).ເຕັກນິກສະຖິຕິ
ການເກັບຕົວຢ່າງຂໍ້ມູນແລະການລວບລວມຂໍ້ມູນ
- ການເກັບຕົວຢ່າງຂໍ້ມູນ: ການວິເຄາະແລະປະເມີນຜົນຂອງຊຸດຂໍ້ມູນຕົ້ນສະບັບໂດຍການເລືອກຊຸດຍ່ອຍຕົວແທນຂອງຊຸດຂໍ້ມູນເປັນວິທີການທີ່ສໍາຄັນເພື່ອປັບປຸງປະສິດທິພາບຂອງເຕັກນິກການ de-identification.
- ການລວບລວມຂໍ້ມູນ: ເປັນການລວບລວມເຕັກນິກສະຖິຕິ (ເຊັ່ນ: ການສະຫຼຸບ, ການນັບ, ຄ່າສະເລ່ຍ, ສູງສຸດແລະຕໍາ່ສຸດທີ່) ນໍາໃຊ້ກັບຄຸນລັກສະນະໃນ microdata, ຜົນໄດ້ຮັບແມ່ນເປັນຕົວແທນຂອງບັນທຶກທັງຫມົດໃນຊຸດຂໍ້ມູນຕົ້ນສະບັບ.
(2).ການເຂົ້າລະຫັດລັບ
Cryptography ແມ່ນວິທີການທົ່ວໄປເພື່ອ desensitize ຫຼືເພີ່ມປະສິດທິພາບຂອງ desensitization.ປະເພດຂອງສູດການເຂົ້າລະຫັດທີ່ແຕກຕ່າງກັນສາມາດບັນລຸຜົນກະທົບ desensitization ທີ່ແຕກຕ່າງກັນ.
- ການເຂົ້າລະຫັດຕົວກໍານົດ: ການເຂົ້າລະຫັດສະສົມທີ່ບໍ່ແມ່ນ Random.ໂດຍປົກກະຕິແລ້ວມັນປະມວນຜົນຂໍ້ມູນ ID ແລະສາມາດຖອດລະຫັດ ແລະຟື້ນຟູລະຫັດລັບໃຫ້ກັບ ID ເດີມເມື່ອມີຄວາມຈໍາເປັນ, ແຕ່ກະແຈຕ້ອງໄດ້ຮັບການປົກປ້ອງຢ່າງຖືກຕ້ອງ.
- ການເຂົ້າລະຫັດທີ່ບໍ່ປ່ຽນແປງໄດ້: ຟັງຊັນ hash ຖືກນໍາໃຊ້ເພື່ອປະມວນຜົນຂໍ້ມູນ, ເຊິ່ງປົກກະຕິແລ້ວແມ່ນໃຊ້ສໍາລັບຂໍ້ມູນ ID.ມັນບໍ່ສາມາດຖືກຖອດລະຫັດໂດຍກົງໄດ້ ແລະຄວາມສຳພັນຂອງແຜນທີ່ຈະຕ້ອງຖືກບັນທຶກໄວ້.ນອກຈາກນັ້ນ, ເນື່ອງຈາກຄຸນນະສົມບັດຂອງຫນ້າທີ່ hash, ການຂັດກັນຂໍ້ມູນອາດຈະເກີດຂື້ນ.
- ການເຂົ້າລະຫັດ homomorphic: ສູດການຄິດໄລ່ homomorphic ciphertext ຖືກນໍາໃຊ້.ຄຸນລັກສະນະຂອງມັນແມ່ນວ່າຜົນຂອງການດໍາເນີນງານ ciphertext ແມ່ນຄືກັນກັບການປະຕິບັດຂໍ້ຄວາມທໍາມະດາຫຼັງຈາກການຖອດລະຫັດ.ດັ່ງນັ້ນ, ມັນຖືກນໍາໃຊ້ໂດຍທົ່ວໄປເພື່ອປະມວນຜົນພາກສະຫນາມຕົວເລກ, ແຕ່ມັນບໍ່ໄດ້ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງສໍາລັບເຫດຜົນການປະຕິບັດ.
(3).ເຕັກໂນໂລຊີລະບົບ
ເທກໂນໂລຍີສະກັດກັ້ນລຶບຫຼືປ້ອງກັນລາຍການຂໍ້ມູນທີ່ບໍ່ຕອບສະຫນອງການປົກປ້ອງຄວາມເປັນສ່ວນຕົວ, ແຕ່ບໍ່ໄດ້ເຜີຍແຜ່ພວກມັນ.
- Masking: ມັນຫມາຍເຖິງວິທີການ desensitization ທົ່ວໄປທີ່ສຸດເພື່ອ mask ມູນຄ່າ attribute, ເຊັ່ນ: ຈໍານວນ opponent, ບັດປະຈໍາຕົວແມ່ນຫມາຍດ້ວຍດາວ, ຫຼືທີ່ຢູ່ຖືກຕັດອອກ.
- ການສະກັດກັ້ນທ້ອງຖິ່ນ: ຫມາຍເຖິງຂະບວນການລຶບຄຸນລັກສະນະສະເພາະ (ຄໍລໍາ), ການຖອນຊ່ອງຂໍ້ມູນທີ່ບໍ່ຈໍາເປັນ;
- ການສະກັດກັ້ນການບັນທຶກ: ໝາຍເຖິງຂະບວນການລຶບບັນທຶກສະເພາະ (ແຖວ), ລຶບບັນທຶກຂໍ້ມູນທີ່ບໍ່ຈຳເປັນອອກ.
(4).ເທັກໂນໂລຍີນາມສະກຸນ
Pseudomanning ແມ່ນເຕັກນິກການ de-identification ທີ່ໃຊ້ນາມສະກຸນເພື່ອທົດແທນຕົວລະບຸໂດຍກົງ (ຫຼືຕົວລະບຸທີ່ລະອຽດອ່ອນອື່ນໆ).ເຕັກນິກການໃສ່ນາມສະກຸນສ້າງຕົວລະບຸທີ່ເປັນເອກະລັກສໍາລັບແຕ່ລະຫົວຂໍ້ຂໍ້ມູນສ່ວນບຸກຄົນ, ແທນທີ່ຈະເປັນຕົວລະບຸໂດຍກົງຫຼືລະອຽດອ່ອນ.
- ມັນສາມາດສ້າງຄ່າສຸ່ມເປັນອິດສະຫຼະທີ່ຈະສອດຄ່ອງກັບ ID ຕົ້ນສະບັບ, ຊ່ວຍປະຢັດຕາຕະລາງການສ້າງແຜນທີ່, ແລະການຄວບຄຸມຢ່າງເຂັ້ມງວດການເຂົ້າເຖິງຕາຕະລາງການສ້າງແຜນທີ່.
- ທ່ານຍັງສາມາດໃຊ້ການເຂົ້າລະຫັດເພື່ອຜະລິດນາມສະກຸນ, ແຕ່ຕ້ອງຮັກສາລະຫັດການຖອດລະຫັດໃຫ້ຖືກຕ້ອງ;
ເທກໂນໂລຍີນີ້ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນກໍລະນີຂອງຜູ້ໃຊ້ຂໍ້ມູນເອກະລາດຈໍານວນຫລາຍ, ເຊັ່ນ OpenID ໃນສະຖານະການເວທີເປີດ, ບ່ອນທີ່ນັກພັດທະນາທີ່ແຕກຕ່າງກັນໄດ້ຮັບ Openids ທີ່ແຕກຕ່າງກັນສໍາລັບຜູ້ໃຊ້ດຽວກັນ.
(5).ເຕັກນິກການທົ່ວໄປ
ເຕັກນິກການໃຫ້ຂໍ້ມູນທົ່ວໄປຫມາຍເຖິງເຕັກນິກການ de-identification ທີ່ຫຼຸດຜ່ອນ granularity ຂອງຄຸນລັກສະນະທີ່ເລືອກໃນຊຸດຂໍ້ມູນແລະສະຫນອງລາຍລະອຽດທົ່ວໄປແລະ abstract ຂອງຂໍ້ມູນ.ເທັກໂນໂລຍີ Generalization ແມ່ນງ່າຍທີ່ຈະປະຕິບັດແລະສາມາດປົກປ້ອງຄວາມຖືກຕ້ອງຂອງຂໍ້ມູນລະດັບບັນທຶກ.ມັນຖືກນໍາໃຊ້ທົ່ວໄປໃນຜະລິດຕະພັນຂໍ້ມູນຫຼືບົດລາຍງານຂໍ້ມູນ.
- Rounding: ມີການຄັດເລືອກເອົາພື້ນຖານການມົນສໍາລັບຄຸນລັກສະນະທີ່ເລືອກເຊັ່ນການຂຶ້ນຫຼືລົງ forensics , ຜົນຜະລິດ 100, 500, 1K, ແລະ 10K.
- ເທັກນິກການເຂົ້າລະຫັດເທິງ ແລະລຸ່ມ: ແທນທີ່ຄ່າຂ້າງເທິງ (ຫຼືຕ່ຳກວ່າ) ຂີດຈຳກັດດ້ວຍເກນທີ່ສະແດງເຖິງລະດັບເທິງ (ຫຼືລຸ່ມ), ຜົນໄດ້ຮັບຂອງ "ຂ້າງເທິງ X" ຫຼື "ຂ້າງລຸ່ມ X"
(6).ເຕັກນິກການ Randomization
ໃນຖານະເປັນປະເພດຂອງເຕັກນິກການ de-identification, ເຕັກໂນໂລຊີການສຸ່ມຫມາຍເຖິງການດັດແກ້ມູນຄ່າຂອງຄຸນລັກສະນະໂດຍຜ່ານການສຸ່ມ, ດັ່ງນັ້ນມູນຄ່າຫຼັງຈາກການສຸ່ມແມ່ນແຕກຕ່າງຈາກມູນຄ່າທີ່ແທ້ຈິງຕົ້ນສະບັບ.ຂະບວນການນີ້ຫຼຸດລົງຄວາມສາມາດຂອງຜູ້ໂຈມຕີທີ່ຈະເອົາມູນຄ່າຄຸນລັກສະນະຈາກຄ່າຄຸນລັກສະນະອື່ນໆໃນບັນທຶກຂໍ້ມູນດຽວກັນ, ແຕ່ຜົນກະທົບຕໍ່ຄວາມຖືກຕ້ອງຂອງຂໍ້ມູນຜົນໄດ້ຮັບ, ເຊິ່ງແມ່ນທົ່ວໄປກັບຂໍ້ມູນການທົດສອບການຜະລິດ.
ເວລາປະກາດ: ກັນຍາ-27-2022