1. Das Konzept der Datenmaskierung
Datenmaskierung wird auch als Datenmaskierung bezeichnet.Es ist eine technische Methode, sensible Daten wie Handynummer, Bankkartennummer und andere Informationen umzuwandeln, zu ändern oder abzudecken, wenn wir Maskierungsregeln und -richtlinien gegeben haben.Diese Technik wird hauptsächlich verwendet, um zu verhindern, dass sensible Daten direkt in unzuverlässigen Umgebungen verwendet werden.
Prinzip der Datenmaskierung: Die Datenmaskierung sollte die ursprünglichen Datenmerkmale, Geschäftsregeln und Datenrelevanz beibehalten, um sicherzustellen, dass die nachfolgende Entwicklung, Prüfung und Datenanalyse nicht durch die Maskierung beeinträchtigt wird.Stellen Sie Datenkonsistenz und -gültigkeit vor und nach der Maskierung sicher.
2. Datenmaskierungsklassifizierung
Datenmaskierung kann in statische Datenmaskierung (SDM) und dynamische Datenmaskierung (DDM) unterteilt werden.
Statische Datenmaskierung (SDM)Hinweis: Die statische Datenmaskierung erfordert die Einrichtung einer neuen Datenbank für eine Nicht-Produktionsumgebung, um sie von der Produktionsumgebung zu isolieren.Sensible Daten werden aus der Produktionsdatenbank extrahiert und dann in der Nicht-Produktionsdatenbank gespeichert.Auf diese Weise werden die desensibilisierten Daten von der Produktionsumgebung isoliert, was den Geschäftsanforderungen entspricht und die Sicherheit der Produktionsdaten gewährleistet.
Dynamische Datenmaskierung (DDM): Es wird im Allgemeinen in der Produktionsumgebung verwendet, um sensible Daten in Echtzeit zu desensibilisieren.Manchmal sind unterschiedliche Maskierungsebenen erforderlich, um dieselben sensiblen Daten in verschiedenen Situationen zu lesen.Beispielsweise können unterschiedliche Rollen und Berechtigungen unterschiedliche Maskierungsschemata implementieren.
Anwendung zur Maskierung von Datenberichten und Datenprodukten
Solche Szenarien umfassen hauptsächlich interne Datenüberwachungsprodukte oder Werbetafeln, externe Servicedatenprodukte und Berichte, die auf Datenanalysen basieren, wie z. B. Geschäftsberichte und Projektüberprüfungen.
3. Datenmaskierungslösung
Zu den gängigen Datenmaskierungsschemata gehören: Invalidierung, Zufallswert, Datenersetzung, symmetrische Verschlüsselung, Mittelwert, Offset und Rundung usw.
Ungültigkeitserklärung: Invalidierung bezieht sich auf die Verschlüsselung, Kürzung oder Ausblendung sensibler Daten.Dieses Schema ersetzt normalerweise echte Daten durch spezielle Symbole (z. B. *).Die Bedienung ist einfach, aber Benutzer können das Format der Originaldaten nicht kennen, was sich auf nachfolgende Datenanwendungen auswirken kann.
Zufallswert: Der Zufallswert bezieht sich auf das zufällige Ersetzen sensibler Daten (Zahlen ersetzen Ziffern, Buchstaben ersetzen Buchstaben und Zeichen ersetzen Zeichen).Diese Maskierungsmethode wird das Format sensibler Daten bis zu einem gewissen Grad sicherstellen und die spätere Datenanwendung erleichtern.Für einige aussagekräftige Wörter, wie z. B. Namen von Personen und Orten, können Maskierungswörterbücher erforderlich sein.
DatenersetzungHinweis: Die Datenersetzung ähnelt der Maskierung von Null- und Zufallswerten, außer dass die Maskierungsdaten durch einen bestimmten Wert ersetzt werden, anstatt Sonderzeichen oder Zufallswerte zu verwenden.
Symmetrische Verschlüsselung: Symmetrische Verschlüsselung ist ein spezielles reversibles Maskierungsverfahren.Es verschlüsselt sensible Daten durch Verschlüsselungsschlüssel und Algorithmen.Das Chiffretextformat stimmt mit den Originaldaten in logischen Regeln überein.
Durchschnitt: Das Durchschnittsschema wird häufig in statistischen Szenarien verwendet.Bei numerischen Daten berechnen wir zuerst ihren Mittelwert und verteilen dann die desensibilisierten Werte zufällig um den Mittelwert, wodurch die Summe der Daten konstant bleibt.
Versatz und Rundung: Dieses Verfahren ändert die digitalen Daten durch zufällige Verschiebung.Die Offset-Rundung gewährleistet die ungefähre Authentizität des Bereichs bei gleichzeitiger Wahrung der Datensicherheit, die näher an den realen Daten liegt als die vorherigen Schemata und im Szenario der Big-Data-Analyse von großer Bedeutung ist.
Das Empfehlungsmodell "ML-NPB-5660" für die Datenmaskierung
4. Häufig verwendete Datenmaskierungstechniken
(1).Statistische Methoden
Datenabtastung und Datenaggregation
- Datenstichprobe: Die Analyse und Bewertung des Originaldatensatzes durch Auswahl einer repräsentativen Teilmenge des Datensatzes ist eine wichtige Methode, um die Wirksamkeit von Anonymisierungstechniken zu verbessern.
- Datenaggregation: Als Sammlung statistischer Techniken (wie Summierung, Zählung, Mittelwertbildung, Maximum und Minimum), die auf Attribute in Mikrodaten angewendet werden, ist das Ergebnis repräsentativ für alle Datensätze im ursprünglichen Datensatz.
(2).Kryptographie
Kryptografie ist eine gängige Methode, um die Wirksamkeit der Desensibilisierung zu desensibilisieren oder zu verbessern.Unterschiedliche Arten von Verschlüsselungsalgorithmen können unterschiedliche Desensibilisierungseffekte erzielen.
- Deterministische Verschlüsselung: Eine nicht zufällige symmetrische Verschlüsselung.Es verarbeitet normalerweise ID-Daten und kann den Chiffretext bei Bedarf entschlüsseln und auf die ursprüngliche ID zurücksetzen, aber der Schlüssel muss ordnungsgemäß geschützt werden.
- Irreversible Verschlüsselung: Zur Verarbeitung von Daten wird die Hash-Funktion verwendet, die üblicherweise für ID-Daten verwendet wird.Es kann nicht direkt entschlüsselt werden und die Zuordnungsbeziehung muss gespeichert werden.Außerdem kann es aufgrund der Funktion der Hash-Funktion zu Datenkollisionen kommen.
- Homomorphe Verschlüsselung: Der homomorphe Ciphertext-Algorithmus wird verwendet.Sein Merkmal ist, dass das Ergebnis der Chiffretext-Operation dasselbe ist wie das der Klartext-Operation nach der Entschlüsselung.Daher wird es häufig zur Verarbeitung numerischer Felder verwendet, wird jedoch aus Leistungsgründen nicht häufig verwendet.
(3).Systemtechnik
Die Unterdrückungstechnologie löscht oder schirmt Datenelemente ab, die nicht dem Datenschutz entsprechen, veröffentlicht sie jedoch nicht.
- Maskierung: bezeichnet die gebräuchlichste Desensibilisierungsmethode, um den Attributwert zu maskieren, z. B. die Nummer des Gegners, der Ausweis wird mit einem Sternchen gekennzeichnet oder die Adresse wird abgeschnitten.
- Lokale Unterdrückung: bezieht sich auf den Prozess des Löschens bestimmter Attributwerte (Spalten), Entfernen nicht wesentlicher Datenfelder;
- Datensatzunterdrückung: bezieht sich auf das Löschen von bestimmten Datensätzen (Zeilen), das Löschen von nicht wesentlichen Datensätzen.
(4).Pseudonym-Technologie
Pseudomanning ist eine Anonymisierungstechnik, bei der ein Pseudonym verwendet wird, um eine direkte Kennung (oder eine andere sensible Kennung) zu ersetzen.Pseudonymtechniken erstellen eindeutige Identifikatoren für jedes einzelne Informationssubjekt anstelle von direkten oder sensiblen Identifikatoren.
- Es kann Zufallswerte unabhängig generieren, um der ursprünglichen ID zu entsprechen, die Zuordnungstabelle speichern und den Zugriff auf die Zuordnungstabelle streng kontrollieren.
- Sie können auch Verschlüsselung verwenden, um Pseudonyme zu erzeugen, müssen aber den Entschlüsselungsschlüssel ordnungsgemäß aufbewahren;
Diese Technologie ist bei einer großen Anzahl unabhängiger Datennutzer weit verbreitet, wie OpenID im Open-Platform-Szenario, wo verschiedene Entwickler unterschiedliche OpenIDs für denselben Nutzer erhalten.
(5).Generalisierungstechniken
Generalisierungstechnik bezieht sich auf eine Anonymisierungstechnik, die die Granularität ausgewählter Attribute in einem Datensatz reduziert und eine allgemeinere und abstraktere Beschreibung der Daten bereitstellt.Die Generalisierungstechnologie ist einfach zu implementieren und kann die Authentizität von Daten auf Datensatzebene schützen.Es wird häufig in Datenprodukten oder Datenberichten verwendet.
- Rundung: beinhaltet die Auswahl einer Rundungsbasis für das ausgewählte Attribut, z. B. Aufwärts- oder Abwärtsforensik, was zu den Ergebnissen 100, 500, 1.000 und 10.000 führt
- Top- und Bottom-Coding-Techniken: Ersetzen Sie Werte über (oder unter) dem Schwellenwert durch einen Schwellenwert, der den oberen (oder unteren) Pegel darstellt, was zu einem Ergebnis von "über X" oder "unter X" führt.
(6).Randomisierungstechniken
Als eine Art De-Identifikationstechnik bezieht sich die Randomisierungstechnologie auf das Modifizieren des Werts eines Attributs durch Randomisierung, sodass der Wert nach der Randomisierung vom ursprünglichen tatsächlichen Wert abweicht.Dieser Prozess verringert die Fähigkeit eines Angreifers, einen Attributwert aus anderen Attributwerten in demselben Datensatz abzuleiten, beeinträchtigt jedoch die Authentizität der resultierenden Daten, was bei Produktionstestdaten üblich ist.
Postzeit: 27. September 2022