sql >> Database >  >> RDS >> Database

Anonimiseren van indirecte identifiers om het risico op heridentificatie te verlagen

Quasi-identifiers, of indirecte identifiers, zijn persoonlijke kenmerken die waar zijn over, maar niet noodzakelijk uniek zijn voor een persoon. Voorbeelden zijn iemands leeftijd of geboortedatum, ras, salaris, opleidingsniveau, beroep, burgerlijke staat en postcode. Vergelijk deze met directe, unieke identificatiegegevens zoals de volledige officiële naam, het e-mailadres, het telefoonnummer, het nationale identiteitsbewijs, het paspoort- of creditcardnummer van een persoon, enz.

De meeste consumenten zijn zich al bewust van de risico's van het delen van hun unieke, persoonlijk identificeerbare informatie (PII). De gegevensbeveiligingsindustrie is doorgaans ook gericht op die directe identificatiegegevens. Maar met alleen geslacht, geboortedatum en postcode kan 80-90% van de Amerikaanse bevolking worden geïdentificeerd.

Bijna iedereen kan opnieuw worden geïdentificeerd vanuit een anders gemaskeerde dataset als er voldoende indirecte identifiers overblijven en kan worden samengevoegd tot een supersetpopulatie met vergelijkbare waarden.

De HIPAA Expert Determination Method-regel met betrekking tot beschermde gezondheidsinformatie (PHI) en de FERPA-wetgeving met betrekking tot de privacy van studentengegevens houden rekening met deze zorgen en vereisen dat datasets een statistisch lage kans hebben op heridentificeerbaarheid (minder dan 20% is tegenwoordig de norm). Degenen die gegevens over gezondheidszorg en onderwijs willen gebruiken voor onderzoeks- en/of marketingdoeleinden, moeten zich aan deze wetten houden, maar ook vertrouwen op de demografische nauwkeurigheid van de quasi-identificatiecodes om de gegevens waardevol te maken.

Om deze reden kunnen gegevensmaskeringstaken in het IRI FieldShield-product of IRI Voracity (gegevensbeheerplatform) een of meer aanvullende technieken toepassen om de gegevens te verdoezelen, terwijl ze toch nauwkeurig genoeg blijven voor onderzoeks- of marketingdoeleinden. Numerieke vervagingsfuncties creëren bijvoorbeeld willekeurige ruis voor opgegeven leeftijds- en datumbereiken, zoals beschreven in dit artikel.

Voortbouwend op het artikel hier, laat dit voorbeeld zien hoe IRI Workbench setbestanden kan maken en gebruiken om quasi-ID's te anonimiseren.

Begin in de Generalisatie via Bucketing Wizard, beschikbaar in de lijst met regels voor gegevensbescherming:

Zodra de wizard is geopend, begint u met het definiëren van de bron van de waarden voor het setbestand, inclusief het bronformaat en het veld dat een algemene vervangingswaarde vereist.

Op de volgende pagina zijn er twee soorten vervanging van setbestanden:Gebruik setbestand als groep en Gebruik setbestand als bereik opties. Dit voorbeeld maakt gebruik van het Gebruik set-bestand als groep optie. Het artikel over gegevensvervaging demonstreert de Set-bestanden gebruiken als een bereik optie. De hier gebouwde opzoeksets zullen worden gebruikt om de oorspronkelijke quasi-identifiers te pseudonimiseren met de nieuwe generalisatiewaarde.

Op deze pagina worden de groeperingen tussen elk van de oorspronkelijke quasi-identificerende veldwaarden gemaakt. Links staan ​​de unieke waarden in het eerder geselecteerde veld. De groepen kunnen worden gemaakt door ze te slepen en neer te zetten in de groepswaarden aan de linkerkant, of door handmatig waarden in te voeren. Elke groep heeft ook een unieke vervangingswaarde nodig. Dit is de waarde die de oorspronkelijke waarde in de groep vervangt. In dit voorbeeld wordt elke waarde van "9th" vervangen door "High School".

Door groepen toe te voegen totdat alle bronwaarden zijn gedekt, wordt het volgende bestand met de opzoekset voor het anonimiseren van de quasi-identifier van de onderwijsstatus:

Als er extra niveaus van bucketing nodig zijn, kan de bucketing-wizard opnieuw worden uitgevoerd met dit setbestand als bron.

Wanneer het setbestand wordt gebruikt in een gegevensanonimiseringstaak, worden de brongegevens vergeleken met waarden in de eerste kolom van het setbestand. Als er een overeenkomst wordt gevonden, worden de gegevens vervangen door de waarde in de tweede kolom. Het bovenstaande setbestand wordt gebruikt in het onderstaande script op regel 38.

Als u Workbench gebruikt om vijf verschillende anonimiseringstechnieken toe te passen, resulteert dit in het volgende script:


De eerste tien regels van de originele gegevens worden hier getoond:

De geanonimiseerde resultaten na het uitvoeren van de taak worden hier getoond:

Voorafgaand aan deze generalisaties was het risico van heridentificatie op basis van de oorspronkelijke indirect identificerende waarden te hoog. Maar wanneer de meer algemene resultatenset opnieuw door de wizard voor risicoscores wordt gehaald om een ​​nieuwe bepaling van het heridentificatierisico te produceren, is het risico acceptabel en zijn de gegevens nog steeds nuttig voor onderzoeks- of marketingdoeleinden.

Neem contact op met .

. als u vragen heeft over deze functies of over het opnieuw identificeren van risicoscores
  1. Problemen met privileges oplossen bij het herstellen van PostgreSQL-database

  2. Inleiding tot automatisch schalen van Amazon Web Services (AWS)

  3. Meer informatie over het gebruik van SQL Server Management Studio

  4. Wordt het MariaDB JDBC-stuurprogramma beïnvloed door de Log4j-kwetsbaarheid?