Overige algoritmesIn gebruik· LARS 27671551

Anonimiseren

Gemeente Asten

/ Doel

De anonimiseringssoftware wordt ingezet om invulling te geven aan enerzijds transparantie en anderzijds aan de noodzakelijke bescherming van de personen en bedrijven op wie documenten betrekking hebben.

/ Methoden & modellen

Documenten worden door een medewerker geüpload naar de applicatie. Op dat moment wordt een kopie gemaakt van het origineel in de vorm van een PDF met tekstlaag en wordt de metadata van het oorspronkelijke document uit de kopie verwijderd. Deze kopie komt op een Nederlandse server terecht en blijft daar maximaal 30 dagen staan. De tekstlaag van de PDF wordt door een API aangeboden aan het machine learning algoritme. Het gaat om een Natural Language Processing algoritme (named entity recognition) van Microsoft Azure. De API levert terug op welke locatie in de geanalyseerde teksten waarschijnlijk een persoonsgegeven voorkomt, samen met de waarschijnlijkheidsscore (een percentage). Op dat moment wordt de tekstlaag bij Azure direct verwijderd. De waarschijnlijkheidsscore wordt samen met door de leverancier ontwikkelde eigen ai-modellen gebruikt om de herkenning van persoonsgegevens zo accuraat mogelijk te kunnen doen. De modellen worden getraind met gebruik van o.a. de volgende getrainde datasets als CoNLL-2003, UD Dutch LassySmall v2.8, Dutch NER Annotations for UD LassySmall en UD Dutch Alpino v2.8. Minimale kengetallen voor de nauwkeurigheid van het vaststellen van de persoonsgegevens zijn als volgt: Named entities (precision): 0.78, Named entities (recall): 0.76, Named entities (F-score): 0.77. Tot slot controleert een medewerker het document en wanneer deze het document afrondt, worden de te anonimiseren gegevens definitief uit de tekstlaag verwijderd en wordt een zwart balkje geplaatst.

/ Wettelijke grondslag

Wet open overheid en de AVG

/ Menselijk toezicht

De uitkomst van het algoritme wordt gecontroleerd door een medewerker. De medewerker wordt door de software verplicht om alle pagina's te controleren. De medewerker bepaalt of het document correct is geanonimiseerd.

/ Risico's

Er bestaat geen risico op geautomatiseerde besluitvorming en het algoritme heeft geen impact op grondrechten, omdat het algoritme geen besluiten neemt met rechtsgevolgen. Het doet alleen een voorstel voor het anonimiseren van persoonsgegevens. Het algoritme wordt ook gebruikt door de ontwikkelaar zelf, waardoor fouten snel gevonden worden. Daarnaast wordt het algoritme periodiek getraind. Wanneer het algoritme niet goed genoeg werkt, kunnen we met black- en whitelists bijsturen. De medewerker van de gemeente doet altijd de laatste toets of een document juist is geanonimiseerd. Het risico bestaat dat medewerkers niet goed controleren, dit mitigeren we door aandacht te geven aan het belang van een zorgvuldige controle van de door het algoritme gevonden persoonsgegevens.

Proportionaliteit

Het alternatief is handmatig weglakken van persoonsgegevens. Dat kost te veel uren en is minder accuraat. De gemeente moet steeds vaker informatie openbaar maken. Daarom moet privacy- of bedrijfsgevoelige informatie worden weggelakt. Voordat het algoritme werd ingezet,ging het anonimiseren niet altijd juist. Personen hadden hun eigen werkwijze, waardoor dit niet altijd adequaat gebeurde en de teksten vaak nog doorzoekbaar waren.

/ Brondata

Alle informatie die te vinden is in de geüploade documenten (behalve de metadata), wordt verwerkt door het algoritme. Het kan daarbij gaan om gewone persoonsgegevens, bijzondere persoonsgegevens en strafrechtelijke gegevens. Het kan ook gaan om bedrijfsgevoelige informatie.

/ Metagegevens

Leverancier: Xxllnc (DataMask)
Contact: gemeente@asten.nl
Register-standaard: v1.0

/ Bron