Het voorspellen van de kwaliteit van de prestatie verklaringen
Collega’s van verschillende afdelingen hebben labels verzameld, met ondersteuning van Financial Control en de Data Analisten van DFEZ. In totaal zijn 1000 boekingen gelabeld met een 1 (de documenten bij deze boeking vormen volgens de experts een kwalitatieve prestatieverklaring) of 0 (de documenten voldoen niet aan de eisen van een kwalitatieve prestatieverklaring). Op basis van deze labels zijn verschillende modellen getraind. Tijdens het trainen werd GridSearch gebruikt, waardoor snel de beste instellingen voor elk model konden worden gevonden. De modellen zijn vergeleken en het model met de beste resultaten is gekozen (gebaseerd op verschillende prestatie-indicatoren zoals nauwkeurigheid, precisie, recall en F1-score). Het getrainde model wordt nu toegepast op de financiële facturen en ontvangsten van de vorige maand. Het model vergelijkt de tekst in de documenten bij een boeking met het patroon dat het heeft geleerd van de labelset met label 1. Documenten die veel lijken op dit patroon, krijgen een hogere kans. Het model kan worden vergeleken met een spamfilter. Door veel voorbeelden van spam e-mails te zien, leert het filter een patroon herkennen en kan het zelf bepalen of een e-mail waarschijnlijk spam is op basis van de woorden en opbouw in de mail.
DFEZ, ADR en AR onderzoeken op basis van de Comptabiliteitswet of bijlagen, zoals prestatieverklaringen, aanwezig zijn en van goede kwaliteit zijn.
Het algoritme is zo ingesteld dat wanneer het een negatieve score geeft, de prestatieverklaring handmatig gecontroleerd moet worden. Dit geldt ook wanneer het algoritme aangeeft dat er geen prestatieverklaring is. Daarnaast wordt bij 10% van de positieve scores, of wanneer het algoritme aangeeft dat een prestatieverklaring van goede kwaliteit is, een extra controle uitgevoerd.
In het eindproduct komen geen gevoelige persoonsgegevens voor. De analyse wordt alleen gedeeld met een beperkte groep mensen. Omdat het algoritme facturen en prestatieverklaringen uitleest waar persoonsgegevens in kunnen staan, is er een DPIA (Data Protection Impact Assessment) opgesteld.
DFEZ, ADR en AR onderzoeken of bijlagen, zoals prestatieverklaringen, aanwezig zijn en van goede kwaliteit. Omdat er veel prestatieverklaringen zijn, is handmatig controleren veel werk. Ook zijn de huidige steekproeven niet altijd gericht op risico’s, waardoor zelfs goede prestatieverklaringen gecontroleerd worden. Met de analyse van de aanwezigheid en kwaliteit willen we het proces beter sturen. Door gebruik te maken van zelfgetrainde labels, kunnen we automatisch en met redelijke zekerheid bepalen welke prestatieverklaringen niet voldoen aan de eisen voor een goede prestatieverklaring, zoals beschreven in de voorschriften van DFEZ.
Het algoritme gebruikt prestatieverklaringen en gegevens uit het financieel informatiesysteem van Justitie en Veiligheid, genaamd Leonardo. In de prestatieverklaringen kunnen persoonsgegevens staan en in de gegevens uit Leonardo kunnen velden worden ingevuld met vrije tekst, wat betekent dat er ook persoonsgegevens in kunnen voorkomen.
- Start
- januari 2025
- Register-standaard
- v1.0