"Garbage in, Garbage out"

Iedereen is verantwoordelijk voor datakwaliteit!

In dataprojecten, zoals de realisatie van een datawarehouse, business intelligence of artificial intelligence omgeving, wordt vaak de term Garbage in, Garbage out gebruikt. De term houdt in dat als je data van lage kwaliteit aan een proces aanbiedt, het resultaat van het proces zeer waarschijnlijk ook van lage kwaliteit is. Anders gezegd: aan informatie verkregen uit data van lage kwaliteit, kun je niet al te veel waarde hechten.

Waarom is datakwaliteit belangrijk?

Natuurlijk is er meer nodig om vanuit data de juiste informatie te verkrijgen, maar zonder een goede basis, kwalitatief goede data, lukt het sowieso niet. Gelukkig zijn steeds meer organisaties zich daar van bewust en zien we regelmatig initiatieven om datakwaliteit te monitoren en te verbeteren. Dat dit van groot belang is en dat dit helaas niet zonder vallen en opstaan gebeurt, lezen we dagelijks in de media. Soms zijn de gevolgen van slechte datakwaliteit beperkt, maar in andere gevallen kan het leiden tot grote imago- of financiële schade. Denk bijvoorbeeld aan de gevolgen van:

  • Het versturen van gevoelige of vertrouwelijke informatie naar het verkeerde adres;
  • Het versturen van informatie naar een reeds overleden persoon;
  • Het onvolledig vermelden van de ingrediënten op de verpakking van een product;
  • Het onjuist rapporteren van cijfers aan een controlerende instantie;
  • Het onterecht afwijzen of toekennen van een uitkering;
  • Het stellen van een verkeerde diagnose.

Dit zijn allemaal voorbeelden van situaties die mis kunnen gaan tijdens processen, waarvan toch verondersteld mag worden dat ze min of meer standaard zijn.

Organisaties willen data echter ook steeds meer inzetten voor nieuwe processen. Ze zien in data hét middel om de omzet te vergroten, kosten te verlagen en voordeel te behalen ten opzichte van de concurrentie. Ze willen uitgroeien tot een data-driven organisatie: data aanwenden om op allerlei vlakken meer inzicht te verkrijgen en op basis hiervan, al dan niet geautomatiseerd, steeds sneller beslissingen kunnen nemen en kunnen handelen. Voorwaarde voor dit alles is dat de data die hiervoor gebruikt worden van de juiste kwaliteit zijn.

Ook vanuit steeds meer wet- en regelgeving wordt vereist dat data binnen een organisatie op orde is. Denk hierbij bijvoorbeeld aan de algemene verordening gegevensbescherming (AVG), waarin onder meer wordt gesteld dat indien persoonsgegevens worden opgeslagen deze actueel en correct behoren te zijn.

Wie is verantwoordelijk?

Data moeten dus op orde zijn om standaard processen correct te kunnen uitvoeren, te kunnen voldoen aan wet- en regelgeving en om als organisatie beter te kunnen performen.

Het op orde krijgen en wellicht nog wel meer het op orde houden van data is echter niet zo heel eenvoudig. Denk bijvoorbeeld alleen al aan het feit dat veel data, zoals het adres van een klant, tijdsgebonden is en een beperkte houdbaarheidsdatum heeft.

Je weet eigenlijk pas of data van de juiste kwaliteit zijn op het moment dat je ze wilt gaan inzetten. Dat moment kan een stuk later in de tijd liggen dan het tijdstip waarop de data werden vastgelegd. De start van een dataproject, zoals genoemd in de inleiding, is zo’n moment. We bepalen dan welke data we nodig hebben om het projectdoel te behalen en waar we deze data kunnen betrekken. Op zo’n moment  constateren we helaas regelmatig dat de kwaliteit van deze data onvoldoende is om de gewenste doelstelling te realiseren.  We constateren dan bijvoorbeeld dat attributen niet in de dataset voorkomen, gegevens niet meer actueel zijn, velden met verkeerde waardes zijn gevuld of gegevens dubbel voorkomen.

De vraag is dan vaak: “Wie is verantwoordelijk voor opwaarderen van data, zodat deze representatief genoeg zijn om te kunnen gebruiken in het dataproject? Zijn dit de beheerders van de database waarin de data zijn opgenomen, is dit het projectteam van het dataproject of wellicht nog iemand anders?”

Het antwoord op deze vraag is, dat de verantwoordelijkheid voor datakwaliteit bij de gehele organisatie ligt. Bij iedereen die met de data te maken heeft. Dit betreft zowel mensen uit de IT- als mensen uit de Business-organisatie. Een goede architectuur en een goed ontwerp van een applicatie zorgt er bijvoorbeeld voor dat data juist kan worden ingevoerd en worden opgeslagen. Echter als toch blijkt dat data verkeerd in de database zijn terechtkomen, moeten we dit kunnen signaleren en kunnen corrigeren. Daarnaast moet het mogelijk zijn de oorzaak op te sporen, zodat we het probleem kunnen oplossen en kunnen voorkomen dat het in de toekomst weer optreedt. Alleen als iedereen in de organisatie zich bewust is van het belang van goede datakwaliteit en zich hier ook actief mee bezighoudt, wordt de datakwaliteit verbeterd en kunnen processen er optimaal van profiteren.

Proces, proactief verbeteren

Achteraf data op orde brengen kost vaak veel moeite en is kostbaar. Achteraf corrigeren betekent  mogelijk ook dat de onjuistheid al tot schade heeft geleid of er voor gezorgd heeft dat omzet is misgelopen. Beter is het om er voor te zorgen dat data al op orde zijn, voordat ze gebruikt gaan worden. Dus in plaats van reactief te werken en te wachten totdat zaken fout lopen, moeten we proactief werken en fouten voorkomen.

Hiervoor moet een organisatiebreed en systeem-overkoepelend proces worden ingericht. Dit betekent eigenlijk een proces dat aangehaakt is bij alle andere processen of hier wellicht zelfs onderdeel van uitmaakt. Denk bijvoorbeeld aan een proces waarbij klantcontact plaatsvindt. Hoe gemakkelijk is het om op zo’n moment even samen met de klant te controleren of zijn gegevens nog kloppen en direct bij te werken.

Iedere organisatie heeft zijn eigen datakwaliteitseisen. Waar voor de één een zesje voldoet, gaat de ander voor een negen of nog hoger. Voordat een proces wordt ingericht, moet een organisatie dan ook eerst een duidelijke doelstelling bepalen. Zodra deze is bepaald kan begonnen worden met het ontwerp van het proces om deze doelstelling te behalen. Hierbij behoren de integratie van datakwaliteitsactiviteiten binnen bestaande processen en het vaststellen van rollen, taken en bevoegdheden voor de uitvoering van activiteiten.

Het borgen van datakwaliteit is geen eenmalig proces en het is een utopie dat de gewenste datakwaliteit in één keer behaald wordt. De wensen met betrekking tot de toepassing van data veranderen immers voortdurend en hetzelfde geldt voor de kwaliteitseisen die aan data worden gesteld. Het borgen van datakwaliteit is een continu proces dat continu moet worden gemonitord en moet worden bijgesteld.

Conclusie

Garbage in, garbage out is een term die mensen bewust kan maken van het belang van datakwaliteit. Zonder de juiste datakwaliteit geen goede informatie.

Het op orde hebben van de datakwaliteit is niet alleen nodig om standaardprocessen correct uit te voeren en als organisatie aan wet- en regelgeving te voldoen. Het is ook een absolute voorwaarde om organisaties data-driven te maken en hiermee de performance van een organisatie ten opzichte van haar concurrentie te vergroten.

Om datakwaliteit binnen een organisatie op orde te krijgen is het noodzakelijk dat iedereen die met data te maken heeft zich hier voor inzet. Het borgen van datakwaliteit is een continu proces dat bedrijfsbreed moet worden ingericht!