Automatische datavalidatie; kan Great Expectations de verwachtingen waarmaken?

Stel je voor: je presenteert een cruciaal rapport aan de directie, maar halverwege ontdek je fouten in je analyses, zoals dubbele data, verkeerde afrondingen of negatieve waarden die juist positief moesten zijn. Herkenbaar? Data Engineer Sander Klijsen van Info Support deelt zijn ervaring met Great Expectations, een open source-oplossing die dit soort problemen voorkomt. Hoe? Door middel van automatische datavalidatie.

Wat is Great Expectations?

Great Expectations is een open source Python-library die de validatie van data vereenvoudigt. Het werkt als volgt: wanneer je een centrale hub hebt waar verschillende databronnen samenkomen en data verwerkt worden, zorgt Great Expectations voor de validatie van alle data die dagelijks binnenkomen. Dat doet de oplossing aan de hand van generieke controles, bijvoorbeeld het tellen van rijen en het controleren van unieke waarden. Ook voert Great Expectations specifieke controles uit op basis van metadata, bijvoorbeeld om te valideren of waarden in een kolom geen spaties bevatten.

Het grote voordeel van Great Expectations is dat problemen met de datakwaliteit zo vroeg mogelijk in het verwerkingsproces worden gesignaleerd, aldus Sander: “Als problemen pas in de productiefase worden ontdekt, dan kost dat onnodig veel tijd en geld.”

Weinig maatwerk

Great Expectations biedt een uitgebreid pakket aan standaardvalidaties, waardoor er weinig maatwerk nodig is. De oplossing ondersteunt automatische rapportgeneratie en is vrij gemakkelijk te integreren in moderne dataplatformen. Een belangrijk voordeel is ook de actieve open source community die voortdurend verbeteringen doorvoert.

Voor organisaties die aan de slag willen met de open source-oplossing adviseert Sander om op kleine schaal te beginnen: “Eenvoudige validaties leveren vaak al de meeste waarde op. Denk aan basale controles op dubbele rijen of de validatie van unieke waarden. Later kun je dit uitbreiden naar complexere checks, zoals het analyseren van waardenverdelingen om uitschieters op te sporen.”

Praktijkvoorbeeld: dataplatform voor een bierbrouwer

Bij een recent project voor een grote bierbrouwer heeft Info Support Great Expectations succesvol ingezet: “We hebben een geavanceerd dataplatform gerealiseerd, dat fungeert als een centrale hub waar verschillende databronnen samenkomen en verwerkt worden. We wilden problemen met data in een zo vroeg mogelijk stadium opsporen en oplossen; denk aan verkeerde afrondingen en onverwachte negatieve waarden. Great Expectations heeft geholpen bij het vroegtijdig traceren en oplossen van problemen, maar ook met het functioneel beheer van het bronsyteem. Daardoor konden we ook de kwaliteit van de achterliggende systemen verbeteren.”

Je product owner overtuigen

Hoe overtuig je je product owner van het gebruik van Great Expectations? Sander: “Maak duidelijk wat de impact op de business is. Die is behoorlijk. In de eerste plaats los je mogelijke problemen met je data in een vroeg stadium op, en dat bespaart tijd en geld. Ook verspil je als team minder tijd en middelen aan het corrigeren van fouten. Het gebruikersgemak van Great Expectations is ook niet onbelangrijk: eindgebruikers ervaren minder problemen, wat leidt tot een betere gebruikerservaring. Tenslotte is het systeem schaalbaar, dus het groeit mee met je behoeften en veranderende eisen én het is toekomstbestendig, omdat je je voorbereid op toekomstige uitdagingen zonder grote herinvesteringen.”