Start met AI ook als je datakwaliteit nog verbeterd moet worden

Als je begint met kleine AI-experimenten dan creëer je draagvlak voor je model en je hoeft daarmee relatief weinig aan datakwaliteit te doen.

Veel bedrijven denken dat je pas kan beginnen met Artificial Intelligence als je datakwaliteit helemaal op orde is. Klinkt in eerste instantie logisch, maar daarmee laat je veel waarde liggen. Ga je zelfs eerst alleen met de datakwaliteit aan de slag dan loop je een reëel risico dat je geld weggooit. In dit artikel lees je waarom het slim is om met AI te starten en tegelijk je data verbeteren. Zo maak je impact op je business en je datakwaliteit. 

Niet eerst alleen werken aan datahuishouding

Een goede datahuishouding (data governance) is belangrijk. Als gevolg hiervan denken veel bedrijven dat het een goed idee is om de datakwaliteit eerst ‘goed’ te krijgen, voordat ze willen starten met Artificial Intelligence en Machine Learning. De algoritmen hebben data nodig, dus moet de kwaliteit van de data eerst op orde zijn. Anders kunnen we niet beginnen met AI en Machine Learning. Dit is een logische redenatie die risico’s met zich meebrengt. Want hoe weet je bijvoorbeeld wanneer je ‘klaar’ bent? Daarnaast is de kans levensgroot dat als je ‘klaar’ bent dat dit niet het geval is. Bij je eerste toepassing kom je er achterkomt dat nu net die data die je nodig hebt, niet aanwezig of compleet is.

Om een machine learning algoritme te testen kunnen we starten met een zo eenvoudig mogelijk model.

Datakwaliteit

Maar hoe is het wel mogelijk om te beginnen met AI en Machine Learning zonder de datakwaliteit eerst ‘goed’ te hebben?

Daarvoor kijken we eerst naar wat datakwaliteit is. Er zijn veel definities van datakwaliteit, maar data worden over het algemeen als van hoge kwaliteit beschouwd als ze “geschikt zijn voor het beoogde gebruik in operaties, besluitvorming en planning”. Oftewel als de data geschikt is voor gebruik beschouwen we het als van hoge kwaliteit. De markt stelt ook dat je datakwaliteit kan meten in termen als onder andere accuraatheid, compleetheid, consistentie, mate van ontdubbeling en integriteit. Echter, zeggen deze metingen niets over de bruikbaarheid van data. 

Databruikbaarheid

Het klinkt als een open deur, maar bruikbaarheid is het best vast te stellen door de data te gebruiken. De truc zit er in om met zo min mogelijk inspanning en risico te bepalen of de data bruikbaar is of wat er verbetert moet worden. De aanpak daarvoor is eenvoudig. Net zoals bij iedere vorm van softwareontwikkeling kunnen we gebruik maken van een Minimal Viable Product, een MVP. 

Maar hoe gaat dat in zijn werk voor AI en Machine Learning modellen? Want daar zoeken we naar patronen in de data en als de data niet goed genoeg zijn, dan krijgen we toch nooit een goed model? Dan geldt dat toch ook voor een MVP?

Oftewel als de data geschikt is voor gebruik beschouwen we het als van hoge kwaliteit.

Een MVP model voor verbeteren datakwaliteit

Om de aanpak goed uit te leggen, zoomen we nog even in op een MVP. Een MVP is een product met net voldoende features om te testen of je product levensvatbaar is en om feedback te verzamelen voor toekomstige productontwikkeling. Om een machine learning algoritme te testen kunnen we starten met een zo eenvoudig mogelijk model. We hoeven niet in één keer de oplossing te ontwikkelen voor ons probleem. Als we kunnen bewijzen dat het model levensvatbaar is of niet, dan kunnen we daarop onze besluiten nemen om door te investeren of te stoppen.

Een eenvoudig model begint vaak met het vinden van patronen met een beperkt aantal velden. Daarnaast is het vaak beter  om niet je hele dataset te gebruiken, om zo de complexiteit te verlagen. En als je niet de hele dataset gebruikt, dan kun je deze filteren. We nemen alleen dat deel dat kwalitatief goed is en representatief genoeg is voor ons probleemdomein.

Filteren van data

Figuur 1: Filteren van data van goede kwaliteit

Impact met een MVP

Door te werken met een kleinere dataset met kwalitatief goede data kunnen we vaststellen of het machine learning model levensvatbaar is. We kunnen aantonen dat patronen aanwezig zijn in de data en aan de hand hiervan een MVP bouwen. Vaak kunnen we met deze MVP al in productie. Ja, er is nog steeds uitval dat zorgt voor hetzelfde handmatige werk als vroeger. Maar nu is een deel geautomatiseerd. Als feedback zien we welke data opgeschoond, ontdubbeld, completer, etc. gemaakt moet worden. Stap-voor-stap kunnen we zo de datakwaliteit verbeteren met de ervaring in productie. Bijkomend voordeel is dat niet alleen de data beter wordt, maar ook het model verbetert kan worden. Je stopt geen geld en energie in dat deel van de datahuishouding waar je nog niets mee doet.

Eenvoud zorgt voor draagvlak

Naast een goede datakwaliteit moet een AI en Machine Learning model ook geadopteerd worden binnen de organisatie. Als de uitkomsten niet gebruikt worden, dan is het model niets waard.

De beschreven aanpak van een MVP helpt naast het verbeteren van de datakwaliteit ook voor het creëren van draagvlak en adoptie van een model. Voor de business kan het moeilijk zijn om een machine learning model te accepteren. Als je niet weet hoe een model tot een voorspelling of aanbeveling komt, dan ben je minder snel geneigd om het te gebruiken. Door gebruikers mee te nemen in de evolutie van een model creëer je draagvlak. Daarom is het vanuit dat oogpunt ook het belangrijk om met een eenvoudig model (als MVP) te beginnen. 

Het verbeteren van datakwaliteit gaat het beste als de data direct gebruikt wordt.

Voorbeeld

Laten we even kijken naar een voorbeeld. Stel je wil de bezettingsgraad van een voetbalstadion gaan voorspellen. Je kunt dan gebruikmaken van een grote verscheidenheid aan data. Bijvoorbeeld data over het weer, tijd van het jaar, vakanties, evenementen in de buurt, openbaar vervoer, wegwerkzaamheden, uitslagen van vorige wedstrijden, spelers, en nog veel meer.

Als je hier een voorspellend model op maakt dan kun je een accuraat voorspellend model krijgen. Echter, kan het voor de gebruikers moeilijk te bevatten zijn, hoe het model tot een voorspelling is gekomen.

Starten we eenvoudig met bijvoorbeeld het weer en de uitslag van de vorige 5 wedstrijden, dan zal het model minder nauwkeurig voorspellen. Maar als deze voorspelling wel bruikbaar is, dan is deze goed te bevatten voor de gebruikers. Bijkomend voordeel is dat je van minder data de kwaliteit hoeft te verbeteren. Bij het uitbreiden van het model ga je stap-voor-stap data toevoegen en de kwaliteit van die data verbeteren. Op die manier maken we impact op de business, zetten we data om in waarde en verbeteren precies die data die nodig is voor gebruik.

Verbetermodel

Figuur 2: Stap voor stap verbeteren van datakwaliteit en daarmee de datahuishouding

Conclusie

Het verbeteren van datakwaliteit gaat het beste als de data direct gebruikt wordt. Door de data te gebruiken voor AI en Machine Learning zorg je dat data waarde creëert en daarmee is er een business case voor het verbeteren van datakwaliteit. Door eenvoudig te beginnen zorg je voor adoptie binnen de organisatie en kun je stapsgewijs de datakwaliteit verbeteren. Je datahuishouding verbetert stap voor stap, zodat een win-win-winsituatie ontstaat: een succesvol model, impact voor de business en een schonere dataomgeving.

Wil je starten met AI? Daar kunnen wij je bij helpen met onze AI-aanpak: www.infosupport.com/ai