DataOps is het onbekende broertje van DevOps, maar minstens zo bepalend al dan niet bepalender voor een organisatie. Zowel bij DevOps als DataOps staat het snel leveren van features en het toevoegen van waarde centraal. Maar de manier waarop dat gebeurt, is compleet verschillend. In dit artikel gaan we dieper in op het begrip DataOps. Wat is het nut ervan en hoe begin je ermee?
Wat is DataOps en hoe begin je ermee?
Deze blog is gebaseerd op de aflevering DataOps van de Podcastserie ‘Business vooruit met IT’. Dit is een podcast van Info Support over digitale transformatie door Niels Naglé Data architect en Chapter Lead Data & AI, Vincent Goris, Chapter Lead en Analist en Maarten Vos, Chapter Lead en Data Engineer.
1. Is DataOps een soort DevOps voor data?
Volgens Maarten Vos is dit een veel gestelde vraag. Maarten: “DataOps is geen DevOps voor data. De enige overeenkomst is dat het doel hetzelfde is: sneller producten en features afleveren en snel meer waarde toevoegen. Om dit te bereiken ligt bij DataOps – net als bij DevOps – de nadruk op automatiseren en hergebruiken. De manier waarop dat gebeurt is erg verschillend. DevOps is bijvoorbeeld veel statischer omdat er een softwareproduct wordt opgeleverd, terwijl je bij DataOps te maken hebt met data die continu verandert. Je werkt daar met een fluïde product en hierdoor moet je op een andere manier naar je ontwikkeling gaan kijken.’’
Daarnaast vereist DataOps een groter draagvlak in een organisatie. Maarten: “Met DevOps zou je nog met één team aan de slag kunnen gaan binnen een organisatie, maar met DataOps kan dat absoluut niet. Je moet draagvlak hebben binnen de gehele organisatie omdat data wordt gecreëerd in alle lagen van de organisatie. Pas als de gehele organisatie het belang van goede data inziet, ben je in staat de meeste waarde toe te voegen met DataOps.”
2. Is DataOps een IT-verantwoordelijkheid?
Vincent Goris “DataOps is de verantwoordelijkheid van het hele bedrijf. Iedereen binnen de organisatie moet de meerwaarde ervan inzien. Als alleen het IT-team ermee bezig is, dan heb je geen DataOps.” Niels Naglé is het volledig met Vincent eens. Niels: “Juist hier komt het probleem naar boven, want er wordt wel naar het IT-team gekeken als data bijvoorbeeld niet van goede kwaliteit is. Maar data wordt overal in de organisatie geproduceerd en daar heb je geen directe invloed op. Daarom is het belangrijk dat de verantwoordelijkheid breder gedragen wordt dan alleen door het IT-team.’’ Vincent vult aan: “Denk maar aan de uitspraak ‘garbage in, garbage out’. Je kunt als IT’er erg je best doen om de kwaliteit van data te verbeteren, maar als er vanuit de organisatie niets verandert, dan blijft het probleem bestaan.”
Niels: “Vaak weten medewerkers niet wat het effect is van de invoer van onvolledige of onjuiste data. Ze moeten meegenomen worden in wat het gevolg is van bijvoorbeeld het selecteren van een verkeerde categorie of het maken van typfouten bij de invoer van data. Die bewustwording kan het IT-team creëren, maar uiteindelijk moet de organisatie hiermee aan de slag. Dat vraagt vaak om educatie, vertrouwen en verantwoordelijkheidsgevoel en hiermee een mentaliteitsswitch.’’
3. Haal je zonder DataOps onvoldoende waarde uit machine learning en artificial intelligence?
Vincent: “Volgens Gartner faalt 85 procent van je big data-projecten. Als je niet eruit haalt wat je wilt, is dat al een probleem. Niels: “Ik denk dat een goede datakwaliteit essentieel is als je met machine learning en AI aan de slag wil gaan.’’
Volgens Maarten geldt ook hier weer het ‘garbage in, garbage out-principe’: “Als je in een model iets stopt wat niets toevoegt of niet correct is, dan zal het ook geen waarde opleveren of zelfs afbreuk doen aan de waarde die je wilt realiseren .” DataOps kan de waarde van machine learning en AI vooral verhogen doordat je met de DataOps-methode data goed monitort. Maarten: “Als de data waarmee je een model getraind hebt te veel verandert, dan levert dat problemen op. Dan moet je je model opnieuw trainen. Maar je ziet pas dat je data verandert als je goed monitort. Idealiter krijg je iets van een waarschuwing als dit het geval is. Hiervoor kun je metrieken gebruiken. Als een bepaald gemiddelde opeens significant afwijkt, dan heb je al een metriek om veranderingen in je data te kunnen detecteren. Je kan dus veel eerder reageren op veranderingen of onderzoeken waar de fout ligt.”
4. Is de investering van DataOps te hoog?
Vincent: “In het begin moet je qua tijd veel investeren, bijvoorbeeld om je metrieken in orde te maken. Die investering is nieuw voor veel organisaties. Daarnaast moet je ook het governance gedeelte goed inrichten en draagvlak creëren in de organisatie, dat is niet iets wat je binnen een sprint geregeld hebt.’’ Wanneer is dan de investering te hoog? Niels: “Je moet weten wat de waarde is die je eruit haalt. Hiervoor moet je weten wat je met DataOps wilt bereiken. Als je bijvoorbeeld de kwaliteit van iets wil verbeteren, dan moet je het begrip kwaliteit eerst definiëren en meetbaar maken. Je moet dus eigenlijk ergens een use case hebben, een situatie waar je denkt meer waarde te kunnen creëren of een onderdeel waar veel risico zit. Als je een situatie inzichtelijk maakt, maak je het behapbaar. Maar als het gaat om het realiseren van een organisatieverandering, dan ben je potentieel jaren bezig. De quote ‘It’s a marathon and not a sprint’ geldt hier zeker.’’
5. Hoe begin je met DataOps?
Niels: “Het beste is om klein te beginnen, gewoon starten. We hebben hier vanuit Info Support een roadmap voor die we zelf gebruiken. Dan begin je met een scan: Waar staan we nu? Op welk niveau? Als je dan weet waar je staat, kan je vervolgens aan jezelf en aan de organisatie vragen: Waar wil ik staan? Wil ik bij de top zijn van de data driven maturity? Wil ik ergens in het midden zitten? En wat is er voor nodig om daar te komen, welke stappen moet ik gaan zetten? Als je eenmaal gescand hebt, dan kan je naar de volgende stap gaan. Dat is educatie op techniek, rollen en processen. Daarna moet je zo snel mogelijk naar een pilot. Je kan erover praten, maar je kunt het beter gewoon laten zien met een use case. Je moet het gaan beleven en fouten gaan maken, hiervan leren en dan weer doorgaan.’’
Vincent: “Elon Musk heeft een keer gezegd:
‘Building a factory is a hundred times as hard as building a car.’
Maar dat betekent absoluut niet dat we niet die fabriek moeten gaan bouwen, want het is wel een investering waardoor je straks in één keer heel veel auto’s kan gaan bouwen. Dat is heel hoog over waar we met deze werkwijze naartoe willen, dat is de stip aan de horizon. Maar je begint met een pilot: één hele simpele use case zonder dat je eerst de hele fabriek optuigt.’’