Data mesh is geen wondermiddel, maar wel een veelbelovende visie op data-architectuur

Data warehouses zoals we die nu kennen, werden populair in de jaren tachtig. Data uit verschillende bronsystemen in het bedrijf werd centraal verzameld en opgeslagen voor analyse-doeleinden.

Een paar decennia later groeien deze centraal beheerde data warehouses vaak uit hun voegen en worden soms zelfs onbeheersbaar. Een alternatieve aanpak, waarbij afdelingen, of beter: domeinen decentraal hun eigen datasets ontwikkelen en beheren, lijkt veel belovend. Deze zogeheten ‘data mesh’ levert voordelen op, maar vooralsnog, ook zeker uitdagingen.

Welke wegen het zwaarst, de plussen of de minnen? De uitkomst is natuurlijk ‘het ligt genuanceerd’, maar er zijn wel degelijk goede argumenten te benoemen waarom de toekomst van data in de ‘mesh’ ligt.

Namelijk: deze manier van werken erkent (eindelijk) écht de waarde van data als product.

Data warehouses: voordelen en uitdagingen

In de loop der jaren hebben data warehouses veel voordelen opgeleverd: betere en snellere toegang tot bedrijfsdata voor analytics, standaardisatie van dataprocessen, en algehele verbetering van de datakwaliteit. Door alles op één plek te standaardiseren en modelleren, bleek het eenvoudiger om data met elkaar te koppelen.

Decennia later beginnen centrale data warehouses steeds meer tegen hun grenzen aan te lopen. Ze bieden niet meer de flexibiliteit en snelheid die nodig is in een steeds complexere datawereld. Door de exponentiële toename van datavolumes en -diversiteit wordt het lastiger om alle data nog in één systeem onder te brengen. Datateams moeten steeds meer kennis opdoen en bijhouden om de organisatie te kunnen voorzien van de juiste informatieproducten.

Het besef begint door te dringen dat centrale data warehouses innovaties niet stimuleren, maar juist kunnen tegenhouden. Voor elke kleine aanpassing is centrale coördinatie nodig, waardoor steeds langere wachtrijen ontstaan en de frustratie bij de business toeneemt. Daarnaast is op één centrale plek veel domeinkennis nodig, die juist decentraal binnen de verschillende domeinen volop beschikbaar is.

Data is een waardevol product

Daarnaast zijn organisaties ook anders over data na gaan denken. Het besef groeit dat data een waardevol product is, dat eigenaren nodig heeft. Dat zorgt ervoor dat centraal databeheer steeds meer plaats maakt voor een flexibeler en decentraal model: de data mesh. Data mesh kun je zien als het tegenovergestelde van het centrale data warehouse. Verschillende teams in de organisatie creëren en beheren hun eigen dataproducten.

Het concept werd in 2018 geïntroduceerd door Zhamak Dehghani, nadat ze de beperkingen van traditionele data warehouses had ondervonden bij verschillende grote bedrijven. In een data mesh architectuur wordt data beschouwd als een product, met duidelijke eigenaren die verantwoordelijk zijn voor de kwaliteit en levering. Deze dataproducten worden zo veel mogelijk binnen de business-domeinen zelf ontwikkeld, beheerd en geleverd aan interne klanten. Denk bijvoorbeeld aan de marketingafdeling die een dataproduct met inzichten in klanttevredenheid samenstelt en onderhoudt. Op de HR-afdeling kunnen dataproducten ontstaan op gebied van recruitment of juist retentie van medewerkers.

De regie ligt bij de business

Het voordeel van de data mesh-aanpak is dat technische teams nog steeds verantwoordelijk zijn voor de algehele data-infrastructuur. Maar de regie en verantwoordelijkheid voor de dataproducten ligt bij de domeinexperts, die ook de waarde en kwaliteit goed kunnen inschatten van de data en de dataproducten die ze bouwen.

Uiteraard blijft overkoepelende afstemming nodig en zijn er shared services teams voor bijvoorbeeld dataOps, data governance en platformbeheer. Maar de regie op de dataproducten zelf komt te liggen bij de business domeinen, zodat er een beter datalandschap kan ontstaan.

Aan de ene kant is er dus de roep om meer centrale regie op datagebied aan de andere kant leert de ervaring met centrale data warehouses dat ze innovatiekracht juist afremmen. De kunst is dus om wendbaardere en beter beheersbare datastromen te creëren. En daar belooft het concept van data mesh een oplossing voor te bieden.

Ondanks de beloftes zijn er ook nog de nodige uitdagingen en openstaande vragen rondom het daadwerkelijk implementeren van data mesh-architecturen. In de praktijk vergen dergelijke architecturen met name organisatorische afstemming tussen teams.

Een veel belovende aanpak

Een blauwdrukmatige toepassing zoals Dehghani die voor ogen had, komt nog niet veel voor; er zijn nog niet veel organisaties die een volledige data mesh architectuur hebben geïmplementeerd. Dat betekent niet dat de aanpak niet veel belovend is: in tegendeel. Organisaties passen wel bepaalde elementen van data mesh toe, zoals het ‘productdenken’ rondom data, decentralisatie van data eigenaarschap of het inrichten van mogelijkheden rondom selfservice analytics.

Levert dat uitdagingen op? Zeker. Maar in de praktijk zien we dat de toepassing van de vier basisprincipes van data mesh juist veel waarde kan opleveren.

 

Figuur 1 – De vier principes van data mesh en hun samenhang (Dehgani, 2022)

 

Door data te zien als waardevol product, en de verantwoordelijkheid te beleggen bij de domeinexperts, is er een goed alternatief ontstaan voor de almaar groeiende centrale data warehouses, die niet bestand lijken tegen de exponentieel groeiende datastromen die veel organisaties overspoelen.