Als je met data werkt (of “in data”), kom je tekortkomingen en fouten in processen tegen die moeilijk over het hoofd te zien zijn – slechte data. Soms is het echter moeilijk om de problemen in woorden te vatten, en onder de aandacht te brengen van de leiding of besluitvormers. In dit artikel proberen we precies dat te doen.
Ben je verantwoordelijk voor data of probeert je een programma voor datakwaliteitsbeheer en data governance in je organisatie op te zetten? In deze handleiding lees je alles over slechte datakwaliteit, de bijbehorende problemen en de gevolgen ervan voor de initiatieven in je organisatie.
Hieronder staan onze belangrijkste oorzaken en gevolgen van slechte datakwaliteit. Als een van deze problemen je bekend voorkomt, is het misschien tijd om je datamanagement programma aan te pakken of te verbeteren. Als je de oorzaken en gevolgen van slechte datakwaliteit al kent, kan je het complete raamwerk voor datakwaliteit van Ataccama downloaden. Dit is een uitgebreide handleiding voor datakwaliteit om snel waarde te creëren, en iteratief te bouwen aan je datakwaliteit programma.
Wat is slechte datakwaliteit?
Slechte datakwaliteit gaat over data binnen je organisatie, en die onnauwkeurig, inconsistent, onvolledig of verouderd zijn. In wezen is het data die niet overeenkomt met de werkelijkheid. Dit kan het gevolg zijn van ontbrekende waarden, dubbele records, verschillen tussen databronnen, en vele andere redenen. Uiteindelijk kan deze slechte data je organisatie schaden door processen te vertragen en de resultaten van elk datagedreven initiatief te verminderen.
Wat veroorzaakt slechte datakwaliteit?
Slechte datakwaliteit kan verschillende oorzaken hebben, maar een aantal belangrijke boosdoeners ondermijnen consequent de betrouwbaarheid en nauwkeurigheid van data. Hier is onze top 5 van oorzaken van slechte datakwaliteit:
1. Onduidelijk eigenaarschap van data
Het eigenaarschap van data – zoals het toewijzen van een eigenaar aan een datadomein of databron – is om twee redenen van cruciaal belang:
- Zonder duidelijk gedefinieerd eigenaarschap is er geen verantwoording voor de geproduceerde data. Het resultaat is een slechte datakwaliteit.
- Als er iets misgaat of er staat een verandering op stapel die van invloed kan zijn op een bepaalde databron, is het ook onduidelijk met wie je contact moet opnemen om het probleem met de slechte datakwaliteit op te lossen.
Het gebrek aan gedocumenteerde data-eigenaren maakt het moeilijk om initiatieven voor dataverbetering te implementeren of self-service middelen te creëren om toegang te krijgen tot data. Eigenaarschap is belangrijk omdat het verantwoordelijkheid oplegt voor datakwaliteit.
2. Activiteiten in silo’s
Teams leven vaak in silo’s. Business teams communiceren vaak niet effectief met elkaar, technische teams werken vaak individueel, en business- en technische teams zijn niet altijd met elkaar verbonden, wat leidt tot datasilo’s. Ze werken vaak eenmalig samen, maar de resultaten die ze produceren worden niet altijd gedeeld met anderen. Op de lange termijn betekent dit dat de problemen opnieuw zullen opduiken bij een nieuw project, en als teams niet communiceren over hun verwachtingen ten aanzien van data, zal het probleem zichzelf niet oplossen.
Voorbeeld uit de datawetenschap: data scientists besteden 50-80% van hun tijd aan het verzamelen en opschonen van gegevens die door verschillende teams op verschillende locaties worden bewaard.
Als data-eigenaren, data stewards, data engineers en data scientists samenwerken, kunnen ze slechte datakwaliteit minimaliseren door standaarden en verwachtingen te creëren voor essentiële data-assets die worden gebruikt voor modellen en rapportages.
3. Geen programma voor datakwaliteit
Je kunt slechte datakwaliteit niet overkomen zonder er strategisch naar te kijken. Datakwaliteit moet een bedrijfsbreed programma worden, met gedeelde tools, datakwaliteitsregels, ‘enablement’ en rapportage over zowel datakwaliteitsmetingen als de impact van verbeterde data op bedrijfsinitiatieven. Datakwaliteit kan zich ontwikkelen als een bottom-up push, maar het moet absoluut een top-down beweging worden, waarbij de hele organisatie het snapt en meedoet.
4. Geen inzicht in de status van data en datastromen
Teams hebben geen eenvoudige manier om inzicht te krijgen in de beschikbare data en hoe deze door IT-systemen stroomt. Als het moeilijk is om data te vinden en te begrijpen, kan dat leiden tot slechte datakwaliteit. Bijvoorbeeld, een verandering in de databasestructuur of API kan downstream problemen veroorzaken in het datawarehouse waar gegevens in een verwacht formaat terechtkomen. Dit kan weer leiden tot problemen met de rapportage.
Dit probleem heeft gevolgen voor data scientists, data engineers, bedrijfsanalisten, business subject matter experts en IT. De juiste tooling kan dit probleem oplossen: een datacatalogus met mogelijkheden voor datalineage en -kwaliteit kan deze informatie bijhouden en opslaan, waardoor het gemakkelijker te begrijpen is.
5. Handmatige datamanagement processen
Alle organisaties die data genereren of verzamelen beheren deze handmatig of automatisch.
- De volgende dataprocessen zijn grote tijdverspillers als ze handmatig worden uitgevoerd:Data verzamelen
- Corrigeren van problemen
- Data classificering
- Data validatie
- Data opschonen
Organisaties zonder speciale datakwaliteitstools, -controles en -workflows voor deze processen, zullen ze uiteindelijk blijven herhalen. Dit kan budgetten uitputten en meer ruimte laten voor menselijke fouten, wat weer leidt tot een grote kans op slechte datakwaliteit.
Wat zijn de gevolgen van slechte datakwaliteit?
Als slechte datakwaliteit niet wordt aangepakt kan dit grotere problemen voor je organisatie veroorzaken, nu en de toekomst. Hier zijn enkele belangrijke gevolgen van slechte datakwaliteit:
1. Het data engineering team wordt overspoeld met verzoeken om data te repareren
Data-engineers zijn meestal verantwoordelijk voor het oplossen van dataproblemen in organisaties met complexe datapijplijnen. Ze moeten dit herhaaldelijk doen en het kost vaak veel tijd om de hoofdoorzaak van het probleem te vinden. Terwijl ze op zoek gaan naar het antwoord, kunnen meer problemen zich opstapelen, waardoor de algehele datakwaliteit voor de organisatie slecht wordt. Het oplossen van al deze problemen betekent dat data engineers minder tijd hebben om datakwaliteitscontroles te coderen en te onderhouden. Dit is een slecht schaalbaar proces waarbij problemen exponentieel kunnen groeien naarmate de werklast toeneemt.
2. Data-afhankelijke teams vertrouwen de data niet
Het is moeilijk om datagedreven te zijn als je de data niet vertrouwt. Als je teams geloven dat je data van slechte kwaliteit is, kunnen ze hun werk niet doen zonder de resultaten dubbel en driedubbel te controleren. Dit zijn de tekenen dat je problemen hebt met het vertrouwen in data:
- Leidinggevenden vertrouwen de rapporten niet;
- Datawetenschappers besteden te veel tijd aan het valideren en opschonen van data;
- Productteams zijn terughoudend om data te gebruiken voor besluitvorming over het maken van nieuwe producten;
- Teams zijn terughoudend om data van andere bedrijfsonderdelen te gebruiken.
3. Lange doorlooptijd om waarde uit data te halen
Als het weken of maanden duurt voordat je toegang hebt tot data en uiteindelijk rapporten kunt maken, dan moet er iets gebeuren. Helaas werken organisaties met een lage datamaturiteit op deze manier. Wanneer iemand toegang tot data nodig heeft, doorloopt hij of zij een ingewikkeld proces om uit te zoeken waar die data is opgeslagen en wie de eigenaar is. Vervolgens wachten ze op goedkeuring om die data te exporteren. Wanneer ze dat eindelijk doen, merken ze de slechte kwaliteit van de gegevens op en proberen ze een nieuwe bron of proberen ze het te repareren – zelf of door er een technisch iemand bij te betrekken. Tegen de tijd dat ze klaar zijn, hebben ze een hoop werk verzet en waarschijnlijk veel tijd van anderen verbruikt. Dit complexe probleem komt voort uit het ontbreken van de juiste systemen, data governanceprocessen en tools om data te beheren.
4. Fusies en overnames gingen niet zoals bedoeld
Fusies en overnames zijn dataintensieve activiteiten en 70-90% ervan mislukt, waarbij integratie een van de belangrijkste redenen is. Zonder integratie van systemen en data wordt met fusies en overnames weinig bereikt. Daarom zijn best practices voor master data management zo belangrijk. Als je organisatie één of meerdere fusies en overnames heeft doorgemaakt, let dan op de volgende tekenen van suboptimale ervan, waarbij de datakwaliteit waarschijnlijk niet optimaal was:
- De integratietijd werd verlengd;
- Er werden minder systemen geïntegreerd of gemigreerd dan verwacht;
- Organisaties gebruiken inconsistente ‘business terminologie’;
- Er is geen eenduidig beeld van klanten, medewerkers of andere datadomeinen.
5. AI-modellen hebben twijfelachtige ROI en prestaties
Het is een cliché op dit punt, maar “garbage in, garbage out” geldt ook voor ML-modellen. Datakwaliteit is een van de belangrijkste factoren die de prestaties, implementatiesnelheid en betrouwbaarheid van modellen op de lange termijn beïnvloeden. De beste spelers op het gebied van AI halen tot 20% van hun EBIT uit AI-modellen, maar om dat niveau te bereiken, moet er stevig worden geïnvesteerd in de fundamenten van datamanagement:
- Data & AI-governance
- Automatisering van datakwaliteit
- Modellen controleren op ‘datadrift’
Als deze basis niet aanwezig is, heb je waarschijnlijk te maken met een of meer van de volgende problemen:
- Frequente meldingen van ‘data drift’ en lange onderzoekstijden (dagen tot weken);
- Er worden consequent minder modellen ingezet dan verwacht;
- AI-projecten leveren niet de verwachte resultaten (nauwkeurigheid van modellen);
- Hoofd AI of Chief Data Scientists brengen regelmatig problemen met gegevenskwaliteit ter sprake.
6. Systeemmoderniseringsprojecten gaan over tijd en budget heen
Modernisering van data en systemen staat op de agenda van elke datagestuurde en innovatieve organisatie. Moderniseringsprojecten vereenvoudigen het IT-systeemlandschap en de datastromen, consolideren facturering en activiteiten, en versnellen datagerelateerde activiteiten. Enkele voorbeelden zijn ERP- en kernsysteemconsolidatie, CRM-migraties, Customer 360-projecten en modernisering van dataconsumptie, zoals de overstap van on-premises DWH naar een data lakehouse-architectuur in de cloud.
Al deze projecten zijn afhankelijk van de staat van uw data. Als data niet consistent, toepasbaar en accuraat is, komen ze uiteindelijk tot stilstand. Je hebt zeker een groter probleem met data als:
- Moderniseringsprojecten uitlopen op tijd en budget
- Projecten vaak worden geschrapt of uitgesteld
7. Rapportage is handmatig, ad hoc en onbetrouwbaar
Accurate rapportage is het fundament van elke datagestuurde organisatie. Bedrijven in gereguleerde sectoren, zoals het bank- en verzekeringswezen en life science-bedrijven, moeten rapporten indienen bij de autoriteiten, waardoor de lat nog hoger komt te liggen. Hier zijn enkele veel voorkomende problemen die deze organisaties ervaren wanneer ze te maken hebben met slechte datakwaliteit:
- Rapportageperiodes lopen af en de verantwoordelijke teams moeten overuren maken om handmatig gegevens voor rapportage te verzamelen.
- Teams voegen spreadsheets handmatig samen in een datamart.
- Autoriteiten keuren rapporten vaak af en teams moeten problemen met gegevens handmatig oplossen en rapporten opnieuw opstellen.
8. Klantacquisitie en klantbehoud verslechteren
Klantgerichtheid is de belangrijkste factor voor succesvolle digitalisering. Organisaties die gebouwd zijn rond en voor hun klanten zijn 60% winstgevender dan andere. Ze hebben ook meer kans om meer informatie van hun klanten te ontvangen. Het is een opwaartse spiraal. Maar wat gebeurt er als slechte datakwaliteit ervoor zorgt dat klantgegevens na verloop van tijd slechter worden? Hier volgt een niet-uitputtende lijst met tekenen dat je klantgegevens aandacht nodig hebben:
- Marketing ROI daalt.
- Gebrek aan flexibiliteit en lange doorlooptijden om gegevens klaar te maken voor marketingcampagnes.
- Marketingleiderschap trekt rapportage en analyse in twijfel.
- Frequente klachten van klanten over voorkeursmethoden voor communicatie.
- Vertraagde facturering en afstemming.
Overwin vandaag nog slechte datakwaliteit met het Ataccama DQ-framework
Slechte datakwaliteit is niet alleen lastig. Het is een verstrekkend probleem dat het vermogen van jouw datagestuurde organisatie om te floreren aanzienlijk kan belemmeren. Van operationele inefficiëntie en gemiste kansen tot mislukte projecten en beschadigde klantrelaties, de kosten van het verwaarlozen van datakwaliteit kunnen aanzienlijk zijn.
Om ervoor te zorgen dat de data van je organisatie een waardevol bezit is in plaats van een verplichting, is het van cruciaal belang om problemen met de datakwaliteit proactief aan te pakken. Download het gratis e-book “The End-to-End Data Quality Framework” en ontdek een uitgebreide handleiding voor het opzetten van een robuust datakwaliteitsprogramma.