Data observability is tegenwoordig een veelbesproken onderwerp vanwege de mogelijkheid om datakwaliteit aan te pakken in complexe data-omgevingen (zoals data mesh en data fabric). Ondernemingen die deze gedistribueerde omgevingen gebruiken, hebben meestal een aantal governanceconcepten of -principes die ze centraal willen beleggen. Zelfs buiten deze nieuwe blauwdrukken voor datamanagement heeft elke grote organisatie met gedistribueerde datateams baat bij goede data observability.

Data observability biedt wat wij noemen een “self-service data-infrastructuur“, een toepassing die zo intuïtief en nuttig is dat decentrale teams deze graag en spontaan in gebruik nemen – in plaats van ze opgedrongen te hoeven krijgen. Dit maakt standaardisering van datamanagement en de aanpak van datakwaliteit mogelijk, en geeft je een overzicht van de algehele gezondheid van je datasysteem, terwijl je teams autonoom blijven.

Toch moet je goed opletten hoe je jouw oplossing voor data observability opzet. Terwijl volume, schema, anomaliedetectie en het monitoren van de actualiteit van nature geautomatiseerd lijken te zijn, is de vraag hoe het zit met het monitoren van de data kwaliteit? Met de uitdagingen die data observability gaat oplossen, moet de datakwaliteit ook geautomatiseerd worden. Hieronder bespreken we waarom.

De essentiële componenten van data observability:

Data observability geeft inzicht in het vermogen van uw onderneming om de staat van uw data te begrijpen op basis van beschikbare informatie, zoals problemen met datakwaliteit, anomalieën of schemawijzigingen. Om optimale data observability te bereiken, heb je een aantal tools nodig die dit inzicht in je data geven. Denk hierbij aan een ‘business glossary’, AI, DQ-regels en Catalogiseren.

Als je deze tools eenmaal hebt geïmplementeerd, heb je diepgaande informatie over de belangrijkste kenmerken van je data, zoals volume, lineage, anomalieën, DQ en schema. Deze informatie helpt je om je data systeem te bewaken en waarschuwingen te ontvangen als er iets verandert, of als er een potentieel dataprobleem optreedt. 

De doelen van data observability en hoe deze te bereiken

Laten we voordat we ingaan op de specifieke kenmerken van geautomatiseerde datakwaliteit en -observability, nog even terughalen wat we met data observability willen bereiken:

  • Snel dataproblemen identificeren en oplossen;
  • De bewaking van de hele datastack automatiseren;
  • Snel gedecentraliseerde teams inschakelen om systemen op een selfservice manier te monitoren;
  • Zoveel mogelijk informatie verzamelen over de datastack om een holistisch beeld te krijgen van de gezondheid van data;
  • De betrouwbaarheid van datapijplijnen garanderen, wat helpt vertrouwen in data op te bouwen in de hele onderneming

Om deze doelen te bereiken in de gedistribueerde, gedecentraliseerde IT omgeving is een hoge mate van automatisering nodig. Daarom zijn AI-gebaseerde oplossingen zo belangrijk. Met slechts een klik op een knop kun je een breed scala aan informatie over je datastack verzamelen, zoals:

  • Metadata afwijkingen (onverwachte veranderingen in een aantal nulwaarden, een drastische verandering in de gemiddelde waarde, enz.);
  • Afwijkingen in gegevens op recordniveau;
  • Afwijkende transactiegegevens;
  • Afwijkingen in de infrastructuur (volume van data, schemawijzigingen en actualiteits waarschuwingen);

Het grote voordeel van AI-gebaseerde monitoring is dat er geen initiële instelling nodig is en dat het aangeleerd kan worden om de nauwkeurigheid te verbeteren, net als elk ander ML-model met toezicht.

Dit soort monitoring is essentieel voor het bereiken van data observability. En hoe zit het met de bewaking van de datakwaliteit, een andere kritieke component van data observability? Terwijl pure AI-gebaseerde technieken gemakkelijk schaalbaar zijn, is traditionele bewaking van datakwaliteit dat niet.

Het probleem met traditionele bewaking van data quality

Traditionele of handmatige bewaking van datakwaliteit is afhankelijk van het produceren van aangepaste implementaties van dezelfde regel voor verschillende databronnen of, in het beste geval, het handmatig toewijzen van herbruikbare regels aan specifieke tabellen en attributen.

In uitgebreide data-omgevingen van ondernemingen die honderden of duizenden databronnen omvatten (soms verspreid over verschillende landen en continenten), is deze aanpak niet schaalbaar. Dus terwijl een deel van de signalering voor data observability in hoge mate geautomatiseerd is, is het andere belangrijke deel dat juist niet. 

Wat is geautomatiseerde datakwaliteit?

Geautomatiseerde DQ combineert AI en een op regels gebaseerde aanpak om alle aspecten van datakwaliteit te automatiseren: configuratie, meting en dataverstrekking. Door de datacatalogus, centrale rules-bibliotheek, business glossary en data profilering te combineren, is het in staat om automatisch:

  • Data domeinen te ontdekken, zoals namen, adressen, productcodes, verzekeringsnummers, rekeningsaldi, enz.
  • Regels voor datakwaliteit te koppelen aan specifieke bedrijfsdomeinen.
  • Metadata te ontdekken voor data profilering en -classificatie.
  • De definities van data domeinen, DQ-regels en AI-suggesties voor nieuw ontdekte data continu te evalueren.
Handmatige bewaking van data quality Geautomatiseerde bewaking van data quality
Handmatig in kaart brengen van regels Metadata-gestuurde mapping van regels
Ongecontroleerd beheer van regels Gecentraliseerd regelbeheer
Niet-herbruikbare DQ regels Herbruikbare DQ regels
Niet schaalbaar Zeer schaalbaar

Waarom geautomatiseerde data quality van vitaal belang is voor data observability

Op dit punt is het misschien duidelijk waarom het automatiseren van data quality monitoring belangrijk is voor optimale data observability workflows. Toch zullen we verder uitleggen hoe het helpt om de eerder genoemde doelen van data observability te bereiken.

#1 Maakt de automatisering van essentiële controles op data quality mogelijk
Het is duidelijk dat bewaking van data quality cruciaal is om de data observability goed te krijgen. Het is zelfs nog belangrijker om dit te automatiseren, net als andere onderdelen van de data observability vergelijking. Voor veel ondernemingen met duidelijk gedefinieerde data quality regels die zijn opgesteld door datagovernance- en bedrijfsteams, zou het niet geautomatiseerd hebben van data quality monitoring hun vermogen om een holistisch beeld te krijgen van de gezondheid van hun data ernstig belemmer.

#2 Eenvoudige installatie maakt adoptie een plezier voor je teams!
Eén van de meest aantrekkelijke aspecten van elke observability-oplossing is de relatief eenvoudige installatie op bronsystemen. Geautomatiseerde data quality (DQ) maakt dit zelfs nog eenvoudiger door het creëren van regels en de opzet van kunstmatige intelligentie systemen (zoals anomaliedetectie) ongelooflijk eenvoudig te maken. Dit helpt bij het realiseren van de “zelfbedienings” architectuur die we in de inleiding hebben beschreven. Eenmaal ingesteld, kan geautomatiseerde DQ ook resultaten leveren op een flexibele manier, zoals je maar wilt, resultaten kunnen worden geleverd op elk niveau: van een enkele tabel tot een volledig zakelijk domein of gegevensbron.

#3 Biedt een herhaalbaar framework voor gedecentraliseerde teams
Alle configuraties, regels en subroutines zijn herbruikbaar en centraal gedefinieerd in een rules-bibliotheek. Dit maakt het veel makkelijker voor teams om dezelfde regels te volgen en gecentraliseerd beleid te implementeren zonder ze steeds opnieuw te hoeven herschrijven/herconfigureren. Uiteindelijk betekent dit dat nieuwe teams en systemen veel sneller in gebruik kunnen worden genomen.

Stel je voor dat je handmatige DQ gebruikt in een gedecentraliseerde omgeving. Je zou in elk gedistribueerd team (of een speciale afdeling) iemand nodig hebben om die regels te coderen voor elke DQ regel/systeem dat je introduceert. Dit zou ongelooflijk tijdrovend zijn en veel meer mankracht vereisen.

Geautomatiseerde DQ vereist minder werkuren om te onderhouden en te configureren. Ontwikkelaars hoeven zich niet te richten op het configureren van DQ regels voor hun team en hun behoeften. Je hoeft ook niet talloze uren te besteden aan repetitieve processen zoals het koppelen van tabellen aan domeinen, het toevoegen van notities of eindeloos code-onderhoud.

#4 Maakt data observability echt schaalbaar
Een ander doel van data observability is het schaalbaar maken van je datasystemen. Naarmate je gedistribueerde teams groter en talrijker worden, heb je een DQ-oplossing nodig die zich kan aanpassen en meegroeit met je systeem. Geautomatiseerde DQ zorgt ervoor dat je observability ongeremd kan groeien door de voordelen te bieden die we hierboven hebben genoemd: tijdsbesparing, herbruikbare configuraties en minder middelen nodig om in te stellen/onderhouden. Het aanpassingsvermogen betekent ook dat het alle huidige en toekomstige databronnen en -typen aankan.

Aan de slag met data observability

Geautomatiseerde data quality is een fundamenteel kenmerk van onze data observability oplossing. De installatie is eenvoudig. Sluit gewoon uw bronsysteem aan op het observability dashboard en ontvang direct DQ-resultaten.

bron: https://www.ataccama.com/