Data Observability is het vermogen om de kwaliteit van data gedurende de levenscyclus van data te volgen, te diagnosticeren en te beheren. Het helpt realtime bij het ontdekken, categoriseren en oplossen van dataproblemen.

Wanneer gegevens door uw systemen stromen, kunnen kwaliteitsproblemen in data aanzienlijke problemen veroorzaken. Hoe verder de data stroomt, hoe moeilijker het is om het probleem op te lossen. Om de oorsprong van het probleem te vinden moet u eerst de oorsprong van de data vinden. Dit doet u  door de stroom van de data terug naar de bron te volgen en tijdens die reis proberen te achterhalen waar het probleem is ontstaan.

Om dit tijdrovende proces zoveel mogelijk te voorkomen is het beter om de problemen te voorkomen voordat ze zich voordoen, dan ze te “genezen” wanneer ze al zijn opgetreden en mogelijk schade hebben aangericht. Een van de beste benaderingen voor deze methode van proactief gegevensbeheer is het gebruik van een data-observatiepatroon. In dit patroon is het hele proces van data bewaking geautomatiseerd. Van het vinden van het probleem, naar het sturen van een alert, tot en met het aanbieden van een taak aan bijvoorbeeld een data steward om het probleem op te lossen verloopt vanuit 1 geïntegreerde oplossing.

Hoe werkt Data Observability in de praktijk

Data-observatiepatronen worden geïmplementeerd door middel van zogenoemde Data Observability tooling. Het Ataccama One platform heeft een specifieke module die helpt bij het observeren van data stromen om daar  vervolgens afwijkende patronen in te herkennen en op basis van regels de relevante partijen te waarschuwen als er een potentieel probleem wordt ontdekt.

Bijvoorbeeld: U ontvangt een waarschuwing als in ERP-systeem de bestellingen meer dan 1% afwijkingen bevatten. Afwijkingen kunnen dan bijvoorbeeld zijn ontbrekende gegevens, foute product gegevens, afwijkende order bedragen, of afwijkende order aantallen.

De Data Observability tooling van Ataccama identificeert een probleem met behulp van deze 4 methoden:

1.     Anomaly-detectie. Het op basis van eerdere gegevens detecteren wanneer nieuwe gegevens buiten het normale en te verwachten patroon vallen.

2.     Schema veranderingen: Wijziging aangebracht in de schema definities van de data set, bijvoorbeeld de wijzigingen van de lengte van een kolom.

3.     Geldigheid en Validiteit:  Het tegen de business regels aanhouden van data waarden om overtredingen de regels te constateren.

4.     Recordvolume: Het identificeren van onverwachte veranderingen in het aantal records in een dataset.

Het probleem onderzoeken

Nadat u een waarschuwing heeft ontvangen, kunt u als eerste meer informatie verzamelen met behulp van de data catalogus. Bijvoorbeeld de bron van de data, de business definities van de data elementen en de technische gegevens zoals de data types, lengtes en sleutel gegevens.

Om echter informatie over het probleem te vinden, moet u de Data Observability module gebruiken. Hier ziet u direct het aantal gedetecteerde problemen binnen de betreffende dataset en kunt u inzoomen op het exacte probleem. Hierna kunt u dus direct beginnen met het oplossen van het probleem.

Zodra u het probleem op bronniveau heeft onderzocht, kunt u de betreffende tabellen bekijken. Er is informatie over de structuur, afstamming, kwaliteit, relaties en meer van degelijke gegevens. U ziet ook informatie over de gegevenskwaliteit voor elke kolom met gegevens die in dat bronsysteem aan de term is toegewezen.

Een van de meest waardevolle tools hier is de grafiek van de anomalie. Het visualiseert uw typische waarden tegen de potentieel afwijkende waarden. Dit zal helpen het probleem te beoordelen en te beslissen of het een echt probleem is of niet. De tool stelt vervolgens de vraag “is dit een anomalie?” Door deze te beantwoorden, kan de observatietool afwijkingen zoals deze in de toekomst opsporen of leren ze te negeren als verwachte waarden.

Bijvoorbeeld: de observatietool detecteert een onverwacht aantal null-waarden en frequentie van specifieke waarden in een dataset. U kunt deze anomalie verder onderzoeken om te beslissen of dit inderdaad een afwijking is. Algoritmen voor afwijkingsdetectie leren van uw beslissing en blijven dit soort gebeurtenissen in de toekomst signaleren.

Van probleem naar oorzaak en oplossing

Als het probleem is begrepen, is de volgende taak het uitzoeken van de oorsprong van het probleem. Hiervoor kun je bijvoorbeeld data lineage gebruiken. Data lineage toont het bronsysteem en elke stap die de data op hun reis heeft gezet, zodat u kunt zoeken waar de kwaliteitsissue is opgetreden. Dit helpt u te bepalen of het probleem werd veroorzaakt door een gegevensoverdracht of een miscommunicatie tussen systemen of dat het probleem is ontstaan in een bronsysteem, bijvoorbeeld bij het invoeren van data.

Voor meer inzicht bij het vinden van de oorzaak van een probleem, biedt de Ataccama oplossing voor Data Observability goede mogelijkheden voor metadatabeheer, bijvoorbeeld in de vorm van informatie over data-owners, data-stewards, experts en analisten voor bepaalde datasets. Deze personen kunnen helpen bij vinden van de oorzaak van het probleem, maar het helpt ook bij het bepalen wie u moet waarschuwen dat er iets mis is, bijvoorbeeld de data-eigenaar, de data-producent en de data-consument.

Op deze manier kunnen data-producenten helpen de gegevens te herstellen en kunnen data-consumenten stoppen met het gebruik van de defecte data totdat het probleem is opgelost. U kunt hen op de hoogte stellen van het probleem in Ataccama One door middel van een het creëren van een “opmerking” of het toekennen van een expliciete “taak”.

Aan de slag

Wilt u ook aan de slag met Data Observability? Neem dan gerust contact met ons op!

Bron: https://www.ataccama.com/blog/how-data-observability-simplifies-investigation-data-quality-issues