ETL Uitdagingen

De steeds complexere infrastructuren van de meeste analytische systemen, de toevoeging van enorme hoeveelheden data uit ongebruikelijke bronnen en de complexiteit van de analytische workflows dragen allemaal bij aan de problemen die implementatieteams hebben om aan de behoeften van het bedrijfsleven te voldoen. Alleen al de tijd die het kost om een nieuw rapport aan te maken – een relatief eenvoudig proces – laat zien dat ETL-vaardigheden alleen niet genoeg zijn. We moeten alle data-integratie verbeteren en versnellen door het invoeren van automatisering in ETL-processen.

Automatiseren is meer dan alleen de uitvoerders verlossen van het steeds opnieuw creëren van vele alledaagse en repetitieve taken. Het heeft onder andere de volgende voordelen:

1. Geautomatiseerde documentatie

Automatisering zorgt ervoor dat de ETL processen niet alleen worden bijgehouden, maar ook gedocumenteerd met up-to-date metadata over elke extractie, elke transformatie, elke beweging van de data en elke bewerking die erop wordt uitgevoerd op weg naar de uiteindelijke analytische asset (een rapport, een analyseresultaat, een visualisatie, een dashboard widget, enzovoort). Deze metadata zijn geen bijzaak; ze maken deel uit van de automatiseringssoftware zelf en zijn altijd actueel. Ze zijn even nuttig voor de bedrijfswereld als voor de technische implementatiemedewerkers. Zakelijke gebruikers maken meer gebruik van analytische middelen als ze kunnen vaststellen dat het middel is gemaakt van dezelfde data die zij gebruikt zouden hebben, dat het goed is geïntegreerd met andere datasets en dat het uiteindelijke analytische middel precies is wat ze nodig hebben. Met andere woorden, ze vertrouwen de data en de asset.

2. Datum standaarden

Door routineprogramma’s op te zetten voor veelvoorkomende taken zoals datum- en tijdverwerking, referentie- en look-up tabellen en het maken van seriële codes, stellen de analyseteams de broodnodige standaarden op. De implementeerders kunnen nieuwe gegevens en analytische middelen opzetten of onderhoud uitvoeren aan bestaande middelen zonder “creatieve” (niet-standaard) data te introduceren in deze essentiële componenten. Het maakt niet uit waar de gegevens zich bevinden (op locatie, in de cloud, in een relationele database of niet), deze gegevenssets blijven hetzelfde, wat het gebruik ervan veel gemakkelijker maakt voor iedereen (bedrijven of technisch personeel).

3. Data Lineage

Een belangrijke automatiseringsboost voor elke analytische omgeving is de automatische creatie van de data lineage. De data lineage bestaat uit de metadata die alle manipulaties van data weergeeft vanaf de bron(nen) tot de uiteindelijke database, maar ook de individuele bewerkingen om analytische assets te produceren (algoritmen, berekeningen, enz.). Bedenk hoe nuttig die informatie is voor zakelijke gebruikers, datawetenschappers en anderen die analytische middelen gebruiken en maken. Als je kunt begrijpen hoe upstream ETL veranderingen downstream analytische assets kunnen beïnvloeden, elimineer je problemen voor zowel gebruikers als beheerders.

4. Snellere time-to-value

De lead tijd van een project wordt aanzienlijk verkort met automatisering wanneer een nieuw technologisch doel wordt geïmplementeerd (bijv. overstappen op Snowflake of Synapse) of wanneer wordt gemigreerd van een on-premise omgeving naar een cloud-gebaseerde omgeving. Een groot deel van de ETL-code die wordt gegenereerd door een automatiseringstechnologie kan eenvoudig worden aangepast aan de nieuwe omgeving door middel van pull-down menu’s. Er zijn minimale extra inspanningen nodig voor hercodering. In wezen is een organisatie, door automatisering te gebruiken, “toekomstbestendig” voor haar analytische architectuur – geen klein resultaat!

5. Agile methodologie

ETL automatisering ondersteunt de technische staf bij de overgang naar een meer iteratieve en agile methode. In plaats van een reeks afzonderlijke stappen in een traditionele aanpak met hand-offs tussen medewerkers, worden alle stappen voor data-integratie ingekapseld in de automatiseringstool, zodat de overgang van de ene stap naar de andere naadloos en snel verloopt. In feite kan dezelfde resource alle stappen voor data-integratie uitvoeren zonder enige overdracht. Dit maakt de toepassing van een agile methode niet alleen mogelijk, maar ook aantrekkelijk.

6. Data governance

Door alle technische metadata vast te leggen en de accuraatheid en actualiteit ervan te garanderen, bedient geautomatiseerde ETL een ander publiek – de functie voor data governance. Door de volledige levenscyclus van data-integratie te begrijpen, van de eerste opslag tot het uiteindelijke doel, kunnen data stewards controleren waar de gegevens vandaan kwamen (goedgekeurde bronnen of niet), welke wijzigingen en transformaties erop werden uitgevoerd (standaardberekeningen of gepersonaliseerde berekeningen) en welke analytische middelen nu kunnen worden gecertificeerd (“door de onderneming goedgekeurd” of “bedrijfsstandaarden”).

7. Data Modellering

Een van de moeilijkere migraties die een analytische omgeving kan doormaken, is een verandering in de stijl van datamodellering. Bijvoorbeeld het overstappen van een datawarehouse gebaseerd op een sterrenschema naar een datawarehouse gebaseerd op het Data Vault ontwerp. Zonder automatisering van data-integratie en goed gedocumenteerde metadata zou deze verandering vrijwel zeker een totale herschrijving van alle ETL-code vereisen. Met automatisering kunnen alle stappen die leiden tot de uiteindelijke opslag van de gegevens behouden blijven en hoeven alleen de laatste paar processen die het database schema maken en de gegevens laden gewijzigd te worden. Veel van het intellectueel kapitaal kan behouden blijven en de verandering kan snel en efficiënt worden doorgevoerd.

8. Data Fabric

Tot slot overwegen veel organisaties een nieuwe architectuur om hun verouderende datawarehouses te vervangen – de “Data Fabric”. Het idee van een data fabric ontstond aan het begin van 2010. Sindsdien hebben veel kranten, leveranciers en analisten de term overgenomen. Het doel van een data fabric is het creëren van een architectuur die alle vormen van analytische data omvat voor elk type analyse (bijv. van eenvoudige rapportage tot complexe bedrijfsanalyse tot gecompliceerde data science verkenningen) met naadloze toegankelijkheid en deelbaarheid voor iedereen die er behoefte aan heeft. Gegevens in een Data Fabric kunnen overal in de onderneming worden opgeslagen, waardoor geautomatiseerde ETL een verplicht hulpmiddel is om de kans op succes in deze nieuwe onderneming te vergroten. Goed gedocumenteerde ETL vermindert de algehele complexiteit enorm door de creatie en het onderhoud van deze uiterst gedistribueerde omgeving te vereenvoudigen.

Voordelen van data-automatisering

Dit zijn slechts enkele van de belangrijkste voordelen van het automatiseren van data-integratie. Ze zijn allemaal overtuigend en illustreren de waarde van de technologie, niet alleen voor de technische implementatiemedewerkers, maar ook voor het bedrijfsleven. In de huidige complexe analytische omgevingen kan een bedrijf zich geen ouderwetse, trage, foutgevoelige ETL-processen veroorloven; het moet snel kunnen schakelen, snel nieuwe analytische middelen kunnen creëren met behoud van de integriteit van de bestaande middelen. Je ETL-processen automatiseren is de enige manier om dit te bereiken.

bron: https://www.wherescape.com/