De verwachting is dat de markt van data fabric tussen nu en 2026 meer dan verdrievoudigd zal zijn. Maar wat is een data fabric eigenlijk en wat zijn de voordelen voor jouw bedrijf?
Engelse bron: Ataccama
Gartner heeft data fabric op beide laatste lijsten met top trends in de data community vermeld:
Allied Market Research verwacht dat de data fabric-markt tussen nu en 2026 meer dan verdrievoudigd zal zijn en noemde een “toenemende behoefte aan zakelijke wendbaarheid en gegevenstoegankelijkheid” als één van de belangrijkste factoren die van invloed zijn. Maar wat is data fabric nu precies?
Wat is een data fabric in eenvoudige bewoordingen?
Een data fabric is een datamanagement-oplossing die alle databronnen en datamanagementcomponenten met elkaar verbindt om gebruikers moeiteloos toegang te geven tot enterprise data.
In een data fabric vind je alle fundamentele functies van het data management framework, zoals tools voor data quality en data catalog. Ze worden echter met elkaar verbonden aan de hand van de metadata, die synergie creëert voor een gebruiksvriendelijke en overwegend autonome, bedrijfsbrede, interface voor datagebruik.
Definitie van data fabric
Aangezien data fabric een enigszins complex concept is, kan een definitie van deze term een bijdrage leveren aan een beter begrip ervan. Hieronder vind je twee definities uit andere bronnen:
Een data fabric is een opkomend ontwerpconcept voor gegevensbeheer en gegevensintegratie voor het bereiken van flexibele, herbruikbare en uitgebreide data integratie, services en semantiek, ter ondersteuning van verschillende operationele en analytische doeleinden, die worden gedeeld op meerdere implementatie- en orkestratieplatforms.
Bron: Gartner’s Demystifying the data fabric
Een data fabric is in wezen een metadata-gestuurde manier om een ongelijksoortige verzameling datatools te koppelen en daarmee de belangrijkste pijnpunten in big data-projecten aan te pakken, op een samenhangende en zelflerende manier.
Bron: Data Mesh vs. data fabric: Understanding the Differences by Alex Woodie
Een data fabric houdt in dat verschillende bronnen en soorten gegevens worden verbonden zodat ze op diverse manieren kunnen worden benaderd. Het is een geïntegreerde, semi-autonome laag die zich uitstrekt over al je dataplatforms om kwaliteitscontroles uit te voeren, gegevens in kaart te brengen, continue analyses uit te voeren en verschillende andere processen uit te voeren. Dit alles wordt aangedreven door metadata die de data fabric gebruikt om patronen te herkennen, autonome beslissingen te nemen en datastromen op te bouwen.
Wat een data fabric tot een data fabric maakt, is hoe deze componenten met elkaar communiceren en metadata uitwisselen, wat een primaire aanjager van automatisering is.
Een data fabric kan ook analyseren hoe je organisatie gegevens gebruikt en hier toegang tot geeft. Ook kan het processen stroomlijnen voor toekomstige vragen, en het kan zelfs voorspellen wat een gebruiker wil doen voordat hij een verzoek invoert. Dit leermechanisme helpt de data fabric ook toegang te krijgen tot gegevens waarvan je misschien niet wist dat deze er was of die van te lage kwaliteit waren. De data fabric presenteert deze gegevens aan gebruikers om ze te beoordelen en te verkennen.
Waarom heb je een data fabric nodig?
Nu je het concept van een data fabric begrijpt, vraag je je waarschijnlijk af waarom je het nodig hebt. Het op deze manier organiseren van je datasystemen biedt verschillende voordelen die afzonderlijke datamanagementsystemen je niet bieden. Hieronder vind je een aantal redenen waarom je een data fabric nodig kan hebben:
Handmatige en langdurige processen om gegevens te verkrijgen
Een van de beste eigenschappen van data fabric is dat het al je data op een presenteerblaadje aanlevert. Door de mogelijkheden van een data catalog, data-integratie en data profiling te combineren, ontstaat een eenvoudig mechanisme om hoogwaardige gegevens te vinden en te gebruiken.
Zonder een data fabric moet je handmatig door je systemen zoeken om gegevens te vinden. Als je het eenmaal hebt gevonden, kun je niet garanderen dat het van hoge kwaliteit is of zelfs de exacte gegevens zijn waarnaar je op zoek bent gegaan, zonder een aantal extra stappen te nemen. Denk aan het schrijven van code om de gegevens te vinden, of de noodzaak om de dataset te ‘profilen’ voordat je het kan gebruiken.
Catalogi zijn geweldig, maar leveren geen gegevens op
Als je bedrijf al een data catalog heeft, denkt je misschien dat je geen data fabric nodig hebt. Datacatalogi zijn gekoppeld aan je databronnen en ontdekken daarin relevante metadata. Hoewel data catalogi die metadata eenvoudig inzichtelijk kunnen maken, kunnen ze geen data leveren zoals een data fabric dat kan. Data catalogi zijn overigens wel een belangrijk onderdeel van een data fabric architectuur.
Steeds meer gegevensbronnen
Naarmate bedrijven hun dataverzamelingen uitbreiden en steeds meer databronnen aanboren, wordt het integreren van data en het beheren van metadata exponentieel gecompliceerder. Uiteindelijk realiseren bedrijven zich dat ze dit niet handmatig kunnen blijven doen.
Data fabric-componenten
Aangezien een data fabric een ontwerpconcept is, helpt het om dit beter te begrijpen als je componenten ervan kent. Er zijn zes componenten die deel uitmaken van de data fabric-architectuur.
1. Data catalog
De data catalog maakt verbinding met alle belangrijke databronnen in je organisatie en legt metagegevens daaruit vast. Het is misschien wel het meest kritieke onderdeel van de data fabric, omdat metadata een groot deel van de automatisering uitvoert die de data fabric levert. Het is belangrijk op te merken dat je een actuele, zelflerende data catalog nodig hebt die het ontdekken en opnemen van metagegevens automatiseert. Met andere woorden, wanneer je een nieuwe gegevensbron aan je data catalog koppelt, zal de artificial Intelligence (AI) de kennis die het heeft over de bestaande gegevensbronnen hergebruiken om metagegevens over de nieuwe bron af te leiden. Het zal bijvoorbeeld business termen voorstellen om technische kenmerken te labelen.
2. Knowledge graph
De knowledge graph slaat al uw metadata en relaties daartussen op, en niet alleen metagegevens over databronnen (die zijn opgeslagen in de data catalog). Gebruikers profiteren hiervan door de data en metadata beter te kunnen begrijpen. Het wordt ook gebruikt door de recommendation-engine (daarover hieronder meer). Door de knowledge graph kunnen zowel gebruikers als machines (d.w.z. de recommendation engine) op gelijke wijze de relaties tussen alle metadata-entiteiten onderzoeken (ongeacht de bron).
3. Metadata activering
Metadata-activering betekent het gebruiken van bestaande metadata en het daaruit afleiden van nieuwe metadata. Enkele voorbeelden zijn het profileren van data, het genereren van statistieken, het evalueren van de data quality en het uitvoeren van dataclassificatie. Geactiveerde metadata worden terug opgeslagen in de knowledge graph, waardoor eerder vastgelegde informatie verder wordt uitgebreid.
4. Recommendation engine
De recommendation engine gebruikt alle metadata uit de knowledge graph (inclusief de geactiveerde metadata, technische metadata, catalog metadata, enz.) om meer metadata af te leiden, of aan te bevelen hoe uw gegevens moeten worden verwerkt. De recommendation engine voert drie soorten taken uit:
- Leveringsoptimalisatie: het stelt leveringsmodellen voor, optimaliseert de planning en stelt datatransformaties voor.
- Metadata-inferentie: het zal nieuwe relaties vinden, dataclassificatie uitvoeren en datakwaliteitsregels toepassen, allemaal als suggesties voor de gebruikers.
- Foutdetectie: het detecteert afwijkingen in datakwaliteit, datastructuur of datalevering en waarschuwt de belanghebbenden.
5. Het voorbereiden en leveren van data
De data fabric stelt gebruikers en machines in staat om data en metadata te gebruiken. Gebruikers kunnen data-assets vinden en gebruiken in de data catalog, en deze data transformeren (voorbereiden) op een ‘self-service’ manier. Machines kunnen gegevens opvragen en ontvangen via API’s. De data fabric begrijpt de structuur van data (via metadata in de knowledge graph) en de intentie van de gebruiker. Dit stelt de data fabric in staat om verschillende soorten data voor te bereiden of voor te stellen op basis van alle beschikbare metadata en gebruikersgegevens.
Infographic Data Fabric
Bij het beschrijven van de onderdelen van de data fabric heb je misschien al een goed idee gekregen over de werking ervan. Je kunt echter over al deze componenten beschikken en toch geen data fabric hebben. Mogelijk vind je de onderstaande afbeelding handig om te begrijpen hoe deze componenten samenwerken.
Het kan bijvoorbeeld gedenormaliseerde gegevens voor een rapport suggereren, maar genormaliseerde gegevens voor MDM. De data fabric moet ook het leveren van data vereenvoudigen door de eindpunten voor gegevensuitvoer vooraf te configureren:
- Automatisch API’s genereren
- Gebruikers de mogelijkheid geven om bestaande pipelines voor het verstrekken van data opnieuw te gebruiken
6. Het arrangeren en verwerken van gegevens
De data fabric-architectuur heeft verschillende componenten nodig om de levering van data te optimaliseren. Dit betekent dat deze over robuuste dataverwerkingsengines moeten beschikken die dicht bij de databronnen staan en die data op de snelst mogelijke manier kunnen leveren. Een andere vereiste is naleving van data ops-principes, zoals herbruikbaarheid van data pipelines.
Wat zijn de voordelen van de data fabric?
Als je kijkt naar de verschillende componenten van de data fabric en bedenkt dat deze worden aangedreven door metadata, biedt dit bedrijven één van de meest aantrekkelijke ontwerpconcepten voor een datasysteem.
Snellere en gemakkelijkere toegang tot gegevens
Datawetenschappers en consumenten besteden een alarmerend deel van hun tijd aan het verzamelen en voorbereiden van data voor analyse. Een data fabric maakt self-service datagebruik mogelijk voor iedereen die het nodig heeft in je bedrijf, ongeacht hun vaardigheden. Het geeft toegang tot alle bronsystemen van het bedrijf, zodat gebruikers niet op verschillende plekken hoeven te zoeken naar de gegevens die ze nodig hebben.
Vereenvoudigde dataprivacy en gegevensbescherming
Hoewel data fabric snellere toegang biedt tot je gegevens, brengt het ook nieuwe risico’s met zich mee. Je loopt een risico op datalekken en onnodige toegang tot Persoonlijk Identificeerbare Informatie (PII). De metagegevens die door de data fabric worden verzameld, kunnen helpen deze problemen te voorkomen door automatische beleid toe te wijzen en handhaving toe te passen. Je kan protocollen en beleidsregels implementeren om je gegevens te beschermen. De data fabric kan zelfs gegevens maskeren of de toegang tot bepaalde data weigeren, zodat alleen de juiste mensen toegang hebben.
Enorme besparingen op onderhoud en configuratie
Door metadatabeheer, data-integratie en andere processen te automatiseren, vermindert de data fabric drastisch de tijd die nodig is om je dataplatform te configureren en te onderhouden. Bedenk eens hoeveel tijd het je data-engineers en datawetenschappers zal besparen door het zelflerende mechanisme van metadata en de herbruikbare data pipelines.
Hoe implementeer je een data fabric?
De architectuur van een data fabric omvat veel verschillende componenten en je vraagt je misschien af waar je moet beginnen. Zoals je hierboven misschien hebt opgemerkt, is metadata de belangrijkste bron die de automatisering van de data fabric mogelijk maakt. Met dat in gedachten is het verstandig om te beginnen met metadatabeheer. Als je geen oplossing voor metadatabeheer hebt, zal je er één in gebruik moeten nemen. Een moderne data catalog biedt je een gebruiksvriendelijke manier om dit te implementeren.
Enkele volgende stappen:
- Implementeer een oplossing voor data quality die aansluit op de knowledge graph, die metadata gebruikt om de datakwaliteit te beoordelen.
- Implementeer indien nodig een data-integratiecomponent.
- Implementeer een zelflerende (AI) recommendation engine die de hele data fabric bewaakt.
- Implementeer een metadata-gestuurde oplossing voor datavoorbereiding en -levering.
Systemation & Data Fabric
Het toevoegen van meer detail valt buiten het bestek van dit artikel. Elke organisatie is anders, graag gaan we met jou in gesprek over hoe een data fabric er voor jouw organisatie uitziet. Neem gerust contact met ons op voor een vrijblijvende afspraak om eens van gedachten te wisselen! Of stuur ons een whats-app bericht.
FAQ Data Fabric
De onderstaande FAQ kan verwarring over de verschillen tussen data fabric en andere termen in gegevensbeheer voorkomen:
Data mesh is een fundamenteel andere benadering voor het verbinden van datasystemen binnen één bedrijf. Terwijl een datafabric een enkele datalaag over al uw systemen bouwt, zijn bij een datamaas gedistribueerde groepen of teams betrokken die verschillende delen van het dataframework behandelen en samenwerken via gemeenschappelijke principes voor datagovernance. Er zijn ook manieren om de twee benaderingen te combineren, door systemen te verbinden via een netwerk en toch gedistribueerde verantwoordelijkheden te hebben, zoals bij mesh.
Een data lake is slechts een plaats om gegevens op te slaan. Een data fabric heeft toegang tot gegevens in deze data lakes en verbindt deze met de rest van je databeheer- en data-analysesystemen.
In tegenstelling tot data virtualisatie combineert data-integratie data die zich in verschillende bronnen bevinden om gebruikers een uniform beeld van hun datasets te geven. Aangezien data fabric meerdere databronnen verbindt in een enkele metadata-gestuurde datalaag, is data-integratie een van de belangrijkste kenmerken van de data fabric. Een data fabric automatiseert data-integratie door dynamisch data-integratiepipelines te genereren wanneer dit nodig is om de juiste data te leveren.
Data virtualisatie is een van de manieren waarop een data fabric data kan leveren. Een data fabric gaat verder dan data virtualisatie door dat een datafabric data op verschillende manieren kan integreren en aanbieden. Ook heeft een data fabric het vermogen om dataviews te wijzigen en te construeren op basis van nieuwe metadata met minimale configuratie.
Als er bijvoorbeeld een nieuwe gegevensbron wordt gecatalogiseerd, wordt bij het verstrekken van gegevens automatisch rekening gehouden met de metagegevens. Data fabrics kunnen opgedane kennis ook gebruiken om nieuwe informatie beter op te vangen wanneer ze in het systeem worden geïntroduceerd.
Kortom, data virtualisatie biedt een uniek beeld van de databronnen van een bedrijf, wat helpt bij analyses. Data fabrics kunnen dit ook, maar nog veel meer, vooral als het gaat om het automatiseren van deze processen. Virtualisatie kan worden gezien als een ondersteunde metadata leveringsmodus van een data fabric in tegenstelling tot een alternatief framework.