Datagestuurde organisaties kiezen Snowflake omdat het dataopslag, -verwerking en -analyse biedt die tot de snelste, meest flexibele en gebruiksvriendelijkste op de markt behoort. Het stelt gebruikers in staat om op een logische en wereldwijde manier samen te werken, gestructureerde, semigestructureerde en ongestructureerde gegevens op één plaats op te slaan en te raadplegen, en het beschikt over vrijwel onbeperkte resources dankzij de op de cloud gerichte architectuur.
Als u dit leest, weet u waarschijnlijk ook hoe belangrijk het is om de datakwaliteit in Snowflake te garanderen.
Ataccama introduceert daarom een nieuwe mogelijkheid in hun data quality stack: native pushdown naar Snowflake. Dit stelt klanten in staat om realistische verwachtingen te stellen en slimme beslissingen te nemen met hun data, wetende of deze in goede staat is voor het beoogde doel. Laten we eens verder kijken naar deze nieuwe functie.
Wat is pushdown voor Snowflake en hoe werkt het?
Als Snowflake-partner heeft Ataccama geïnvesteerd in ‘native integration’ voor de meest efficiënte en kosteneffectieve data processing op Snowflake. Dit betekent dat uw gegevens op Snowflake worden verwerkt en nergens naartoe worden verplaatst.
Hoe werkt de kwaliteitswaarborging van data met andere tools en waarom is pushdown zo’n game changer?
Zonder pushdown zou u alles in een aparte data processing engine moeten doen. Naast het investeren in een data quality oplossing met een rule library en deployment componenten, moet je:
- Een speciale infrastructuur opzetten, zoals een dedicated server, Spark-cluster of andere data processing-technologie.
- Die cluster verbinden met je Snowflake-instantie, en data transfers tussen beide mogelijk maken.
- Elke keer dat je een controle op Snowflake moet uitvoeren (om metrics voor data quality te meten of een transformatie uit te voeren), moet u gegevens van Snowflake naar de data-processing cluster kopiëren, de resultaten berekenen of gegevens transformeren, en vervolgens getransformeerde gegevens of resultaten van data qualitycontroles terugsturen naar Snowflake.
Specifieke processing engines zijn doorgaans goed afgestemd op specifieke taken voor gegevensverwerking en bieden ongeëvenaarde prestaties op een bepaald gebied. Gebruikers moeten zich echter bewust zijn van de nadelen en risico’s die de overdracht van data tussen de bron en de engine met zich mee kan brengen, zoals de tijd die nodig is voor de overdracht (totale prestatie-impact) en het data security-aspect.
Met pushdown vinden alle controles van de datakwaliteit plaats in Snowflake, zodat je deze kunt beoordelen zonder gegevens over te dragen tussen Snowflake en een data processing engine. De dataverwerkingstaken van Ataccama worden vertaald/omgevormd naar Snowflake-taken, waarbij gebruik wordt gemaakt van basis-SQL, speciale door de gebruiker gedefinieerde functies (UDF’s) en de Snowpark-bibliotheek voor complexere logica.
En het mooiste is dat alle regels voor data quality in de Ataccama-tool worden geschreven en automatisch naar Snowflake worden vertaald, zodat u de gebruiksvriendelijke interface van Ataccama kunt gebruiken om protocollen voor data quality op te stellen. Anders zou u ze handmatig in Snowflake moeten coderen. Zodra u uw DQ-regels in Ataccama ONE hebt ingesteld, hoeven uw gegevens Snowflake nooit meer te verlaten om de kwaliteit ervan te beoordelen.
Features en voordelen van pushdown voor Snowflake
Pushdown is de beste keuze voor het beheer van DQ op Snowflake, omdat Ataccama zelf al zeer geavanceerd is in het beheer van data quality, en je het nu zelf kunt uitvoeren (via de pushdown-modus). Het biedt voordelen op het gebied van snelheid, veiligheid, infrastructuur.
Snelheid
Door gebruik te maken van de gedistribueerde verwerkingskracht van Snowflake biedt pushdown verwerkingstijden die aanzienlijk sneller zijn (je kunt 150 miljoen records evalueren in 15 seconden) dan verwerking met een externe engine.
Beveiliging
Met pushdown hoef je geen grote datasets buiten Snowflake te plaatsen, wat riskant kan zijn voor de beveiliging van de data. Met het gebruik van externe processing engines verplaats je data ergens naartoe: dus om de beveiliging en compliance te waarborgen, moet je bijvoorbeeld nagaan of je interne beleid wordt nageleefd (zoals de behandeling en opslag van PII-gegevens, GDPR-gerelateerde vereisten, geobeperking (gegevens die niet naar een bepaalde regio worden verplaatst), passende machtigingen instellen (denk aan systeemaccounts/gebruikersaccounts) voor de engine, zorgen voor het gewenste niveau van versleuteling tijdens de transfer, zorgen dat de middelen voor de datatransfer (bijvoorbeeld poorten) beveiligd zijn. Het is natuurlijk mogelijk dit te beveiligen, maar het voegt veel meer werk toe dan wanneer alles binnen Snowflake blijft, waar de beveiliging al is gegarandeerd. Lees hier meer over de beveiliging van Snowflake.
Infrastructuur
Door de bestaande schaalbare infrastructuur van Snowflake te gebruiken, stelt pushdown gebruikers in staat hun data te evalueren en inzichten te verwerven zonder dat zij extra grote data processing servers hoeven op te zetten en te beheren
Gebruiksgemak
De nodige configuraties voor data quality worden gecreëerd in de gebruiksvriendelijke omgeving van Ataccama. Kennis van Snowflake en hoe je ermee moet werken is optioneel. Alle aan data quality gerelateerde functies van Atacama (zoals DQ-regels) kunnen worden gebruikt voor Snowflake pushdown zonder dat u iets nieuws hoeft te creëren of extra moeite hoeft te doen. U kunt de regels die u in Ataccama ONE hebt gemaakt overigens ook hergebruiken voor andere databronnen.
Hoe te beginnen met pushdown voor Snowflake
Zodra uw Snowflake datasource is aangesloten op het Ataccama platform, is het instellen van pushdown zo simpel als één klik. Ga naar de configuratie van uw data source en selecteer de optie “pushdown”. U kunt dan meteen data quality checks uitvoeren in Snowflake.
Conclusie
Het is nog nooit zo eenvoudig geweest om beslissingen over data van hoge kwaliteit te nemen in Snowflake. Met Pushdown kunt u sneller en veiliger inzicht krijgen in uw opgeslagen gegevens op een schaalbare en gebruiksvriendelijke manier. U minimaliseert risico’s en kosten terwijl u de flexibiliteit van uw Snowflake-infrastructuur benut met onze in-place processing. En het mooiste is: uw gegevens verlaten Snowflake nooit! Lees hier meer over onze samenwerking met Snowflake.
Meer weten en verder praten over Ataccama pushdown voor Snowflake? Neem contact op met Systemation.