Snowflake biedt mogelijkheden voor het analyseren van ruimtelijke data op big data-niveau. Veel data science projecten zijn complex en daarom wordt er heel veel data gebruikt. Dit maakt snowflake tot een gewilde oplossing. Vanuit Avineon Tensing krijgen we regelmatig vragen over de mogelijkheden van combineren van FME en snowflake. In deze blog leggen we uit hoe krachtig deze combinatie is.
Wat is Snowflake?
Snowflake is een cloud computing platform dat organisaties in staat stelt zich te ontdoen van datasilo’s. Het biedt een platform dat elk dataformaat aankan, analyses kan uitvoeren op vrijwel onbeperkte schaal en gebruikers in staat stelt gegevens gemakkelijk en veilig te delen zonder ze te kopiëren of te verplaatsen.
Snowflake integreert met ETL-platforms voor gegevensinvoer, gegevenssynchronisatie en kan streaming gegevens verwerken. Gebruikers kunnen interactief met de data werken met behulp van interactieve dashboards die er bovenop zijn gebouwd of via een groot aantal data science en ML-omgevingen.
Hoe gebruikt u Snowflake met ruimtelijke data?
Het enige dat nog relatief nieuw is in Snowflake is de mogelijkheid om ruimtelijke data te integreren en te analyseren. Hoewel het de essentiële ondersteuning voor coördinaten in WGS84 bevat, ontbreekt het out of the box aan volledige ondersteuning voor geometrie en geografische data. Om dit probleem op te lossen heeft Snowflake contact gezocht met Safe Software en Avineon Tensing. Bij Avineon Tensing hebben we een PoC-oplossing gebouwd die FME Server in Snowflake integreert om een Snowflake-only ervaring te bieden die gebruik maakt van alle (ruimtelijke) analytische kracht van FME.
Welke Data science mogelijkheden biedt Snowflake?
Snowflake is een ongelooflijk handige tool voor het werken aan data science-projecten, omdat u het één enkel toegangspunt biedt tot alle gegevens die u nodig heeft. Dit omvat data van uw eigen organisatie, maar ook externe gegevensbronnen via het wereldwijde netwerk van vertrouwde data. Deze data kunnen worden verwerkt op de multi-cluster compute architectuur, waardoor zeer schaalbare preprocessing en datavoorbereiding mogelijk is. Als Data Scientist kunt u met elk learning machine of framework uw processen bouwen met de taal naar keuze. Dit kan met behulp van native connectors.
Hoe verbindt u snowflake aan notebookapps?
Het analyseren van gegevens en het maken van modellen voor machine learning is een iteratief proces van verkennen, testen en valideren van methoden en de bijbehorende resultaten. Het begint en eindigt altijd met het bespreken van uw werk met domeinexperts en eindgebruikers, die nieuwe ideeën zullen aandragen of zullen wijzen op gebreken in de huidige aanpak. Uw tegenhangers in deze discussie zullen niet altijd in staat zijn uw code te lezen. Sterker nog, zelfs gevorderde programmeurs kunnen het moeilijk hebben om elkaars code te lezen. Het maken van goed gestructureerde en gedocumenteerde notebooks tijdens het werken aan data science projecten is daarom uiterst belangrijk. Het stelt u in staat om te delen wat u heeft gedaan, wat de uitkomsten zijn en welke nieuwe inzichten of nieuwe vragen dit oproept.
Verbinding maken met Snowflake vanuit uw notebookomgeving kan met behulp van het Snowflake-Connector package in Python. Hiermee kunt u SQL-query’s uitvoeren en de resultaten ophalen, of zelfs een SQL-alchemy-engine maken waarmee u gegevens uit Snowflake rechtstreeks in Pandas dataframes kunt inlezen. Door deze integratie te combineren met een ArcGIS API voor Python of zelfs open source alternatieven zoals Geopandas ontstaat een ongelooflijk krachtig platform voor schaalbare (geo)data science projecten.
Met behulp van de FME-integratie in Snowflake kun u nu grootschalige ruimtelijke verwerking uitvoeren vanuit uw notebookomgeving. Dit stelt u in staat om het volledige potentieel van ruimtelijke gegevens in uw projecten te benutten en betere data science oplossingen te creëren.
Wilt u meer weten over de achtergrond en mogelijkheden van Snowflake?