Het verzamelen en analyseren van big data is dankzij schaalbare cloudopslag geen probleem meer. Maar als je niet verder kijkt dan de data binnen je eigen silo's, beperk je jezelf en mis je waardevolle inzichten. De uitdaging bij wide data is hoe je gefragmenteerde data met elkaar verbindt om waardevolle informatie te krijgen en te gebruiken.
We leven in een connected wereld. Tenminste, dat wordt ons voorgehouden, maar in werkelijkheid leven we in een wereld die met de dag meer gefragmenteerd raakt. Je ziet het in social media, in de politiek, in de zakenwereld en in het gebruik van data in het algemeen. De hoeveelheid data is het probleem niet, de uitdaging zit hem in het bij elkaar brengen van allerlei verschillende soorten data om zo de bigger picture weer beter te zien.
Big data is geen mysterie
Dat de mystiek rond big data aan het verdwijnen is, zien we al als we kijken naar de veranderingen bij verschillende Hadoop-leveranciers. Zij worden langzaam overbodig omdat het opslaan en verwerken van grote hoeveelheden data dankzij cloudplatformen als Azure, AWS en Google Cloud bereikbaar wordt voor iedere organisatie. Met alle voordelen van dien, maar ook met de nodige risico’s.
Bedrijven kunnen zich dankzij dit soort technologie steeds meer op hun kerncompetenties richten en hun eigen data diepgaand analyseren binnen hun eigen silo. Het lastige is dat die silo’s lastig te combineren zijn door de verschillende datasets. Dat terwijl de echte impact van data te vinden is op het kruispunt van al die verschillende datasets.
Innovatieve combinaties
Het aantal data formats is sinds 2013 meer dan verdubbeld, van 162 in 2013 naar maar liefst 342 in 2019. Die data zijn lastig te verbinden en te analyseren. Hoe meer data we op verschillende plekken hebben, hoe meer behoefte we hebben aan synthese van data, zodat het uiteindelijk geanalyseerd kan worden. Bedrijven die hier sterk in zijn, zijn de succesverhalen van morgen. Ze kunnen businessmodellen en data van verschillende disciplines mengen en zo oplossingen bedenken die verder gaan dan de verticale markten.
Denk aan het combineren van Street View-achtige informatie met het adres van een klant. Een tuincentrum kan zo een klant met een kapotte grasmaaier extra tegemoetkomen door hem een boomschaar te leveren, doordat een medewerker van de klantenservice heeft gezien dat de klant veel bomen in zijn tuin heeft staan. Een overheid kan zien wanneer een gezin dakloos dreigt te raken door gegevens uit verschillende datasets te combineren, zoals de gegevens van jeugdzorg, scholen, voedselbanken enzovoort.
Naar waardevolle combinaties
Maar hoe combineer je al deze verschillende data nou? Voor het probleem van wide data is er nog geen kant-en-klare oplossing. Wel zijn er verschillende manieren om verschillende datasets bij elkaar te brengen en er zo waarde uit te halen.
Data-integratie. Er zijn platformen beschikbaar om allerlei diverse databestanden te inventariseren en op elkaar af te stemmen, waardoor de gegevens eenvoudig te beheren en te begrijpen zijn.
Data-ops. Geïnspireerd door Devops. Hierbij worden dezelfde agile methodes gebruikt. In dit geval onder meer om de datastroom tussen verschillende silo’s te regelen. Mede door technologie als kunstmatige intelligentie is het gemakkelijker om ruwe data om te zetten in bruikbare informatie.
Data governance. Om de datakwaliteit te garanderen, is een combinatie nodig van technologie en processen die zorgen voor de juiste werkwijze bij het creëren, archiveren, opslaan en verwerken van data. Hierbij is het ook belangrijk dat de planning en bevoegdheden om beslissingen te nemen geregeld zijn.
Bovenstaande zijn drie manieren die helpen om synthese tussen de verschillende data formats te behalen, waardoor je nieuwe inzichten en informatie krijgt als bedrijf. Wide data, en de daarbij horende ontwikkelingen, is daarom zeker een trend om in de gaten te houden.
Dan Sommer, senior directeur Global Market Intelligence Lead bij Qlik