Datawetenschapper (data-scientist) is een van de meest gewilde functieprofielen binnen it op dit moment. Maar hoe gewild deze beroepsgroep ook is, datawetenschappers kunnen het vaak niet in hun eentje rooien.
Organisaties die datawetenschappers aannemen of inhuren komen er vaak achter dat ze nog niet alle skills en kennis in huis hebben om een machine learning (ml)-model te ontwikkelen en toe te passen. Zo ontbreekt het nogal eens aan (voldoende) kwalitatieve datasets. Het vinden en aan elkaar koppelen van deze datasets is typisch de verantwoordelijkheid van andere professionals: data-architecten en data-engineers.
Laten we beginnen met de typische verantwoordelijkheden van een datawetenschapper: het ontwikkelen van mi-modellen op basis van beschikbare data binnen de organisatie. Een typische datawetenschapper doet voorspellingen over toekomstige data op basis van bestaande data. Klinkt mooi, maar daarbij wordt er wel vanuit gegaan dat er allereerst voldoende data beschikbaar zijn en dat die daarnaast op kwalitatieve wijze gekoppeld zijn. Dat vereist vaak eerst een stapje terug. Het betekent overigens niet dat er niet altijd is te starten met artificial intelligence (ai)-experimenten. Dit kan namelijk juist inzicht geven in de uitdagingen omtrent de data.
De rollen architect, engineer of scientist zijn in veel gevallen onlosmakelijk met elkaar verbonden
Data-architect
Architect, engineer of scientist, wie wanneer aan zet is, hangt volledig af van de vraag die moet worden beantwoord of opgelost en daarbij ook van de data-volwassenheid van een organisatie. De drie rollen zijn in veel gevallen onlosmakelijk met elkaar verbonden. Aan dataprojecten die organisatie-breed moeten worden uitgerold, gaat vaak een lang traject vooraf. Dat komt doordat organisaties hun it-landschap in veel gevallen nog niet op het benodigde niveau zitten. Hier komt de data-architect aan bod om te onderzoeken welke bedrijfsprocessen relevante data kunnen opleveren en wat de waarde is van die data. Hij bepaalt ook waar de verantwoordelijkheid ligt om ervoor te zorgen dat data voldoet aan bepaalde kwaliteit, maar ook bepaalde wet- en regelgeving of richtlijnen vanuit de organisatie. Een data-architect werkt vaak project-overstijgend en zorgt ervoor dat data op het juiste moment in het juiste formaat bij de juiste persoon terechtkomen en dat oplossingen aansluiten bij de bedrijfsdoelstellingen.
Pas wanneer voldoende data beschikbaar zijn, wordt de data-engineer ingeschakeld. De data-architect heeft de kaders vastgesteld, en de data-engineer gaat aan de slag met het verzamelen en transformeren van data. Data-engineers brengen op projectniveau bronnen bij elkaar, koppelen databases en zorgen ervoor dat de kwaliteit van de data goed is.
Zo heeft iedereen zijn eigen superpower: de datawetenschapper is goed in het herkennen van patronen en signaleren van verbanden en de data-engineer in het verzamelen en prepareren van data, waardoor de verbanden die de scientist legt ook daadwerkelijk van toegevoegde waarde zijn voor de organisatie.
Recept
Je kunt de samenwerking vergelijken met de keuken van een toprestaurant. Zonder de beschikking te hebben over de beste ingrediënten kun je geen restaurant beginnen. De data-architect onderzoekt allereerst waar de beste ingrediënten vandaan zijn te halen. De data-engineer bekijkt vervolgens per gerecht welke ingrediënten nodig zijn en in welke samenstelling en zorgt ervoor dat de ingrediënten ook op die manier worden aangeleverd. De volgende stap is het creëren van een recept, waarin de ingrediënten optimaal samenkomen; dat is typisch de verantwoordelijkheid van een datawetenschapper.
Net zoals een menukaart continu wijzigt op basis van de beschikbare ingrediënten, is ook een dataplatform constant in beweging. Er blijven nieuwe inzichten en data binnenstromen, waar slimme oplossingen op gebouwd worden of op moeten worden aangepast om bedrijven te helpen processen te verbeteren. Goede communicatie tussen de drie schakels is daarom essentieel. Het heeft geen zin om een model te ontwikkelen waarvan achteraf blijkt dat de datastructuur (of de ingrediënten) niet helemaal goed in elkaar zitten.
Honger stillen
Een vraag die bedrijven willen beantwoorden is: hoe groot is de kans dat een klant weggaat? Om tot een antwoord te komen, moet allereerst een dataplatform worden ontwikkeld (met een data-engineer en -architect) waarop constant nieuwe, kwalitatieve data binnenkomt. De datawetenschapper werkt aan een model op basis waarvan zinvolle voorspellingen zijn te doen. Als de drie partijen constant samenwerken en evalueren, kunnen ze data omzetten in waardevolle inzichten die een bedrijf echt verder helpen.
Uiteindelijk is dat het gezamenlijk einddoel voor de drie experts. Om dat resultaat te bereiken zijn alle drie de expertises even hard nodig. Hoe toekomstbestendig het beroep van de datawetenschapper ook mag zijn, je hebt iedereen nodig om dat vijfsterrengerecht te serveren.
De auteurs zijn Marvin Schenkel (datawetenschapper), Niels Naglé (data-architect) en Christel Geurts (datawetenschapper), allen van Info Support.