Wat is een datawarehouse?

Max Steg
1 nov 2023
5 minuten om te lezen

Bijgewerkt op: 16 nov 2023

Mogelijk heb je de term datawarehouse regelmatig gehoord, maar weet je niet exact wat het inhoudt. Om succesvol aan de slag te gaan met datagedreven werken is het belangrijk dat data eenvoudig, snel en betrouwbaar toegankelijk is. Een datawarehouse helpt je hierbij.

Uitleg: wat is een datawarehouse?

Een datawarehouse is een centrale opslagplek voor data uit verschillende bronnen. De gegevens in een datawarehouse worden opgeschoond, getransformeerd en gestructureerd voordat ze worden opgeslagen. Vervolgens wordt het datawarehouse gebruikt voor het maken van analyses en rapportages.

Waarom is een datawarehouse belangrijk?

Stel je voor dat je een bedrijf leidt met verschillende afdelingen, elk met hun eigen software en systemen. Voor accountmanagers van de verkoopafdeling is het bijvoorbeeld waardevol om meer te weten dan alleen wat er in hun CRM-systeem staat.

Door automatische analyses te maken op de daadwerkelijke verkoopdata uit de webshop en de kosten vanuit het administratiepakket, krijgt een accountmanager een veel completer beeld. Zo kan hij of zij zien welke klanten mogelijk gaan vertrekken of welke producten tegen een te lage marge worden verkocht.

Een datawarehouse is niet zomaar een opslagplaats voor data. Het is een krachtig hulpmiddel dat helpt om analyses te maken en tot geïnformeerde beslissingen te komen.

In een datawarehouse is alle data uit verschillende bronnen centraal opgeslagen en met elkaar verbonden. Hierdoor kun je analyses maken op gecombineerde data uit meerdere systemen.

Voordelen van een datawarehouse

De geïntegreerde en verbonden data geeft een compleet beeld van de organisatie. We zien dat onze klanten hiermee heel concreet hun besluitvorming kunnen verbeteren, risico's kunnen verminderen, tijd besparen en kansen kunnen ontdekken en benutten. Dit leidt tot groei in omzet en vermindering van kosten.

Bij veel bedrijven is deze behoefte sterk aanwezig. Bij het gebrek aan een datawarehouse verzamelen ze daarom handmatig gegevens, plakken dit in Excel en analyseren de data vervolgens daarin. Dit proces is erg foutgevoelig en kost veel tijd. Met een datawarehouse is er geen noodzaak om handmatig gegevens uit verschillende bronnen te verzamelen en te combineren, dit gaat automatisch.

Een datawarehouse is ontworpen voor schaalbaarheid. Zelfs met enorme hoeveelheden data kun je snel en efficiënt gegevens ophalen en analyses maken. Door een efficiëntie opslagstructuur is het daarom ook mogelijk veel historische gegevens op te slaan. Hierdoor kun je trends over een langere periode bekijken en patronen herkennen.

Hoe komt mijn data in een datawarehouse terecht?

Een datawarehouse wordt gevuld via datapipelines. Dit zijn algoritmes die werken volgens het ETL-proces: Extract, Transform, Load.

Met Extract wordt bedoeld het koppelen met je software en bronnen om hier data uit op te halen. De fase Transform zet deze gegevens om naar de juiste structuur en schoont de data op. Tijdens de Load fase wordt de data ingeladen in het datawarehouse.

Deze datapipelines kunnen dagelijks, elk uur of zelfs elke minuut data ophalen.

Het structureren van data naar Star Schema’s

We noemden meerdere redenen wat de meerwaarde van een datawarehouse is. Een belangrijke reden daarvan was het snel en eenvoudig kunnen ophalen van veel informatie. Ook het aan elkaar koppelen van data uit verschillende bronnen is een belangrijke reden om voor een datawarehouse te kiezen.

De manier waarop data wordt opgeslagen, is hierbij cruciaal. Hierin verschilt een datawarehouse van een gewone database.

Traditionele databases

In een traditionele database wordt data vaak genormaliseerd. Normalisatie is een proces waarbij data wordt opgesplitst in veel verschillende tabellen. Dit heeft een aantal voordelen.

Ten eerste wordt hiermee redundantie van data voorkomen, want elk ‘stukje’ data staat maar op een enkele plek opgeslagen. Daardoor wordt ook de betrouwbaarheid van data vergroot, omdat het hierdoor niet kan voorkomen dat dezelfde data op de ene plek aangepast wordt en op de andere plek niet. Het toevoegen en updaten van data is hierdoor ook snel en efficiënt.

Genormaliseerde databases zijn niet geschikt voor data analyses

Deze genormaliseerde structuur is echter niet geschikt voor data analyse.

Om tot waardevolle data analyses te komen wil je veel data bij elkaar rapen om te analyseren. Stel je wil een analyse doen van jouw klanten. Bijvoorbeeld waar ze vandaan komen, hoe oud ze zijn en wanneer ze klant geworden zijn. In een genormaliseerde database is deze data verspreid over vele tabellen, zoals voor het adres, gebruikersaccount, profiel.

Voor je data-analyse moeten deze tabellen allemaal aan elkaar gekoppeld worden. Wanneer je over veel data beschikt is dit een zware operatie voor een database. Daarnaast is het voor een eindgebruiker, bijvoorbeeld jij, veel werk en lastig om al deze tabellen aan elkaar te knopen. Dit maakt een genormaliseerde database niet geschikt voor data analyse. Maar hoe moet het dan wel?

Star Schema’s

Een datawarehouse pakt het anders aan. In plaats van data over veel verschillende tabellen te verspreiden wordt voor veel datawarehouses het principe van Star Schema’s toegepast.

In het midden van een Star Schema staat een bedrijfsproces centraal, bijvoorbeeld je facturen. Tabellen met bedrijfsprocessen erin noemen we fact tables. Daarin worden de feiten vastgelegd.

Een voorbeeldrij van een fact table met facturen kan er als volgt uitzien:

Datum	Relatie	Type Factuur	Status	Bedrag
20231031	1421	154	Open	125

In dit vereenvoudigde voorbeeld wordt al snel duidelijk dat een fact table op zichzelf staand weinig informatie geeft. De schuingedrukte kolommen geven aan dat het een verwijzing is naar een ander tabel, een dimensie. Deze dimensies zijn de uiteinden van het Star Schema en geven context aan het bedrijfsproces.

De dimensie Relatie vertelt bijvoorbeeld of de relatie bij deze factuur een klant of leverancier is en waar deze relatie zich bevindt. De dimensie Datum bevat kolommen en informatie over op welke dag de factuur verstuurd is en of dit bijvoorbeeld een feestdag is.

Star Schema’s zorgen ervoor dat in een Business Intelligence tool data uit verschillende processen middels dimensies gekoppeld kunnen worden. In bovenstaande analyse kun je bijvoorbeeld eenvoudig achterhalen welke relaties hun facturen op tijd betalen, door via de dimensies Relatie en Datum naar het proces betalingen te gaan.

Dat deze structuur ervoor zorgt dat een datawarehouse is ingericht volgens bedrijfsprocessen heeft nog een belangrijk voordeel. Hierdoor is de data begrijpelijk voor collega’s én ben je voorbereid op de toekomst. Immers, de processen zoals factureren en betalingen vanuit je huidige administratiesoftware passen in het datawarehouse, maar ook je eventuele toekomstige administratiepakket. Daardoor heb je in je datawarehouse data vanuit je oude én nieuwe tools.

Conclusie

Als je geen voorkennis hebt over datawarehouses en Star Schema’s, dan was bovenstaande informatie waarschijnlijk overweldigend voor je. Belangrijk om te onthouden is dat een datawarehouse de basis is voor verdere stappen met datagedreven werken, bijvoorbeeld het bouwen van real-time rapportages. De structuur van een datawarehouse maakt dit namelijk erg eenvoudig en efficiënt. Daarnaast heb je hiermee een betrouwbare bron aan data.

Het opzetten van een datawarehouse is niet eenvoudig. Naast kritisch je eigen bedrijfsprocessen kunnen doorlichten en dit vervolgens omzetten naar een efficiënte indeling, heb je ook infrastructuur nodig voor de datapipelines en het datawarehouse. Ben je geïnteresseerd in de mogelijkheden van een datawarehouse en in een demo? Neem dan contact op. We vertellen je er graag over.