Big data is de verzamelnaam voor de grote hoeveelheid aan geregistreerde digitale gegevens en de gelijke groei daarvan. Het is de bedoeling om deze stroom aan informatie om te zetten in waardevolle informatie voor het bedrijf. Toch is het niet altijd duidelijk wat de definitie is van big data is en wordt de term onterecht gebruikt. Wil jij weten wanneer je de term terecht kan gebruiken? Je leest het hier.
Big data
Bij big data zijn er drie factoren waar het echt om gaat. Dit zijn de hoeveelheid, snelheid en de diversiteit. Als je minimaal twee van deze factoren hebt voldaan dan kan je spreken van big data. Ook zijn er nog drie andere factoren namelijk de variatie, kwaliteit en complexiteit. In het Engels zijn dit ook wel de zes V’s. De zes V’s staan voor de volgende punten:
1. Volume (hoeveelheid)
Volume is het meest voor de hand liggende kenmerk van de big data en gaat vooral om de relatie tussen de omvang en de verwerkingscapaciteit. Dit verandert snel doordat het verzamelen van informatie alleen maar meer wordt. Ook gebeurt dit bij de ICT-capaciteit voor de opslag en verwerking.
Een voorbeeld hiervan is de Walmart in Amerika. Zij beschikken over erg veel data omdat het zo’n groot bedrijf is. Doordat de Walmart zo groot is en veel data beschikt bouwen ze aan de grootste privé-cloud ter wereld. Wallmart doet het om grote hoeveelheden data per uur te verwerken. Ze modelleren, manipuleren en visualiseren de gegevens met het programma ‘Data Café’ om een goed inzicht te krijgen over de klanten.
2. Variety (diversiteit)
De tweede V omschrijft de grote diversiteit aan gegevens die opgeslagen, verwerkt en geanalyseerd moeten worden. Nieuwe soorten gegevens van onder andere sociale netwerken en mobiele apparatuur komen nog bovenop de gestructureerde en al bestaande soorten informatie. Een paar voorbeelden zijn: beeldbestanden, webdocumenten, bonuskaarten en meer. De gegevens die het categoriseren en verwerken erg lastig maken zijn de spraak- en social media gegevens. Dit komt doordat het geen gestructureerde gegevens zijn.
3. Velocity (snelheid)
Velocity is een maatstaf voor de tijdelijke waarde van gegevens. De big data verandert snel en juist daarom moeten de gestructureerde en ongestructureerde gegevensstromen snel verwerkt worden. Dit is belangrijk als je wilt kunnen profiteren van de waargenomen hypes en trends, de locatiedata en de real time beschikbare markt- en klantinformatie. De velocity gaat over de voorwaarde dat je binnen enkele minuten of seconden de data moet verwerken zodat je kunt komen tot de resultaten waar je naar opzoek bent.
4. Value (complexiteit)
De value kenmerkt welke waarde je uit welke gegevens kunt halen en hoe je met de big data betere resultaten krijgt uit de gegevens die je al hebt opgeslagen. Een goede manier om waarde aan je big data te geven is door het werken met persona’s, deze kan je creëren op basis van de beschikbare data die je hebt over het klantgedrag. Persona’s geven een naam en gezicht aan de verschillende klantgroepen en zijn een erg krachtig middel om een organisatie klantgerichter mee te maken. Persona’s zijn bedacht doordat er behoefte was aan het gebruiksvriendelijker maken van de sites door middel van het profileren van vele bezoekers van websites
5. Veracity (kwaliteit)
Deze V toont de kwaliteit en de oorsprong van de gegevens, maakt het mogelijk ze aan te merken als twijfelachtig, conflicterend of niet-zuiver en het geeft informatie over zaken waarvan je niet zeker weet hoe je er nou mee om moet gaan. In zekere zin is het een hygiënefactor. Door de kwaliteit van je data aan te tonen laat je zien dat je kritisch gekeken hebt naar de informatie. Alle informatie die bij het kernproces hoort van een bedrijf is kloppende informatie, de rest is vervuilde info. Met de vervuiling moet je goed rekening houden. Je moet ervan overtuigd zijn dat de gegevens die je hebt geselecteerd voldoende zijn en goed werken. Het is eentonig, veel, maar erg noodzakelijk werk.
6. Variability (variatie)
Tot slot heb je nog de variatie. Hoever en hoe snel is de structuur van je data te veranderen? En hoe vaak verandert de vorm of de betekenis van je data? Neem bijvoorbeeld het abonnementenvoordeel: een internetabonnement kost bijvoorbeeld € 50,- en een papierenabonnement € 100,-. Ook zit er een combiabonnement bij namelijk een papieren- en internetabonnement samen ook voor € 100,-. Als je deze drie opties aan mensen voorlegt zullen de meeste mensen kiezen voor de derde optie, het combinatie abonnement. Dit lijkt namelijk het voordeligst. Als je nou het combiabonnement weg zou halen dan kiezen waarschijnlijk bijna alle mensen ineens voor het internetabonnement omdat dat dan de goedkoopste optie is.
Ook met het samenstellen van een vragenlijst of het veranderen van bijvoorbeeld uitschrijfknoppen moet je letten op de samenstelling en hoe iets op iemand overkomt. Als je puur technisch kijkt, houdt het in dat als je een variabelkenmerk verandert dat je model dan ook verandert.
Conclusie
De term big data wordt vaak onterecht gebruikt. Dit komt omdat de big data niet altijd duidelijk is. Bij de big data gaat het om zes verschillende factoren. Van de drie factoren waar je er minimaal twee van moet hebben om over big data te spreken zijn de hoeveelheid (volume), de snelheid (velocity) en de diversiteit (variety). De andere drie (belangrijke) factoren zijn de variatie (variability), de kwaliteit (veracity) en de complexiteit (value). Aan deze zes factoren kan je de big data herkennen. Kan jij je data al big data noemen?