Datamining: definitie, technieken en toepassingen
Datamining is het proces waarbij ruwe data wordt omgezet in bruikbare informatie. Bedrijven gebruiken dataminingtechnieken om inzicht te krijgen in de gewoonten van hun klanten, hun marketingstrategieën te verbeteren en hun bedrijf te laten groeien. In dit artikel leggen we uit wat datamining precies is en hoe het gebruikt wordt.
Inhoud
- Wat is datamining?
- Hoe werkt datamining?
- Fases van datamining
- Datamining-technieken
- Wat zijn de risico’s van datamining?
- Voorbeelden van datamining
- Is datamining slecht?
- Geschiedenis van datamining
- Verschillen tussen datamining en machinaal leren
- Veelgebruikte toepassingen van datamining
- Beroepen die datamining gebruiken
- Toepassingen van datamining in bedrijven
- Voordelen van datamining
- Datamining en social media
Wat is datamining?
Datamining is het proces van het vinden en extraheren van patronen, correlaties en afwijkingen in grote sets van gegevens – simpel gezegd is het het omzetten van ruwe gegevens in bruikbare informatie.
Datamining is een proces waarbij een grote set gegevens wordt geanalyseerd om naar specifieke patronen te zoeken. Door aandacht te besteden aan bepaalde patronen in gegevens kan een bedrijf haar werkwijzen aanpassen om beter aan de behoeften van haar klanten te voldoen. Als er genoeg gegevens worden geanalyseerd, kan een bedrijf datamining gebruiken om nauwkeurige voorspellingen te doen.
Datamining maakt gebruik van computers en geautomatiseerde processen om enorme datasets te analyseren, patronen te identificeren en bruikbare informatie te vinden. Bedrijven passen het toe om inzichten te krijgen, toekomstige trends te voorspellen en de ervaring van hun gebruikers te verbeteren. Bijvoorbeeld door te analyseren welke delen van een website meer gebruikt worden dan andere. Of door het verzamelen en analyseren van gegevens van leerlingen zou een leraar bijvoorbeeld kunnen voorspellen welke leerlingen een groter risico lopen om achterop te raken en tijdig een strategie kunnen bedenken om ze te helpen.
Hoe werkt datamining?
Datamining maakt vaak gebruik van machinaal leren om veel van de processen te automatiseren. Machinaal leren en kunstmatige intelligentie helpen snel enorme hoeveelheden gegevens te verzamelen en deze in verschillende categorieën te organiseren.
Zodra een organisatie gegevens heeft verzameld en een trend heeft vastgesteld, kunnen ze aan de hand hiervan veranderingen doorvoeren. Hoe de informatie wordt gebruikt, hangt af van de organisatie die de informatie heeft verzameld. De informatie kan intern worden gebruikt om de werkplek efficiënter te maken of kan worden doorverkocht aan derden die baat hebben bij de informatie, zoals retailers, luchtvaartmaatschappijen of politici.
Het proces van datamining is hetzelfde, waar het ook voor wordt gebruikt. We kunnen het in een aantal stappen opsplitsen:
- Een organisatie verzamelt ongestructureerde gegevens en slaat deze op een fysieke server of in een cloud op. De organisatie kan de gegevens verzamelen door er direct om te vragen in de vorm van een vragenlijst, of indirect, door bijvoorbeeld gebruikersgegevens bij te houden.
- Analisten of managers bepalen naar welke patronen ze willen zoeken in deze grote hoeveelheid gegevens.
- Daarna worden de gegevens overhandigd aan technische professionals, zoals data-analisten, die ervoor zorgen dat de gegevens op de juiste manier worden verwerkt.
- Tot slot presenteren de data-analisten de georganiseerde gegevens in een gemakkelijk te begrijpen opmaak – meestal een grafiek of diagram.
Fases van datamining
Verschillende verwerkingsmodellen voor datamining hebben een verschillend aantal stappen, maar de processen komen in grote lijnen overeen. Het veelgebruikte standaardproces voor datamining (CRISP-DM) heeft bijvoorbeeld zes stappen:
- Het bedrijf begrijpen. Het bedrijf bepaalt eerst zijn doelen, doelstellingen en de problemen die het wil oplossen. Ook moet het bedrijf een duidelijk idee hebben van welke gegevens het nodig heeft om de problemen op te lossen, anders kunnen de resultaten onnauwkeurig zijn of niet de juiste vragen beantwoorden.
- De gegevens begrijpen. Het bedrijf moet alleen relevante gegevens verzamelen. De gegevens kunnen uit verschillende bronnen komen, zoals verkoopgegevens, consumentengegevens, documenten, enquêtes, vragenlijsten en geodata.
- De gegevens voorbereiden. Datawetenschappers halen de relevante gegevens uit verschillende bronnen en bereiden ze voor. Ze passen ‘data cleaning’ (het corrigeren of verwijderen van corrupte of onnauwkeurige records) toe en herstellen fouten en andere problemen. Daarna transformeren ze de gegevens om ze consistent te maken en laden ze ze in een database.
- De gegevens modelleren. In deze stap kiezen datawetenschappers de juiste technieken (beschreven in de onderstaande sectie) voor het beantwoorden van de vragen die in de eerste stap zijn gesteld.
- Het evalueren van de modellen. Na het creëren en testen van de dataminingmodellen, evalueren data-analisten deze in termen van hun efficiëntie in het beantwoorden van de vragen die zijn gesteld in de eerste stap (het bedrijf begrijpen). Dit is waar menselijke inbreng absoluut noodzakelijk is – de verantwoordelijke(n) van het project moet(en) beslissen of de vragen met succes zijn beantwoord of dat er andere gegevens nodig zijn of dat er andere modellen moeten worden ontworpen.
- Implementatie. Als de resultaten van datamining succesvol zijn, presenteren de analisten ze aan de eindgebruiker, die ze vervolgens kan toepassen. De resultaten van datamining worden geleverd in gemakkelijk te begrijpen vormen, zoals een rapport of een visuele presentatie, zodat ze kunnen worden gebruikt bij het nemen van belangrijke beslissingen en het bedenken van nieuwe strategieën.
Datamining-technieken
Je kunt gegevens op verschillende manieren en om verschillende redenen minen. Hier zijn zes van de meest voorkomende dataminingtechnieken die een dataminer gebruikt om gegevens te sorteren:
Classificatie
De organisator van de gegevens bepaalt de vooraf gedefinieerde categorieën en sorteert de ruwe gegevens hierin op basis van hun kenmerken. Een eenvoudig voorbeeld is een classificatie voor mensen die allergisch zijn voor pinda’s en een andere voor mensen die dat niet zijn. Dit voorbeeld toont twee vooraf bepaalde classificaties die worden gebruikt om een set gegevens te ordenen.
Clusteren
Clusteren lijkt op en is gemakkelijk te verwarren met classificatie. Bij clusteren worden groepen gedefinieerd op basis van hun overeenkomsten en vervolgens gesorteerd op basis van die overeenkomsten. Terwijl de classificatietechniek al heeft bepaald hoe de gegevens moeten worden ingedeeld, creëert clustering categorieën op basis van wat de gegevens gemeenschappelijk hebben.
Associatie
Retailers en mensen die een product aan hun gebruikers willen verkopen, gebruiken meestal de associatietechniek. Deze techniek identificeert gegevens op basis van de relatie tussen de aankoop van een item en welke andere items tegelijkertijd werden gekocht. Het is een handige techniek om de bestedingsgewoonten van een groep gebruikers te bepalen.
Regressie
Bij regressieanalyse gaat het erom te bepalen welke factoren binnen een dataset het belangrijkst zijn, welke kunnen worden genegeerd en hoe ze op elkaar inwerken. Deze techniek kan bijvoorbeeld helpen voorspellen hoeveel sneeuwruimgereedschap klanten zullen kopen nadat er een sneeuwstorm is voorspeld. Regressie helpt bij het bepalen van de relatie tussen de hoeveelheid sneeuw, het belang van de temperatuur en de eenheden en typen sneeuwruimgereedschap die klanten waarschijnlijk zullen kopen.
Sequentieel patroon
Bedrijven gebruiken sequentiële patronen om patronen of gedragskenmerken te vinden in gegevens over een specifieke tijdsperiode. Met andere woorden: ze classificeren de gegevens aan de hand van de ‘opeenvolging’ van gebeurtenissen die plaatsvonden in het specifieke tijdsvenster. Door de sequentiële patroonmethode te gebruiken, kan een winkel erachter komen welke producten vaak samen worden gekocht tijdens bepaalde perioden van het jaar.
Voorspellende analyse
Organisaties gebruiken meestal de voorspellende analyse, die ook gebruik maakt van regressiemodellen, om nieuwe bedrijfsacties te rechtvaardigen. Voorspellende datamining analyseert eerdere gegevens en vindt patronen die gebruikt kunnen worden om de toekomst van een markt te voorspellen.
Wat zijn de risico’s van datamining?
Veel bedrijven gebruiken datamining van social media als een effectief hulpmiddel. Sommige platforms verzamelen de gegevens van gebruikers (zoals zoekgeschiedenis, shares, likes, aantal volgers, etc.) en maken een profiel aan voor elke gebruiker. In dat profiel staan alle gegevens die zijn verzameld gedurende de tijd die de gebruiker op het platform heeft doorgebracht. Bedrijven gebruiken deze informatie voor het versturen van gerichte advertenties tijdens de online sessie van de gebruiker of verkopen ze door aan derden.
Zorginstellingen kunnen de grote hoeveelheden gegevens die ze verzamelen verwerken om betere diensten te verlenen. Ziekenhuizen maken soms gebruik van datamining in de gezondheidszorg om ziekten te voorspellen, risico’s te voorzien en diagnoses te verbeteren. Het is echter cruciaal om gegevens te beschermen, zodat ze niet in verkeerde handen terechtkomen.
Voorbeelden van datamining
Hoewel datamining een handig hulpmiddel is dat bedrijven veel voordeel op kan leveren, kan het ook ongepast worden gebruikt als een bedrijf gebruikersgegevens verzamelt zonder toestemming van de gebruikers of voor ongeoorloofde doeleinden.
Een voorbeeld van ‘slechte’ datamining is de Facebook en Cambridge Analytica-zaak uit 2015, die ernstige zorgen opriep over dataprivacy. Het Britse politieke adviesbureau verzamelde jarenlang erorme hoeveelheden gegevens van miljoenen Facebook-gebruikers. De gegevens werden vervolgens gebruikt om verkiezingsuitslagen te beïnvloeden.
Een voorbeeld van ‘goede’ datamining is de manier waarop eBay de gegevens op zijn platform gebruikt om relaties tussen producten te analyseren, prijsklassen en productcategorieën te bepalen en aankooppatronen te analyseren. eBay verzamelt gegevens over aanbiedingen, kopers, verkopers en producten, waarbij zowel actuele als historische gegevens worden gebruikt om de diensten van het platform te verbeteren.
Is datamining slecht?
Of datamining ‘slecht’ is, hangt af van hoe gevoelig de verzamelde gegevens zijn, wie er toegang toe heeft en voor welke doeleinden ze worden gebruikt. Maar zelfs als een bedrijf of individu voorzichtig en bedachtzaam is met het gebruik en verzamelen van dergelijke informatie, is geen enkele database 100% veilig voor datalekken. Als de grote hoeveelheid gegevens die bedrijven verzamelen uitlekt, kunnen zowel bedrijven als individuen hier onder te lijden hebben.
Je kunt zelf natuurlijk stappen nemen om je data te beschermen. Lees hier hoe je je Google-zoekgeschiedenis kunt verwijderen of hoe je jezelf van het internet kunt verwijderen.
Geschiedenis van datamining
De geschiedenis van datamining begint aan het einde van de 18e eeuw met de ontdekking van de stelling van Bayes (1763) en de ontwikkeling van regressieanalyse (1805). Maar de basis voor het huidige datamining werd gelegd door meerdere ontdekkingen in de 20e eeuw: de universele Turingmachine (1936) en de ontwikkeling van databases (1970), de ontdekking van neurale netwerken (1943) en genetische algoritmen (1975). Met de uitbreiding en ontwikkeling van computertechnologieën en gegevensopslag in de jaren 1990 en 2000 werd datamining toegankelijk en vanaf deze tijd werd het ook op grote schaal gebruikt.
Verschillen tussen datamining en machinaal leren
Zowel datamining als machinaal leren vallen onder de categorie datawetenschap. Het zijn beide analysetools die datawetenschappers gebruiken om patronen in big data op te sporen.
Datamining is het proces van het extraheren van voorheen onbekende ‘regels’ – patronen, relaties en afwijkingen – uit bestaande datasets met behulp van dataminingalgoritmen. Hierdoor kun je nieuwe inzichten ontdekken waarvan je je niet bewust was of waar je zelfs niet naar op zoek was. Hoewel er veel geautomatiseerde processen worden toegepast, vereist het nog steeds menselijke handelingen en besluitvorming.
Machinaal leren is de toepassing van kunstmatige intelligentie (AI). Het is het proces waarbij een computer wordt geleerd om de gegeven parameters te begrijpen en zoals een mens te leren. Nadat de machine geprogrammeerd is en de eerste leermethode heeft uitgevoerd op een ‘training’ gegevensset, gaat de machine zelf verder met leren, met minimale of geen menselijke tussenkomst. Machine learning is vooral nuttig bij het voorspellen van resultaten.
Veelgebruikte toepassingen van datamining
Retailers gebruiken datamining voor de volgende doeleinden:
Analyse van winkelmandjes
Retailers gebruiken datamining om te analyseren wat hun klanten kopen – ze analyseren hun winkelmandjes. Door de associatietechniek toe te passen, krijgen ze een duidelijker beeld van het koopgedrag van hun klanten en kunnen ze hen relevante aankopen aanbevelen.
Analyse van klantenloyaliteit
Loyaltyprogramma’s zijn een goudmijn voor veel retailers én een geweldige manier om gegevens over hun klanten te verzamelen, zoals hoe vaak ze winkelen, de typische inhoud van hun winkelmandje en hoeveel ze in één keer uitgeven. Door deze gegevens voor miningdoeleinden te gebruiken, kunnen bedrijven relaties met klanten ontwikkelen en verbeteren en relevante kortingen aanbieden.
Databasemarketing
Bedrijven bouwen databases met consumentengegevens om hun marketingstrategieën beter te kunnen sturen en hun klanten gepersonaliseerde communicatie te kunnen bieden. Met databasemarketing kunnen bedrijven meer gegevens verzamelen om het consumentengedrag te onderzoeken en meer klanten aan zich te binden.
Planning van inventaris
Datamining helpt bedrijven bij het bijhouden van de meest recente informatie over productvoorraden, productievereisten, transport, opslag en voorraden van hun producten.
Voorspellen van sales
Bedrijven voorspellen hun sales en stellen doelen door voorspellende modellen toe te passen op hun historische gegevens, zoals verkoopgegevens, financiële rapporten, productdocumentatie, consumentengewoonten en trends. De meeste bedrijven beschouwen voorspellende gegevens als een van hun belangrijkste analytische hulpmiddelen.
Beroepen die datamining gebruiken
De meeste banen waarin je te maken hebt met big data, databasebeheer, informatiesystemen en informatiebeveiliging maken gebruik van ten minste enkele dataminingmethoden. De topfuncties die gebruik maken van datamining zijn:
- Data-analist
- Datawetenschapper
- Databasebeheerder
- Informatiebeveiligingsanalist
- Computernetwerkanalist
- Marktonderzoeksanalist
Toepassingen van datamining in bedrijven
Bedrijven die actief zijn in verkoop, marketing, productie en andere sectoren kunnen gebruik maken van datamining zolang ze een grote hoeveelheid gegevens hebben om te analyseren en een reeks doelen die ze willen bereiken met behulp van de resultaten van datamining.
Verkoop
Je kunt verkoopgegevens registreren en analyseren om je productie strategisch aan te passen. Stel, je hebt een bakkerij. Telkens wanneer een klant een van je producten koopt, kun je het tijdstip van aankoop registreren, welke producten samen werden gekocht en welke het populairst zijn om je aanbod daarop af te stemmen.
Marketing
Je kunt je marketinggegevens analyseren om te begrijpen waar je klanten je advertenties tegenkomen, waar ze moeten worden geplaatst, op welke groepen klanten je je moet richten en welke marketingstrategieën het meest waarschijnlijk succesvol zullen zijn. Vervolgens kun je je marketingcampagnes, aanbiedingen en loyaliteitsprogramma’s afstemmen op de resultaten van de gegevensanalyse.
Productie
Als je een productiebedrijf hebt, kan datamining je helpen bij het analyseren van je grondstofbehoeften en -kosten, hun gebruiksefficiëntie, de tijd en kosten van het productieproces en de belemmeringen voor het proces. Datamining kan je helpen om een gestage en efficiënte goederenstroom te behouden.
Personeelszaken
Personeelsteams hebben te maken met grote hoeveelheden gegevens, waaronder gegevens over salarissen, promoties, retentie, secundaire arbeidsvoorwaarden en medewerkerstevredenheid. Ze kunnen al deze gegevens gebruiken en verwerken om een beter inzicht te krijgen in wat werknemers nodig hebben, waarom ze besluiten weg te gaan en wat potentiële nieuwe werknemers aantrekt.
Klantenservice
Bedrijven verzamelen en analyseren gegevens over klanttevredenheid met betrekking tot de kwaliteit van hun goederen en diensten, verzendtijden en communicatie met vertegenwoordigers van de klantenservice (wachttijden bij oproepen, responstijden per e-mail, kwaliteit van gesprekken) om zwakke en sterke punten te bepalen en uiteindelijk betere diensten voor hun klanten aan te bieden.
Fraudedetectie
De analyse van grote datasets kan bedrijven helpen om correlaties te identificeren die niet zouden moeten bestaan en die moeten worden onderzocht. Een bedrijf kan bijvoorbeeld de cashflow analyseren om frauduleuze transacties en andere tekenen van wanbeheer op te sporen.
Voordelen van datamining
Bedrijven profiteren van datamining door patronen, trends, correlaties en afwijkingen in datasets te ontdekken. Vervolgens gebruiken ze deze informatie om betere beslissingen te nemen en hun strategie te verbeteren. Specifieke voordelen zijn onder andere:
- Verbeterde marketing en verkoop. Datamining helpt bedrijven om inzicht te krijgen in het gedrag en de voorkeuren van klanten, wat het creëren van gerichte reclame- en marketingstrategieën makkelijker maakt. Ze kunnen de resultaten gebruiken om hun conversie te verhogen en extra producten aan hun klanten te verkopen.
- Betere klantenservice. De resultaten van datamining kunnen bedrijven helpen om problemen met de klantenservice te identificeren en deze op te lossen, wat een betere klantenservice mogelijk maakt.
- Beter beheer van de supply chain. Bedrijven kunnen markttrends en de vraag naar producten beter voorspellen om hun voorraadbeheer te verbeteren. Supply chain-teams kunnen miningresultaten gebruiken om logistieke activiteiten te optimaliseren, waaronder opslag, distributie en verzending.
- Beter risicobeheer. Risicomanagementteams kunnen juridische, financiële en beveiligingsrisico’s beter beoordelen en voorspellen en plannen bedenken om deze problemen aan te pakken.
- Lagere kosten. Datamining helpt om de productie, verkoop, logistiek en algemene bedrijfsactiviteiten efficiënter te maken, wat op zijn beurt kosten bespaart en onkosten vermindert.
In de context van social media bestaat datamining uit het extraheren en analyseren van grote hoeveelheden gegevens van socialmediaplatforms zoals Facebook, Twitter en Instagram, met als doel patronen en trends te ontdekken in het gedrag, de voorkeuren en de meningen van gebruikers.
Bedrijven gebruiken deze resultaten vervolgens om hun marketingstrategieën te verbeteren, de betrokkenheid van klanten te vergroten en inzicht te krijgen in de mening van consumenten over een bepaald onderwerp. De analyse van gebruikersgegevens door het delven van gegevens op socialmediaplatforms roept echter ethische bezwaren op met betrekking tot de privacy en veiligheid van gegevens.
Wil je meer lezen zoals dit?
Ontvang het laatste nieuws en tips van NordVPN.