Data mining : définition
Le data mining peut être traduit par exploration de données, fouille de données ou encore forage de données. Ce procédé consiste à extraire des relations, des modèles et des anomalies à partir d’un vaste ensemble de données. Il s’agit d’une composante clé de la Business Intelligence et de l’analyse du Big Data.
L’exploration de données consiste à analyser un large volume de données en vue d’identifier des modèles de comportement spécifiques (ou patterns). En prêtant attention à certains modèles de données, une organisation peut adapter ses pratiques pour mieux répondre à ses besoins.
Les entreprises appliquent les techniques de data mining pour obtenir des informations, prédire les tendances futures et améliorer l’expérience des utilisateurs, par exemple en analysant les parties d’un site web qui sont les plus utilisées par les internautes.
Pourquoi utiliser le data mining ?
Le but du data mining est de transformer un ensemble de données brutes (souvent issu d’un entrepôt de données, ou data warehouse) en informations exploitables par l’entreprise.
La manière dont ces informations sont utilisées dépend entièrement de l’organisation qui les a extraites. Elles peuvent être utilisées en interne pour améliorer l’efficacité du lieu de travail, ou être vendues à ceux qui en tireront le plus grand profit : détaillants, compagnies aériennes ou hommes politiques, par exemple.
Fonctionnement du data mining
Le data mining utilise des algorithmes complexes et des processus automatisés pour analyser d’énormes ensembles de données, afin d’identifier des corrélations ou des modèles significatifs et d’en tirer des informations pertinentes. Plus l’ensemble de données est volumineux, plus l’exploration de données s’avère utile. Si l’échantillon est suffisamment important, une entreprise peut l’utiliser pour tenter de réaliser des prédictions précises.
Le data mining emploie des techniques d’apprentissage automatique (machine learning) pour automatiser la plupart des processus. Ces méthodes basées sur l’intelligence artificielle permettent d’analyser un vaste ensemble de données et de le classifier en différentes catégories.
Bien qu’il existe différents modèles d’exploration de données, le processus reste similaire et comprend généralement les étapes suivantes :
- 1.Définition des objectifs: l’entreprise ou des analystes de données définissent des objectifs ainsi que les modèles qu’ils souhaitent identifier dans l’ensemble de données.
- 2.Identification des sources: ils sélectionnent ensuite des sources pertinentes à partir desquelles les données devront être extraites. Il peut s’agir de sources internes (bases de données de l’entreprise) ou externes (vidéos, publications sur les réseaux sociaux, données issues de l’Internet des Objets (IoT)...). L’entreprise peut également récolter ces données directement auprès des utilisateurs, par exemple à l’aide de questionnaires.
- 3.Extraction des données: l’organisation récolte des données non structurées et les stocke sur des serveurs physiques ou sur un cloud.
- 4.Identification de modèles: dans cette étape, les data scientists choisissent les bonnes techniques (décrites dans la section ci-dessous) pour identifier des modèles au sein de l’ensemble de données et répondre aux questions soulevées dans l’étape initiale.
- 5.Évaluation: après avoir créé et testé les modèles d’exploration de données, les analystes de données les évaluent en fonction de leur efficacité à répondre aux questions soulevées lors de la première étape. C’est à ce stade que l’intervention humaine est absolument nécessaire : la ou les personnes en charge du projet doivent décider si les questions ont trouvé une réponse satisfaisante, ou si le processus nécessite la récolte d’autres données ou l’élaboration d’autres modèles.
- 6.Déploiement: Si les résultats de l’exploration sont jugés satisfaisants, les analystes les présentent à l’utilisateur final, qui les met en œuvre. Les résultats du data mining sont présentés sous une forme facilement compréhensible, comme un rapport ou une présentation visuelle, afin qu’ils puissent être utilisés pour prendre de meilleures décisions commerciales et élaborer des stratégies.
Techniques de data mining
Le data mining peut être réalisé selon différentes méthodes, selon le résultat recherché et les caractéristiques à mettre en avant. Voici 5 techniques d’exploration de données parmi les plus courantes.
Classification
La classification consiste à organiser les données brutes au sein de catégories en fonction d’un attribut spécifique, défini en amont. Un simple exemple serait d’avoir une classification pour les personnes allergiques aux chats et une autre pour celles qui ne le sont pas. Ici, l’attribut recherché est donc prédéfini par l’organisateur.
Association
Avec la technique d’association, on détecte des modèles en associant deux variables entre elles. Cette méthode permet par exemple de mettre en évidence le lien entre l’achat d’un produit et celui d’un autre article associé. Elle est donc majoritairement utilisée par les sites de vente en ligne, étant à la base des algorithmes de recommandation de produits.
Regroupement (clustering)
La technique du clustering est très similaire à la classification. Elle consiste quant à elle à regrouper des blocs de données selon les éléments qu’ils ont en commun, et à créer des catégories basées sur ces similitudes. Le critère de classification n’est donc pas défini à l’avance, mais en fonction des similitudes remarquées au sein des données brutes.
Régression
La technique de régression permet d’identifier la probabilité d’une variable donnée, notamment pour prévoir l’évolution d’un prix ou des ventes en fonction d’autres facteurs. Elle consiste à déterminer quels sont les facteurs les plus importants au sein d’un ensemble de données, lesquels peuvent être ignorés, et comment ces variables interagissent les unes avec les autres.
Cette technique peut, par exemple, aider à prédire le nombre d’outils de déneigement achetés par les clients suite à la prévision d’une tempête de neige. La régression permet de déterminer la relation entre la quantité de neige, la sévérité de la température et les unités et types d’outils de déneigement que les clients sont le plus susceptibles d’acheter.
Analyse prédictive
La technique prédictive vise à analyser des données antérieures afin d’établir des prédictions sur les données futures. Par exemple, l’analyse des antécédents financiers d’un client via cette technique permettra de déterminer si ce même client présentera un risque de crédit à l’avenir. Cette méthode emploie des techniques d’apprentissage profond (deep learning) capables de prédire des modèles et des tendances.
Cas d’utilisation du data mining
Les techniques de data mining s’appliquent à un très grand nombre de domaines, allant de l’optimisation des stocks à la prédiction des tendances financières. Voici quelques exemples.
- Suggestion de produits: comme abordé plus haut, le data mining peut servir à peaufiner les algorithmes de recommandation en identifiant le lien entre l’achat de différents produits.
- Analyse d’images: le data mining permet également de repérer des motifs et d’établir des statistiques à partir d’images, par exemple pour analyser des enregistrements de matchs afin d’aider les joueurs à améliorer leurs stratégies.
- Recrutement: l’exploration de données peut être utilisée pour récolter les données en ligne de différents candidats afin d’identifier les profils les plus pertinents pour une entreprise ou un service.
- Planification des stocks: l’exploration de données aide les entreprises à suivre les dernières informations concernant les stocks de produits, les exigences de production, le transport, le stockage et le stock de leurs produits. Il peut également contribuer à rationaliser la chaîne d’approvisionnement et à éviter les problèmes potentiels.
Quels sont les risques liés au data mining ?
De nombreuses entreprises effectuent le profilage de leurs utilisateurs grâce aux techniques de data mining, ce qui peut poser des problèmes de confidentialité. Les risques dépendent notamment du degré de sensibilité des données collectées, des personnes qui peuvent y accéder et de l’usage qui en est fait.
De plus, même si la collecte de ces informations est effectuée avec un contrôle strict, personne n’est à l’abri d’une faille de sécurité. Si la grande quantité de données collectées par les entreprises fait l’objet d’une fuite, elle peut entraîner un risque d’usurpation d’identité ou d’autres conséquences graves, tant pour les particuliers que pour les entreprises.
Historique du data mining
L’histoire de l’exploration de données commence à la fin du XVIIIe siècle avec la découverte du théorème de Bayes (1763) et le développement de l’analyse de régression (1805). Mais les bases du data mining actuel ont été posées par de multiples découvertes au 20e siècle : la machine universelle de Turing (1936), le développement des bases de données (1970), la découverte des réseaux neuronaux (1943) et des algorithmes génétiques (1975), et la découverte de connaissances dans les bases de données (1989).
Avec l’expansion et le développement des technologies informatiques et du stockage des données dans les années 1990 et 2000, le data mining est devenu accessible, largement utilisé et utile pour les entreprises et les organismes publics. À mesure que l’informatique s’est développée, notamment avec l’apparition des outils de requête en langage naturel tels que SQL (Structured Query Language), l’exploration de données pouvait être réalisée plus facilement et de manière interactive.
Quelle est la différence entre le data mining et le machine learning ?
Le data mining est l’un des cas d’utilisation de l’apprentissage automatique ou machine learning. Tandis que le data mining désigne le processus d’extraction et d’analyse de données pour en tirer des informations utiles, l’apprentissage automatique est une technique basée sur l’intelligence artificielle qui permet à la machine d’imiter le raisonnement humain et d’apprendre de manière autonome.
Quelle est la différence entre l’exploration de données et la science des données ?
Le data mining, tout comme le machine learning, dépend de la science des données ou data science. Ce domaine pluridisciplinaire emploie de nombreuses technologies, à l’instar des mathématiques et des statistiques. L’exploration de données désigne l’un des nombreux cas d’utilisation de la science des données, basé sur l’analyse de vastes ensembles de données provenant de sources différentes.
Chiffrez vos données en ligne et préservez votre confidentialité.