Exploration de données

Un article de Freepedia.

L’exploration de données, aussi connue sous les noms fouille de données et data mining (forage de données), a pour objet l’extraction du savoir implicite à de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.

Ces données peuvent être stockées dans un entrepôt de données (datawarehouse), mais peuvent aussi être récupérées de sources riches comme internet. Lorsque la source n’est pas directement un entrepôt de données, une première phase consiste à rapatrier les données brutes et à les stocker localement sous forme d’une base de données. On structure alors habituellement les données de l’entrepôt sous forme d’un hypercube OLAP. Des algorithmes dits d’intelligence artificielle (il s’agit en fait de détecteurs de corrélations et de classifieurs automatiques) sont ensuite utilisés pour trouver des schémas « intéressants » selon des critères fixés au départ. Voir par exemple l'article sur les algorithmes génétiques.

Sommaire

Principales applications

On peut relever parmi les utilisations du datamining :

  • l'analyse comportementale des consommateurs : ventes croisées (voir l'anecdote de Wal-Mart ci-après), similarités de comportements, cartes de fidélité, ...
  • la prédiction de réponse à un mailing ou à une opération de marketing direct (pour en optimiser les coûts)
  • la prédiction de l'attrition (ou churn) des clients : quels sont les indices de comportements permettant de détecter la probabilité qu'un client a de quitter son fournisseur (sa banque, son opérateur de téléphonie mobile, ...),
  • la détection de comportements anormaux ou frauduleux (transactions financières, escroquerie aux assurances, distribution d'énergie, ...)
  • la recherche des critères qui permettront d'établir ensuite un scoring pour repérer les bons clients sans facteur de risque et leur proposer une tarification adaptée (par exemple pour une banque ou une compagnie d'assurance).

Les outils de text mining associent en complément aux principes du data mining, l'analyse lexicographique des données non structurées comme les e-mails, les réponses à des questionnaires ou à des enquêtes, les réclamations, ... en tentant de déterminer par exemple le degré de satisfaction (ou d'insatisfaction) de la clientèle.

Un succès souvent cité

Le data mining a une approche très différente de la méthode statistique : cette dernière exige en effet qu'on se fixe une hypothèse, que les données vont confirmer ou non. Rien de tel avec la data mining, qui au contraire fait émerger à partir des données brutes des hypothèses que souvent l'expérimentateur ne soupçonne même pas.

Un exemple souvent cité est le suivant : si on baisse le prix du Coca-Cola de 5%, on va par exemple en augmenter les ventes de 15%, ce que l'on savait sans data mining. Mais le data mining révèle l'élement inattendu (bien qu'évident a posteriori) que les ventes des cacachuètes vont augmenter d'une proportion voisine (sans doute suite à l'association d'idées : "Puisque j'achète du Coca, il me faut aussi des cacahuètes"; le data mining ne fait pas d'hypothèse sur le sujet). Si la marge sur le Coca-Cola est relativement faible, et celle sur les cacachuètes importantes, la conclusion s'en tire d'elle-même : baisser le prix du Coca-Cola est un moyen de vendre des cacahuètes. Par le côté quasi-déterministe qu'elle présente du comportement du consommateur, cette approche provoque quelques réticences. Mais elle fonctionne. Ou, au moins, elle se vend.

Une variante est de baisser le prix des blinis pour augmenter les ventes de tarama.

Anecdote

Les premiers essais de fouilles de données se firent historiquement sur des dépouillements de millions de tickets de caisse de supermarché tels que mémorisés par les caisses enregistreuses. </br> À l’origine de la vulgarisation des méthodes et des algorithmes de la fouille de données (en l’occurrence, l’analyse des associations), il y aurait eu la mise en évidence par les magasins Wal-Mart d’une corrélation très forte entre l’achat de couches pour bébés et de bière le samedi après-midi. Les analystes s'aperçurent alors qu'il s'agissait des messieurs envoyés au magasin par leurs dames pour acheter les volumineux paquets de couches pour bébé. Les rayons furent donc réorganisés pour présenter côte à côte les couches et les packs de bière ... dont les ventes grimpèrent en flèche ! Cette image plus ou moins véridique illustre le retour sur investissement (ROI) des travaux de datamining et plus généralement d'informatique décisionnelle.</br> D’autres analyses, en particulier d’indices précurseurs de modification des habitudes d’achat, se montrèrent d’un plus grand intérêt dans la pratique.

Voir aussi

Autres articles

Liens externes

  • site de la société française Soft Computing (avec un livre blanc sur le datamining) qui propose notamment du "traitement à façon" (avec ses propres statisticiens) à partir des données fournies par ses clients


Views
Outils personels
Boîte à outils
Autres langues
Autres Liens