Nous venons de voir que le sampling est profitable au fournisseur, mais qu’en retire le client ? Les opérateurs nous assènent qu’il gagne en performance et en rapidité, or nous avons vu ce qu’il en est. Mais que nous disent-ils de l’impact sur la pertinence des résultats ? Justement, ils ne nous disent rien, et c’est bien là que le bât blesse.
Là encore, le langage est trouble et entretient la confusion. Certains opérateurs justifient le sampling en invoquant son utilisation fréquente en sciences statistiques. Cet argument est fallacieux car l’amalgame n’a aucun sens, il est même extrêmement nocif.
Le sampling : comment, et avec quelles conséquences ?
Personne n’ignore qu’en statistique, quand on étudie une population sur des données comportementales, un échantillon doit être représentatif. Mieux encore, les résultats obtenus par les statisticiens ou sondeurs à partir d’échantillons représentatifs subissent in fine des corrections à partir de règles d’inférence (pondérations et techniques de ré-échantillonnage pour abaisser la marge d’erreur).
Enfin, la technique d’échantillonnage diffèrera selon le type de statistique. On ne peut raisonner sur un tirage de boules blanches ou noires (ici la loi des grands nombres s’avèrera pertinente, et le 10ème résultat sera rigoureusement comparable au 143 257ème), comme on le fait sur des données comportementales (qui sont soumises à des sollicitations différentes dans le temps et dans l’espace).
Au-delà de ceci, qu’advient-il des données cumulées ? L’échantillon est différent chaque jour et on affiche des résultats cumulés sur le mois, le trimestre, l’année ? Si quelqu’un peut m’expliquer la pertinence, je suis preneur…
Prenons un exemple :
Mon site génère en moyenne 50 millions de hits par mois et 50 000 visites par jour. Le sampling me limite (par exemple) à 10 millions de hits par mois et 25 000 visites par jour.Deux méthodes sont possibles :#1 – Soit on ne collecte plus à partir du moment où le « quota » est atteint.Exemples illustrant la distorsion des résultats :
#2 – Soit on déclare un pourcentage à prendre en compte. Exemples illustrant la distorsion des résultats :
|
Le sampling et le métier d’analyste
Nous connaissons tous, et cela a été largement argumenté, l’intérêt pour l’analyste de traiter le « Big Data » : c’est bien d’extirper de cette masse les « pépites », le « Small Data » qui révèlera les insights et permettra de bien distribuer les actions sur les bons leviers.
Le principal outil de détection de ces insight est la segmentation, souvent assortie d’une granularité faible (comme en photographie, plus la granularité est faible, plus la résolution (et donc la netteté) est élevée).
Or il est évident que le sampling, compte tenu des limites et de l’imprécision qu’il contient rend impossible (ou en tout cas aléatoire voire dangereuse) l’utilisation de la segmentation, d’autant que plus le segment est fin, plus l’imprécision de départ sera démultipliée.
Il est ici utile de rappeler que tous ceux qui ambitionnent d’exploiter la puissance du « retargeting » doivent impérativement s’appuyer sur des données exhaustives donc surtout pas échantillonnées.
En cela, le sampling est pour l’analyste soit une camisole, soit un piège.
Le fait rassurant dans tout cela est que tout analyste digne de ce nom possède un esprit critique très affuté qui le met en capacité de trier le vrai du faux, de combler les omissions volontaires, de remettre les arguments dans le bon ordre, pour déceler quand on veut lui faire prendre des vessies pour des lanternes… Ou le sampling pour un point fort.
Vos commentaires sont les bienvenus !
Retrouvez la première partie de cet article : Le mythe du sampling vertueux en Web analytics [1/2].
2 Comments
Pingback: Le mythe du sampling vertueux en Web analytics [1/2] | Blog AT Internet
Pingback: Les tendances du sampling en Web analytics