Le mythe du sampling vertueux en Web analytics [2/2]

Nous venons de voir que le sampling est profitable au fournisseur, mais qu’en retire le client ? Les opérateurs nous assènent qu’il gagne en performance et en rapidité, or nous avons vu ce qu’il en est. Mais que nous disent-ils de l’impact sur la pertinence des résultats ? Justement, ils ne nous disent rien, et c’est bien là que le bât blesse.

Là encore, le langage est trouble et entretient la confusion. Certains opérateurs justifient le sampling en invoquant son utilisation fréquente en sciences statistiques. Cet argument est fallacieux car l’amalgame n’a aucun sens, il est même extrêmement nocif.

Le sampling : comment, et avec quelles conséquences ?

Personne n’ignore qu’en statistique,  quand on étudie une population sur des données comportementales, un échantillon doit être représentatif. Mieux encore, les résultats obtenus par les statisticiens ou sondeurs à partir d’échantillons représentatifs subissent in fine des corrections à partir de règles  d’inférence (pondérations et techniques de ré-échantillonnage pour abaisser la marge d’erreur).

Enfin, la technique d’échantillonnage diffèrera selon le type de statistique. On ne peut raisonner sur un tirage de boules blanches ou noires (ici la loi des grands nombres s’avèrera pertinente, et le 10ème résultat sera rigoureusement comparable au 143 257ème), comme on le  fait sur des données comportementales (qui sont soumises à des sollicitations différentes dans le temps et dans l’espace).

Au-delà de ceci, qu’advient-il des données cumulées ? L’échantillon est différent chaque jour et on affiche des résultats cumulés sur le mois, le trimestre, l’année ? Si quelqu’un peut m’expliquer la pertinence, je suis preneur…

Prenons un exemple :

Mon site génère en moyenne 50 millions de hits par mois et 50 000 visites par jour. Le sampling me limite (par exemple) à 10 millions de hits par mois et 25 000 visites par jour.Deux méthodes sont possibles :#1 – Soit on ne collecte plus à partir du moment où le « quota » est atteint.Exemples illustrant la distorsion des résultats :

  • La prod publie les mises à jour le Mercredi et le Vendredi  à 17h00 (dont des offres flash).
  • Mercredi mon « quota » est atteint  à 18h00, les mises à jour sont en partie prises en comptes.
  • Vendredi, mon « quota » est atteint à 16h00, les mises à jour ne sont pas prises en compte (alors que les visiteurs de 17h00 auront un comportement différent des visiteurs de 16h00).
  • De plus, ma Newsletter de super-soldes est diffusée Mardi matin : qui peut sérieusement me dire que l’échantillon de mardi (atteint à 11h00) est comparable et cumulable à celui de Mercredi ou de Vendredi ? Qu’on va ensuite pouvoir tirer des conclusions sur le cumul de ces trois populations totalement différentes soumises à des sollicitations et incitations totalement différentes, et  qui représentent chacune une part différente de l’audience du jour de référence ?
  • De la même manière, on fera une étude sur le cumul Novembre (10 millions de hits retenus sur un total de 20 millions) et Décembre (10 millions de hits retenus sur un total de 100 millions). Quelle belle représentativité de ces 20 millions de hits, et que dire de la moyenne !!

#2 – Soit on déclare un pourcentage à prendre en compte.

Exemples illustrant la distorsion des résultats :

  • Mon historique affiche 14 millions de hits et 360 000 visites.
  • Pour respecter mon quota, je vais demander de n’en collecter que 70%.
  • Si j’ai des variations saisonnières, par exemple un mois de décembre double d’un mois normal : alors 70% de décembre sera largement au-delà du quota, la collecte sera stoppée après 35% seulement des volumes réels.
  • Si à l’inverse, février est un mois faible (la moitié d’un mois normal, il est inutile d’échantillonner puisque le réel est inférieur au quota.
  • Le taux est-il modulable ?
  • Qui, dans ce cas décide d’appliquer ou pas un sampling, sur quelles bases, à quel taux, etc. ?
  • Comment déterminer ce taux sans connaissance préalable des volumétries de la période ?

 Le  sampling et le métier d’analyste

Nous connaissons tous, et cela a été largement argumenté, l’intérêt pour l’analyste de traiter le « Big Data » : c’est bien d’extirper de cette masse les « pépites », le « Small Data » qui révèlera les insights et permettra de bien distribuer les actions sur les bons leviers.

Le principal outil de détection de ces insight est la segmentation, souvent assortie d’une granularité faible (comme en photographie, plus la granularité est faible, plus la résolution (et donc la netteté) est élevée).

Or il est évident que le sampling, compte tenu des limites et de l’imprécision qu’il contient rend impossible (ou en tout cas aléatoire voire dangereuse) l’utilisation de la segmentation, d’autant que plus le segment est fin, plus l’imprécision de départ sera démultipliée.

Il est ici utile de rappeler que tous ceux qui ambitionnent d’exploiter la puissance du  « retargeting » doivent impérativement  s’appuyer sur des données exhaustives donc surtout pas échantillonnées.

En cela, le sampling est pour l’analyste soit une camisole, soit un piège.

Le fait rassurant dans tout cela est que tout analyste digne de ce nom possède un esprit critique très affuté qui le met en capacité de trier le vrai du faux, de combler les omissions volontaires, de remettre les arguments dans le bon ordre, pour déceler quand on veut lui faire prendre des vessies pour des lanternes… Ou le sampling pour un point fort.

Vos commentaires sont les bienvenus !


Retrouvez la première partie de cet article : Le mythe du sampling vertueux en Web analytics [1/2].


 
 


Ces articles pourraient aussi vous intéresser :

2 Commentaires

  1. Les tendances du sampling en Web analytics
    14 novembre 2012 at 17 h 48 min

    [...] [...]

Envoyer un commentaire

Loading Facebook Comments ...