Article-Sampling-1

Dans le domaine du web analytics, le sampling (échantillonnage) nous est souvent présenté comme une amélioration utile et même nécessaire. L’argument généralement avancé est le gain en termes de vitesse de traitement des données. Ce concept me tiraille  entre consternation et admiration. Consternation, car on fait l’apologie de la moindre qualité, et admiration car on arrive à faire passer un aveu de faiblesse pour une force

L’esprit critique qui caractérise tout analyste est forcément mis en éveil en réaction à la suspecte démesure  des informations  (désinformation ?) sur les bienfaits du sampling : voudrait-on nous faire prendre des vessies pour des lanternes ? Si oui, qui, et pour quelles raisons ? Cela méritait bien une petite enquête,  en voici les conclusions :

  • L’« alibi » : la version qui est massivement « poussée » (les vertus du sampling)
  • Le « mode opératoire » : la réalité du sampling (le « cache-misère »)
  • Le « mobile » : qui a recours au sampling (à qui profite la manipulation) et pourquoi

Le mythe du sampling vertueux

Si l’on en croit les nombreuses publications relatives au sampling, celui-ci serait un bienfait pour l’analyste :

L’échantillonnage permet d’améliorer la vitesse de traitement de l’information en réduisant la masse des données à traiter.

Cette assertion prise isolément n’est pas discutable.

 L’échantillonnage ne pénalise en rien la pertinence des rapports.

Cet argument n’est Jamais explicité (et pour cause…) mais toujours induit.

 Il est donc profitable à l’utilisateur final.

Si les deux précédentes affirmations étaient vraies, cette conclusion s’imposerait.

Mais il y a plus préoccupant : en poursuivant le raisonnement, une conclusion émerge insidieusement :

Les prestataires qui recourent au sampling sont performants, les autres n’ont pas optimisé leurs performances.

Si on valide ce qui précède on aboutit naturellement à cette « évidence ».

Les vices cachés du sampling

La technique dite du « cache-misère » est bien connue : il suffit de cacher les défauts (la poussière sous le tapis).

A bien y regarder, l’augmentation de performance liée au sampling est en réalité l’augmentation d’une performance préalablement dégradée, et ne fait que la  ramener au niveau en deçà duquel elle n’aurait jamais dû descendre.

Il s’agit bien d’un palliatif afin de corriger une faiblesse manifeste, puisque ceux qui n’y ont pas recours affichent des performances au moins aussi bonnes, et souvent nettement supérieures.

Or, parmi les opérateurs qui utilisent le sampling on compte les leaders mondiaux. Compte tenu de leurs moyens techniques considérables  et de leur puissance phénoménale de calcul, la tentation est grande (et c’est d’ailleurs ce vers quoi on nous pousse) d’en conclure que si les plus grosses capacités de production ont du mal, les capacités moindres doivent être en plus mauvaise situation.  Nous allons vérifier, exemple à l’appui, qu’il n’en est rien.

Le sampling : pour qui,  pourquoi ?

Je n’ai de cesse de répéter que l’analyse (quel  que soit le domaine) ne peut être dissociée du contexte. Pour passer ce postulat au banc de la problématique posée,  je propose de revenir sur une notion bien connue des logisticiens et de tout gestionnaire d’unité de production : le rendement d’échelle.
Le principe en est simple : l’augmentation de  la  production se confronte à des seuils de capacité de production qui affectent le ROI.

Appuyons-nous sur  l’exemple récent de Nissan, qui réduit la production d’une de ses lignes d’Oppama, au Japon de 1,35 à 1,15 million de véhicules au profit de son usine en Thaïlande.

Une usine dont la capacité de production est de 1,5 million et qui produit 1 million peut satisfaire  + 50% de demande à moindre coût, sans investissement lourd d’infrastructure.Si par contre elle produit déjà 1,49 million, une simple augmentation de 1% de la demande  va l’obliger à construire une nouvelle usine, ce qui va augmenter très fortement le coût unitaire de production.

  • En surcapacité, on peut augmenter considérablement la production pour un coût très faible à ROI élevé = rendements croissants.
  • En sous-capacité, la moindre augmentation de production coûtera très cher à ROI très faible à négatif = rendements décroissants.

Quand on atteint ce seuil critique, on peut soit investir à perte, soit dissuader la demande,  soit réduire les coûts de production, soit combiner ces deux dernières actions.

Certains opérateurs web analytics sont confrontés à cette problématique. La simple augmentation naturelle du trafic sur leur parc « client » (et/ou gratuits) existant implique d’investir (lourdement),  juste pour y faire face. D’autres au contraire anticipent progressivement  la croissance de leur capacité de production pour être toujours en surcapacité raisonnable. L’adaptabilité des capacités de production de chaque opérateur  (et donc de la qualité et la vitesse potentielles du service rendu) n’est pas liée à la taille, mais au ratio puissance de traitement/volume à traiter. Ceci n’est  que simple bon sens.

Nous venons d’établir que le sampling est utilisé par certains opérateurs pour tenter de rester au niveau de performance de leurs concurrents  qui ne sont pas en sous-capacité de production et n’ont donc aucun besoin de sampling pour obtenir un niveau de performance et de rapidité tout à fait satisfaisant. Pour être exhaustif, il convient de mentionner qu’un opérateur non confronté à ce problème de seuil pourrait aussi être tenté de recourir à l’échantillonnage pour simplement baisser ses coûts, améliorer sa performance et éventuellement baisser le prix de sa prestation.

Nous verrons dans la partie suivante que si cela peut satisfaire l’utilisateur qui a des besoins relativement basiques, cela sera beaucoup plus problématique dans le cas d’utilisateurs avancés aux besoins plus fins. L’étape suivante nous invite à étudier les conséquences d’un tel échantillonnage : est-il vraiment aussi neutre qu’on le prétend ? Ne nuit-il pas à la fiabilité et à la pertinence des résultats ?

N’hésitez pas à réagir et à partager vos points de vues dans les commentaires !


Lire la suite de cet article : Le mythe du sampling vertueux en Web analytics [2/2].

Author

Knowledge Manager Formé aux achats et à la gestion par Carrefour, à la vente par Procter & Gamble, JM a évolué dans la grande distribution à des postes de direction pour de grands groupes en hypermarché, centrale d’achats puis logistique, avec une expérience expatriée en Afrique en qualité de Directeur Central. Fin 1995, JM crée une start up internet puis après trois ans (fin 1998) rejoint l’équipe AT Internet d’Alain Llorens dans laquelle il prend des responsabilités commerciales et est au cœur de l’aventure pionnière du Web analytics. A près de 55 ans et 13 ans d’ancienneté, JM exerce (depuis 2009) la fonction de Knowledge Manager."