Tous les secteurs et tailles d’entreprises sont potentiellement concernés par le manque de fiabilité de leurs données. Les petites et moyennes organisations n’ont généralement pas le temps ou les ressources nécessaires pour évaluer la qualité et/ou résoudre les problèmes de fiabilité.

Les grandes sociétés ont tendance à générer beaucoup de campagnes et de nouvelles pages web. Elles ne peuvent pas suivre le rythme de publication tout en respectant les standards de qualité des données.

La mauvaise qualité des données analytics peut prendre différentes formes, avec des conséquences parfois graves pour votre activité :

  • perte de revenus,
  • diminution du ROI des actions marketing,
  • perte de qualité dans les prises de décisions,
  • contamination des autres projets data (CRM, Data Lake, CDP, etc.),
  • baisse de la confiance et de la crédibilité en interne.

Le risque intrinsèque en web analytics

Sans action préventive, la qualité de la donnée est altérée par nature. Les sources d’erreur sont diverses et inhérentes à certaines technologies web : données non mesurées, trafic robot, inexactitudes provoqués par les navigateurs, blocages de trafic, etc.

Nous avons identifié, chiffré et représenté ici les principaux facteurs de risques qui menacent la qualité de vos données analytics.

Bad data : facteurs de risques

La phase critique de la collecte 

Arrêtons-nous un instant sur la phase de la collecte des données. C’est un moment critique car elle est permanente. Chaque optimisation, fonctionnalité, nouvelle campagne ou nouveau contenu fait peser un risque sur la qualité de la collecte de données. Une stratégie de collecte efficace doit être alignée sur les objectifs de l’entreprise, et s’adapter à chaque évolution, en permanence. Cette réflexion sur la collecte doit naturellement entrer en considération lors de la définition d’une politique de gouvernance des données.

Plus vous mettez à jour et enrichissez vos sites et applications mobiles, plus vous courez le risque d’altérer par mégarde vos tags analytics. Cela semble être une erreur de débutant, mais il est très courant de se retrouver avec des tags manquants, défectueux ou en doublons, notamment sur les sites à fort volume de trafic. Si ces problèmes de marquages, parfois minimes, peuvent être difficiles à détecter, ils n’en ont pas moins une incidence considérable sur les performances. Une vigilance absolue s’impose donc concernant l’intégrité des tags ! Vérifier le code source de toutes les pages est donc essentiel, mais qui a le temps d’effectuer cette tâche manuelle fastidieuse ? Des outils de crawling permettent de parcourir automatiquement le site, toutes pages et toutes sections confondues, pour vérifier la présence des marqueurs digital analytics. D’autres vous permettent de vérifier vos tags en live une fois implémentés sur un site. Ils peuvent également délivrer un rapport signalant les problèmes à résoudre.

Le trafic robot

Selon certaines estimations, les robots (ou « bots ») représentent plus de la moitié du trafic web. Pour connaître avec exactitude le volume réel des flux, il est essentiel de se donner les moyens d’identifier et d’exclure la part générée par les robots qui parcourent vos sites. Cependant, certains « bad bots » peuvent se révéler très difficiles à repérer ; d’où l’importance de travailler avec un éditeur digital analytics qui a accumulé l’expérience et les moyens nécessaires pour reconnaître et éliminer ce trafic. La capacité à écarter les flux occasionnés par des robots a des conséquences directes sur la qualité des données.

Outre l’aspect qualitatif, le tri manuel de ce trafic pollué est titanesque, voire impossible pour celui qui analyse les données. Dans un premier temps, votre fournisseur Web Analytics doit pouvoir identifier ces robots à l’aide de la liste d’exclusion officielle publiée et actualisée régulièrement par l’IAB. Il doit ensuite vous offrir la possibilité de regénérer vos données, sur la période voulue, en excluant ce trafic robot.

Les biais d’attribution des sources

Certains événements, comme la surestimation par Facebook du temps de visionnage des vidéos et la suspension temporaire de deux indicateurs Google par le Media Rating Council pour « non-respect » des directives relatives aux mesures de données, ont donné aux entreprises des raisons de remettre en question l’exactitude et la validité des données qu’elles reçoivent.

À l’heure où la transparence semble faire défaut, on peut commencer à douter de l’exactitude (et de l’impartialité) du calcul des indicateurs dans ces systèmes à accès restreint. En voici un exemple avec une question toute simple : peut-on vraiment se fier aux chiffres fournis d’un outil analytics pour la source d’un « moteur de recherche », quand celui-ci est en même temps générateur des revenus de cet outil ? L’un des derniers exemples les plus frappant est celui du biais de mesure de l’attribution des sources par l’outil d’analyse de Google. En clair, la conversion est attribuée automatiquement à la source Google (moteur ou lien sponsorisé) si le visiteur a cliqué, ne serait-ce qu’une seule fois, sur un lien google au cours des 6 derniers mois. L’outil de mesure ignore ainsi totalement les sources de trafic direct (lien en favoris, saisie automatique dans un moteur par exemple) pour s’attribuer la conversion. Autrement dit, si la source n’est pas déterminée, Google se l’approprie. Résultat : des conversions qui s’additionnent et des chiffres gonflés dans les compteurs des canaux publicitaires comme Google Ads. Près 20% des conversions seraient surestimées en raison d’un mauvaise attribution des sources.

Heureusement, il est possible d’agir (facilement) pour réduire les risques avec des outils et procédures adaptées. Le plus difficile est finalement d’avoir conscience des sources d’erreurs potentielle. Mais pour vous, c’est maintenant chose faite.

AT Internet propose une large palette d’outils de contrôle qualité des données analytics. Moins d’erreurs sont ainsi susceptibles d’altérer vos données et d’influer sur vos décisions. Si le sujet de la qualité des données vous intéresse, téléchargez notre dernier guide :

La qualité des données digital analytics, version 2019

Crédits : Photo by Matt Artz on Unsplash

Author

Responsable éditorial. Bernard est en charge de la stratégie de contenus pour AT Internet. Il possède une expérience de 10 ans dans le domaine du Content Marketing. Ses sujets de prédilection : le data marketing, les stratégies d'Inbound, la communication éditoriale web et les digital analytics.

Comments are closed.