1/ Quelle procédure, quelles conséquences ?

Le principe
La déclaration d’un identifiant et d’un mot de passe crée un accès protégé et entraîne une navigation en https sur le domaine concerné tant que l’internaute ne s’est pas déconnecté. C’est le cas pour tout type de services, en particulier les comptes de messagerie et de réseaux sociaux, et c’est bien entendu absolument nécessaire.

L’utilisation des réseaux sociaux, comme twitter ou facebook, est facilitée par le fait que l’internaute s’identifie en début de journée (par exemple) et reste connecté sans autre contrainte. En cela, il est logique et légitime que google+ procède de même.

Or, quand vous ouvrez une session protégée sur un compte Google (compte unique gmail et google+, par exemple), vous êtes sur le domaine google.com, ce qui signifie que si vous faites une recherche sur le moteur www.google.com, celle-ci sera effectuée en mode protégé, donc sur https://www.google.com , ce qui implique que les données seront encryptées.

Extraits de http://googleblog.blogspot.com/2011/10/making-search-more-secure.html
sur le blog officiel Google :

“you will find yourselves redirected to https://www.google.com (note the extra “s”) when you’re signed in to your Google Account. This change encrypts your search queries and Google’s results page.
…/…
You can also navigate to
https://www.google.com directly if you’re signed out or if you don’t have a Google Account.”

Quelles conséquences ?
La conséquence la plus évidente et la plus problématique  est bien sûr l’impossibilité de récupérer les expressions-clés tapées lors de ce type de requêtes (sur google.com tout en étant connecté à un compte google). Cela implique l’amputation plus ou moins importante des données exploitables pour une stratégie SEO.

La conséquence officielle est bien sûr la protection des données, ce qui n’est pas contestable en soi, même si de nombreuses voix se sont élevées, dans la communauté des spécialistes SEO et des web analystes notamment,  pour mettre en doute la cohérence de cette explication, surtout lorsque l’on considère que le référencement payant n’est pas impacté par cette règle.

Qui est impacté ?
A priori, je répondrai : tout le monde, mais avec des nuances très importantes.

En substance,  plus un site est impacté par des recherches via google.com, plus la part des  recherches encryptées sera importante, et plus la perte d’information sera importante.

Cela signifie qu’un site américain est très exposé (les récentes déclarations mentionnent plus de 30% de perte pour l’instant). Un site anglais l’est un peu moins, car il est souvent atteint via google.co.uk. (les chiffres annoncés mentionnent un impact légèrement supérieur à 10% pour l’instant)

Un site anglophone, quelle que soit sa localisation, sera  par nature plus touché qu’un site dans une autre langue (car plus aisément accessible via google.com).

Un site exclusivement francophone, ou hispanophone,  par exemple, ne sera que très peu touché (actuellement moins de 3%), alors que la version anglophone de ce même site le sera beaucoup plus (toujours la même raison : plus d’accès via google.com)

Pour vérifier cela, il suffit de se connecter à son compte google (par exemple gmail) puis d’ouvrir un onglet  sur google extension nationale .fr , .de, .co.uk ou autre (la recherche sera faite sur ce domaine) puis un onglet sur google.com (la recherche sera faite sur https://www.google.com).

2/ SEO : est-il possible d’en limiter les conséquences ?

Le principe
Données mises à disposition d’un spécialiste SEO par l’outil de web analytics:

–          Avant les requêtes https :

  • Liste exhaustive des expressions-clés utilisées dans les moteurs pour accéder au site
  • Liste exhaustive des pages d’entrées depuis ces requêtes
  • Toutes données qualitatives et comportementales sur ces deux types d’éléments

–          Après  les requêtes https :

  • Une ligne (not provided) pour les mots-clés provenant de requêtes encryptées
  • Une liste exhaustive  des expressions clés pour les requêtes non encryptées
  • Liste exhaustive des pages d’entrées depuis ces requêtes
  • Toutes données qualitatives et comportementales uniquement sur la liste

Quelles conséquences sur l’analyse SEO?
La perte de visibilité sur une partie importante des mots-clés pose  assurément  de sérieux problèmes à l’analyste, tant sur l’optimisation des contenus que sur l’analyse de la longue traine…

Si nous partons sur l’idée, que nous espérons tous révocable par google, que cette procédure est durable, nous devons nous efforcer d’y apporter des réponses, même partielles.  J’ai bien lu l’article d’Avinash Kaushik sur le sujet et me range complètement aux commentaires de Benoît Arson et Stéphane Hamel.

Je pense toutefois qu’il est possible, non pas de deviner les mots clés masqués mais de relever des tendances fortes qui seront exploitables en SEO. L’étude des landing pages  me semble offrir une piste de réflexion très intéressante en ce sens.

Prenons le cas suivant :

–          30% (not provided)

–          70% (mots-clés)

–          Principales landing pages : pageA (21,9%), pageB (21, 6%), pageC (15%)

Première vérification : Ces scores sont-ils cohérents (à périmètre et contenu constants) avec l’historique récent ? Si oui, pas de remise en cause. Si non, procéder comme suit :

Créons deux segments : (not provided) et (autres) puis appliquons les à l’analyse « landing pages »

–          Si nous obtenons pour chaque segment un résultat comparable  au global ci-dessus, pas de problème, notre stratégie SEO peut être poursuivie

–          Si nous obtenons des écarts significatifs, par exemple

  • Sur (not provided) : pageA (31%), pageB(16%), pageC (15%)
  • Sur (autres) : pageB(24%), pageA(18%), pageC (15%) (vous pouvez vérifier en appliquant les pourcentages de 30 et 70 à ces scores, vous obtenez bien la répartition citée au début de l’exemple)

Dans ce cas, nous avons décelé une segmentation comportementale entre les deux publics concernés. Pour  en apprendre plus sur cette distorsion et donc tenter d’y remédier, il nous faut voir quelles pages sont sous-représentées et surreprésentées dans chaque cas.

    

30%                                       70%                                               100%

 

La page A est surreprésentée dans les accès (not provided)
La page A est sous-représentée dans les accès (mots-clés)

Dernière étape, s’agissant de landing pages, on peut supposer qu’elles sont optimisées pour des mots clés connus, précis et dédiés, ce qui nous permet alors de travailler sur une optimisation SEO et une action marketing  ciblée.

Conclusion
Cette approche, si elle a le mérite d’être basée sur des constats et non des suppositions, n’est toutefois pas en mesure de régler tous les problèmes.  Il nous reste à espérer que Google répondra à la demande massive des acteurs du web afin de résoudre ce problème. . Je me permets donc ici de résumer l’opinion de beaucoup par ce tweet de Jacques Warren : « Assez vaseux tout ça. Serait plus facile de juste remettre les mots clés »

En savoir plus avec le baromètre des moteurs AT Internet :  ” Google : hausse de 16,5 points des requêtes indéterminées aux Etats-Unis”

 

 

[sc:social url=”https://blog.atinternet.com/fr/index.php/2011/11/28/tendances/google-not-provided-keywords-encryption-seo-hazard/1571″]

 

Author

Knowledge Manager After On-the-job and Off-the-job training in purchasing and management at Carrefour, and sales training at Procter & Gamble, JM evolved in the mass retail sector in top management positions for large hypermarket, central purchasing and logistics groups, with an expatriate experience in Africa as a Central Director. In late 1995, JM created an Internet start-up company and after three years (late 1998) he joined Alain Llorens and the AT Internet team where he took up his position in sales, and was also at the heart of the pioneering adventure in Web analytics. At 55 and after almost 13 years seniority in the company, JM has been Knowledge Manager since 2009.

9 Comments

  1. Jacques Warren

    Très mauvaise décision de Google, enfin pour nous les analystes. Je me demande bien si les quelques protestations ici et là vont changer quelque chose. J’ai trouvé que l’article d’Avinash Kaushik ressemblait plus à une opération de relation publique qu’à une vraie solution. À mon avis, la solution la plus simple est de ramener les mots clés!

    Pour ceux qui lisent l’anglais, j’ai aussi longuement commenté la question, mais surtout ajouté plusieurs liens vers certaines réactions et analyses démontrant que le phénomène de (not provided) est déjà beaucoup plus important que ce que Google annonçait. Voir http://bit.ly/vxWgrg

  2. Jacques Warren

    Bonjour Jean Marie

    Ah! J’ai des doutes. C’est dans ce genre de “petites” choses que l’on voit que Google peut faire ce qu’il veut et que sa dominance du Web commence à poindre de façon de plus en plus désagréable.

  3. Jean Marie Camiade

    Bonjour, Jacques

    En effet, cet article sur WAO/MARKETING du 04 Novembre pointait déjà du doigt ce problème. Quant à une éventuelle marche arrière de Google, on peut émettre quelques doutes, j’en suis tout à fait d’accord.

    Mais si au lieu d’un compte unique Gmail et Google+ on avait des comptes séparés, alors seuls les abonnés G+ génèreraient des (not provided). Comme on peut supposer que Gmail représente la très grande majorité des comptes Google, cela réduirait considérablement l’impact de cette procédure. Alors, peut-être pourrait-on rêver que Google adopte un tel compromis?

  4. Web analyste

    Décision surprenante que de Google au motif de protéger le vie privée du naunaute… alors que Google est un ogre de données.

    Si vous êtes contre, n’oubliez pas de signer la pétition sur keywordtransparency.com

  5. Bonjour,

    Est-ce que la perte de visibilité concerne seulement les mots-clés ou également la source?

    Selon le billet de Google que vous mentionnez: “websites you visit from our organic search listings will still know that you came from Google” )
    Est-ce que vous confirmez?

    Je pose la question car je pensais que l’usage du protocole HTTPS impliquait le blocage du transfert de toutes les informations sensibles – dont les mots-clés mais aussi le referer – dans les en-têtes.

  6. Jean Marie Camiade

    Bonjour, Mustapha
    La navigation en mode https ne masque pas la totalité des données. Le nom de domaine reste identifié, contrairement aux données de formulaire, ou aux variables (pour faire simple, disons les données après le “?” d’une url). On peut résumer en disant que le nom de domaine n’est pas en soi une donnée sensible.

  7. Jean Marie Camiade

    @web analyste
    Bonjour,
    Peut-être pas si surprenante, si on l’analyse sous l’angle du lancement de Google+ car la nécessité de “booster” les inscriptions est importante. Coupler l’inscription avec gmail en un compte unique est très étudiée, et très efficace au demeurant : dans l’interface de la messagerie gmail, un bouton “+Vous” est très persuasif. En un clic vous arrivez sur G+, vos coordonnées sont pré-renseignées et il vous suffit de sélectionner votre sexe et déclarer votre date de naissance pour valider, et rentrer dans le réseau…
    Difficile de faire mieux! Extrêmement efficace, coût quasi nul, soit un ROI comme aucun marketeur n’ose même en rêver!!
    Quant à la suite, G+ est un sous-domaine de google.com, et la protection (absolument impérative) du réseau social a des répercussions sur le domaine entier (voir article ci-dessus)… Mais on ne fait pas d’omelette sans casser les oeufs, dit-on…

  8. Pingback: Comment contourner le «not provided» sur la source Notoriété ?

  9. Christiane Lapeyre

    Bonjour,

    Aujourd’hui toutes les expressions-clés [-] remontent comme une seule expression dans Analyzer.
    Le nbre d’expressions clés “not provided” est-il masqué par Google ?

    Si l’on veut aujourd’hui mesurer la part de Google News, Vidéos, Search… dans l’audience d’un site, la mesure fournie (catégorie de moteurs) par Analyzer est-elle fiable ou faut-il ramener l’audience du site à la part du trafic généré par les expressions-clés connues ?