Aller au contenu

7 moyens simples de détecter un cloaking

Antoine Brisset
Antoine Brisset
Temps de lecture : 3 min
7 moyens simples de détecter un cloaking
Photo by Guido Coppa / Unsplash

Table des matières

Tout d'abord, un petit rappel de ce qu'est le cloaking. Dit simplement, c'est le fait d'afficher aux robots de Google, ou de tout autre moteur de recherche, un code HTML différent de celui qui sera envoyé aux autres clients.

Autrement dit, afficher une version différente d'une page web selon qui la demande, le moteur de recherche ou l'internaute.

Cette pratique est bien entendu contraire aux guidelines de Google.

Les motivations au cloaking peuvent être nombreuses :

  • afficher un contenu optimisé à Google pour le faire ranker et rediriger l'internaute directement vers une page de vente ou vers un site partenaire en affiliation
  • cacher des liens à Google pour mieux maîtriser la circulation du Pagerank interne
  • empêcher un concurrent de remonter un réseau de sites, en affichant à Google une belle page de contenu avec le BL vers son money site, tout en renvoyant une page blanche ou un code 403, par exemple, aux internautes et aux outils d'analyse de backlinks
  • etc.

Pour mettre en place un cloaking, il est possible d'utiliser :

  • la détection de l'user-agent (aisément manipulable)
  • la détection de l'IP (liste d'IP Googlebot dispo ici au format JSON)
  • le reverse DNS
  • la détection du support ou non des cookies par le client

Je ne m'étalerai pas plus aujourd'hui sur ces techniques, cela fera peut-être l'objet d'une prochaine newsletter.

Passons au coeur du sujet : comment faire pour détecter un cloaking ?

User-Agent Switcher for Chrome

Il s'agit d'un plugin Google Chrome qui permet de changer à la volée son user-agent lorsqu'on navigue sur le web.

Voici la chaîne à utiliser si tu souhaites te faire passer pour Googlebot Mobile :

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Rends-toi dans les options du plugin pour ajouter ce nouvel UA.

User-Agent Switcher

Problème : si le site utilise un cloaking plus "costaud", à base de détection d'IP par exemple, tu ne pourras pas le détecter.

Le cache Google

Il suffit d'entrer la commande Google cache:http://example.com pour visualiser ce que Google a indexé.

Pour accéder directement à la source HTML en cache, rends-toi sur cette URL : http://webcache.googleusercontent.com/search?q=cache:http://example.com&strip=0&vwsrc=1.

Problème : si la page affiche en header HTTP la directive X-Robots-Tag: noarchive, ou en <head> la balise <meta name="robots" content="noarchive" />, le cache ne sera pas disponible.

Les outils de tests Google

C'est sûrement la façon de procéder la plus fiable : détourner les outils de test Google pour savoir ce que "voit" vraiment le robot quand il inspecte la page.

Dans cette optique, tu peux utiliser :

  • AMP Validator : tu auras directement accès au code source reçu par Google
  • Google Mobile Friendly Test : tu auras accès au code HTML et tu pourras visualiser le screenshot de la version "rendue" de la page
  • PageSpeed Insights : en testant la vitesse de chargement d'une page, tu recevras en bonus un screenshot de la page telle qu'interprétée par Google
  • Test My Site : même idée que l'outil précédent

Google Traduction

Pour terminer, une solution un peu plus insolite : Google Translate. Et oui, ce service de Google utilise les mêmes classes d'IP que Googlebot !

Rends-toi sur https://translate.google.fr/. Entre une URL dans le champ de gauche, puis clique sur le lien obtenu dans le champ de droite.

Google Translate

Et hop, te voilà sur la version potentiellement cloakée de la page. Avec un CTRL+U, tu pourras, en plus, vérifier ce qui se passe dans le code source.

Divers

Antoine Brisset Twitter

Consultant SEO depuis 2010. Je traque les clics inutiles et j'automatise les tâches répétitives pour gagner du temps dans mon quotidien de travailleur du web.


Articles Similaires

Membres Public

Cache Google : quelques petites réflexions

Bonjour et bienvenue dans cette 100ème (!) édition de la newsletter SEO Memento. Et voilà, encore une fonctionnalité qui disparaît de la page de résultats Google : le lien vers la version en cache. Depuis quelque temps déjà, le lien avait été "dissimulé" dans la fenêtre modale qui s'

Cache Google : quelques petites réflexions
Membres Public

Sais-tu ce que Google pense de ton site ?

Aujourd'hui, j'aimerais te parler d'une fonctionnalité Google assez méconnue. Il s'agit du menu "À propos de ce résultat" que Google affiche quand on clique sur les 3 petits points à droite des résultats de recherche. Pourtant, celui-ci contient des informations

Sais-tu ce que Google pense de ton site ?
Membres Public

Comment extraire le root domain d'une liste d'URLs en bulk ? (OUTIL GRATUIT)

C'est un problème qui revient régulièrement dans la sphère SEO : comment extraire le domaine racine d'une URL ? J'ai souvent vu passer des tweets à ce sujet, comme ici ou là. Nicolas de Tremplin Numérique en a même parlé dernièrement dans sa conférence sur les

Comment extraire le root domain d'une liste d'URLs en bulk ? (OUTIL GRATUIT)