Aller au contenu

Comment détecter les liens multiples avec Screaming Frog ?

Antoine Brisset
Antoine Brisset
Temps de lecture : 2 min
Comment détecter les liens multiples avec Screaming Frog ?
Photo by Fré Sonneveld / Unsplash

Table des matières

Si tu t'intéresses de près au SEO, tu dois savoir qu'une des recommandations en matière de maillage interne est d'éviter, sur une page, de faire plusieurs liens vers la même page cible.

D'après les derniers tests de la communauté SEO (je n'ai pas testé de mon côté), il semblerait que, dans ce cas de figure, seul le 1er texte d'ancre soit pris en compte par Google, et non les suivants.

Il y aurait aussi un effet négatif sur le PageRank interne, mais il n'existe pas de consensus clair à ce sujet.

La question du jour est donc : comment repérer facilement ces liens doublons avec Screaming Frog ?

Indice : XPath + custom extraction 😀

Allez, j'te montre !

Étape 1 : isoler les liens internes

La 1ère étape consiste à sélectionner uniquement les liens pointant vers des pages internes et donc à exclure les liens externes.

Je vais donc rechercher, dans la page, tous les liens commençant par l'URL de mon site ou commençant par "/" (URL relative).

L'expression XPath correspondante sera la suivante :

//a[starts-with(@href,"https://www.seomemento.com") or starts-with(@href, "/")]

Explications :

  • //a : je cherche tous les liens
  • starts-with(@href,"https://www.seomemento.com") dont l'attribut href commence par "https://www.seomemento.com" (à remplacer par l'URL de ton site)
  • or starts-with(@href, "/")] : ou dont l'attribut href commence par "/"

Étape 2 : exclure les liens ancrés

Je vais également filtrer les "liens d'ancrage", c'est-à-dire tous les liens menant vers une section particulière d'une page.

Pourquoi ? Parce que selon les derniers tests SEO, faire un lien ancré permettrait justement de contourner le problème des liens multiples.

L'expression XPath devient donc :

//a[starts-with(@href,"https://www.seomemento.com") or starts-with(@href, "/")][not(contains(@href,'#'))]

Explications :

  • [not(contains(@href,'#'))] : parmi les liens trouvés à l'étape 1, je veux exclure les liens vers des URLs contenant un dièse

Étape 3 : conserver uniquement les doublons

C'est ici que ça devient intéressant.

Maintenant qu'on a gardé uniquement les liens internes, comment faire pour savoir si un lien est présent plusieurs fois dans la page ?

Et bien, en fait, il suffit de vérifier si chaque lien interne dans la page est précédé ou suivi d'un lien ayant le même attribut href.

//a[starts-with(@href,"https://www.seomemento.com") or starts-with(@href, "/")][not(contains(@href,'#'))][@href = following::a/@href or @href = preceding::a/@href]/@href

Explications :

  • [@href = following::a/@href or @href = preceding::group/@href] : je sélectionne uniquement les liens de l'étape 2 dont l'attribut href est égal à l'attribut href d'un lien situé après lui dans le DOM (following::a/@href), ou avant lui (or @href = preceding::a/@href)
  • /@href : j'affiche uniquement l'attribut href de ces liens

Aller plus loin

Compter les liens multiples

Au lieu d'extraire les liens, tu peux aussi les compter :

count(//a[starts-with(@href,"https://www.seomemento.com") or starts-with(@href, "/")][not(contains(@href,'#'))][@href = following::a/@href or @href = preceding::a/@href]/@href)

Calculer un ratio de liens multiples

Ou tu peux même calculer un ratio en utilisant l'opérateur div.

count(//a[starts-with(@href,"https://www.seomemento.com/") or starts-with(@href, "/")][not(contains(@href,'#'))][@href = following::a/@href or @href = preceding::a/@href]) div count(//a[starts-with(@href,"https://www.seomemento.com/") or starts-with(@href, "/")][not(contains(@href,'#'))])

Et voilà !

Bien entendu, à toi d'adapter l'expression XPath en fonction de ton besoin : exclure les liens du menu, les liens sidebar, etc.

Screaming Frog

Antoine Brisset Twitter

Consultant SEO depuis 2010. Je traque les clics inutiles et j'automatise les tâches répétitives pour gagner du temps dans mon quotidien de travailleur du web.


Articles Similaires

Membres Public

Balise strong dans une balise hn : détectez la suroptimisation avec Screaming Frog !

Quand je reçois des contenus au format Word ou Google Docs, il arrive souvent qu'en les collant dans l'éditeur WordPress (ou un autre éditeur WYSIWIG), les titres soient automatiquement mis en gras. Ce qui donne par exemple ce type de code HTML : <h2><

Balise strong dans une balise hn : détectez la suroptimisation avec Screaming Frog !
Membres Public

Comment vérifier ses liens d'affiliation avec Screaming Frog ?

Quand on fait de l'édition de sites, on passe beaucoup de temps à créer du contenu, à le promouvoir, à faire des liens. Mais on oublie parfois le plus important : s'assurer que les liens d'affiliation qu'on a glissés dans nos contenus sont

Comment vérifier ses liens d'affiliation avec Screaming Frog ?
Membres Public

Brotli, tu connais ?

Il y a quelques mois, j'avais partagé l'astuce suivante sur Twitter. Petit tips #ScreamingFrog La configuration par défaut de Screaming Frog n'ajoute pas automatiquement la compression Brotli au champ "Accept-Encoding" (il n'y a que Gzip). — Antoine Brisset (@ABrisset) March 27,

Brotli, tu connais ?