Lire l'article #3 de la série intitulé "Analyser l'évolution de son référencement"

Avant de commencer à optimiser le référencement de ces pages, il est intéressant de savoir quelles pages il vaut mieux ne pas indexer et comment faire. C'est ce que nous allons découvrir aujourd'hui.

Pourquoi refuser l'indexation d'une page ?

Il y a trois principales raisons à vouloir éviter que les robots des moteurs de recherche indexent certaines de vos pages :

La première étant que l'on a pas envie de présenter une page inutile à un utilisateur, et risquer de le perdre dès son arrivée. C'est le cas pour des pages de remerciement, des pages de mentions légales et autres pages qui font partie de la ligne de vie du site mais que l'on ne veut pas présenter à un visiteur lors de sa première visite.

La deuxième est qu'il faut faire attention aux pages soumises aux moteurs de recherche, car si on laisse trop de pages avec un contenu faible, un simple formulaire (connexion par exemple), une liste de liens sponsorisés, l'algorithme de ranking risque de faire baisser la réputation du site à cause du contenu qu'il aura parcouru.

Et la dernière étant que le contenu de certaines pages peut être quasi-similaire à d'autres, risquant par exemple de faire croire à du contenu dupliqué. On peut par exemple trouver ce genre de pages sur des blogs n'ayant qu'un seul auteur, la page des articles de l'auteur aura le même contenu que la page d'accueil du blog.

Comment faire ?

Il existe deux méthodes, l'une consistant à activer l'indexation page par page, et l'autre consistant à créer un fichier regroupant un ensemble de règles basées sur des patterns, appelé robots.txt :

Avec une balise meta

Cette solution est viable si le nombre de pages que vous devez éviter d'indéxer est restreint, ou si aucune des urls de ces pages ne suit un pattern précis. Dans ce cas, il vous suffira d'ajouter la balise suivante dans l'élément <head> de votre page :

<head>
    ...
    <meta name="robots" content="noindex, nofollow">
    ...
</head>    

La directive "noindex" indique aux robots de ne pas indexer la page, tandis que "nofollow" empêche l'indexation des liens. Il est possible de mixer les deux directives en utilisant leur valeurs inverses "index" et "follow".

Le fichier robots.txt

Le fichier robots.txt est à créer à la racine du site (le nom du fichier est sensible à la casse), et sera automatiquement lu par les crawlers. Ce dernier contient des groupes de règles pour indiquer l'indexation (ou non), de certaines pages filtrées par des patterns d'urls :

# robots.txt
User-agent: * # any robot
Disallow: /private/

User-agent: *
Disallow: /contact

En plus du pattern, il est possible de sélectionner uniquement certains crawlers spécifiques. Pour plus d'informations détaillées sur le robots.txt, voici un article spécialisé sur le site moz.com

J'espère que cet article vous aura été utile, et à bientôt sur le blog !

Les articles les plus populaires du blog

Envie de continuer à lire des articles autour du développement web (entre autres) ? Voici la sélection des articles de mon blog les plus lus par la communauté !

Voir la sélection 🚀

Recevez les articles de la semaine par e-mail pour ne rien manquer !

S'abonner à la newsletter 📧

À propos de l'auteur

Hello, je suis Nicolas Brondin-Bernard, ingénieur web indépendant depuis 2015 passionné par le partage d'expériences et de connaissances.

Aujourd'hui je suis aussi coach pour développeurs web juniors, tu peux me contacter sur nicolas@brondin.com, sur mon site ou devenir membre de ma newsletter pour ne jamais louper le meilleur article de la semaine et être tenu au courant de mes projets !


Photo par Hello I'm Nik sur Unsplash