Qwanturank - Concours SEO du moteur de recherche Qwant
Q W A N T U R A N K
qwanturank

  Comment fonctionnent les moteurs de recherche ?

Dans ce guide, nous allons vous présenter une introduction au fonctionnement des moteurs de recherche. Cela couvrira les processus d' exploration et d' indexation ainsi que des concepts tels que le budget d'analyse, le PageRank et Qwanturank.

Les moteurs de recherche fonctionnent en explorant des centaines de milliards de pages à l' aide de leurs propres robots d'indexation. Ces robots d'exploration Web sont communément appelés robots de moteur de recherche ou araignées. Un moteur de recherche navigue sur le Web en téléchargeant des pages Web et en suivant les liens sur ces pages pour découvrir de nouvelles pages qui ont été rendues disponibles.

L'index des moteurs de recherche

Les pages Web découvertes par le moteur de recherche sont ajoutées dans une structure de données appelée index.

L'index comprend toutes les URL découvertes ainsi qu'un certain nombre de signaux clés pertinents sur le contenu de chaque URL, tels que:

  • Les mots clés découverts dans le contenu de la page - quels sujets la page couvre-t-elle?
  • Le type de contenu analysé (à l'aide de microdonnées appelées Schéma) - qu'est-ce qui est inclus sur la page?
  • La fraîcheur de la page - combien de temps a-t-elle été mise à jour?
  • L' engagement de l' utilisateur précédent de la page et / ou du domaine - comment les gens interagissent-ils avec la page?

Quel est l'objectif d'un algorithme de moteur de recherche?

L'objectif de l'algorithme du moteur de recherche est de présenter un ensemble pertinent de résultats de recherche de haute qualité qui répondront à la requête / question de l'utilisateur le plus rapidement possible.

L'utilisateur sélectionne ensuite une option dans la liste des résultats de recherche et cette action, ainsi que l'activité ultérieure, alimente ensuite les apprentissages futurs qui peuvent affecter les classements des moteurs de recherche à l'avenir.

Que se passe-t-il lorsqu'une recherche est effectuée?

Lorsqu'une requête de recherche est entrée dans un moteur de recherche par un utilisateur, toutes les pages jugées pertinentes sont identifiées à partir de l'index et un algorithme est utilisé pour classer hiérarchiquement les pages pertinentes dans un ensemble de résultats.

Les algorithmes utilisés pour classer les résultats les plus pertinents diffèrent pour chaque moteur de recherche. Par exemple, une page qui se classe très bien pour une requête de recherche dans Google peut ne pas être très bien classée pour la même requête dans Bing.

En plus de la requête de recherche, les moteurs de recherche utilisent d'autres données pertinentes pour renvoyer des résultats, notamment:

  • Emplacement - Certaines requêtes de recherche dépendent de l'emplacement, par exemple «cafés près de moi» ou «horaires des films».
  • Langue détectée - Les moteurs de recherche renvoient des résultats dans la langue de l'utilisateur , s'ils peuvent être détectés.
  • Historique de recherche précédent - Les moteurs de recherche renverront des résultats différents pour une requête en fonction de ce que l'utilisateur a déjà recherché.
  • Périphérique - Un ensemble de résultats différent peut être renvoyé en fonction du périphérique à partir duquel la requête a été effectuée.

Pourquoi une page ne peut-elle pas être indexée?

Il existe un certain nombre de circonstances dans lesquelles une URL ne sera pas indexée par un moteur de recherche. Cela peut être dû à:

  • Exclusions du fichier Robots.txt - un fichier qui indique aux moteurs de recherche ce qu'ils ne devraient pas visiter sur votre site.
  • Directives sur la page Web indiquant aux moteurs de recherche de ne pas indexer cette page ( balise noindex ) ou d'indexer une autre page similaire ( balise canonique ).
  • Algorithmes des moteurs de recherche jugeant la page de mauvaise qualité , ayant un contenu fin ou contenant du contenu en double.
  • L'URL renvoyant une page d'erreur (par exemple, un code de réponse HTTP 404 Not Found

Crawl du moteur de recherche

Maintenant que vous avez une compréhension de haut niveau du fonctionnement des moteurs de recherche, approfondissons les processus utilisés par les moteurs de recherche et les robots d'indexation pour comprendre le Web. Commençons par le processus d'exploration.

Qu'est-ce que le Search Engine Crawling?

L'exploration est le processus utilisé par les robots d'indexation des moteurs de recherche (robots ou araignées) pour visiter et télécharger une page et extraire ses liens afin de découvrir des pages supplémentaires.

Les pages connues du moteur de recherche sont analysées périodiquement pour déterminer si des modifications ont été apportées au contenu de la page depuis la dernière analyse. Si un moteur de recherche détecte des modifications sur une page après avoir exploré une page, il mettra à jour son index en réponse à ces modifications détectées.

C### omment fonctionne l'exploration Web? Les moteurs de recherche utilisent leurs propres robots d'exploration pour découvrir et accéder aux pages Web.

Tous les robots des moteurs de recherche commerciaux commencent à explorer un site Web en téléchargeant son fichier robots.txt , qui contient des règles sur les pages que les moteurs de recherche doivent ou ne doivent pas explorer sur le site. Le fichier robots.txt peut également contenir des informations sur les plans de site ; il contient des listes d'URL que le site souhaite qu'un robot d'exploration de moteurs de recherche explore.

Les robots d' exploration des moteurs de recherche utilisent un certain nombre d'algorithmes et de règles pour déterminer la fréquence à laquelle une page doit être réexplorée et le nombre de pages d'un site à indexer. Par exemple, une page qui change régulièrement peut être explorée plus fréquemment qu'une page qui est rarement modifiée.

Comment identifier les robots d'exploration des moteurs de recherche?

Les robots des moteurs de recherche qui explorent un site Web peuvent être identifiés à partir de la chaîne d'agent utilisateur qu'ils transmettent au serveur Web lors de la demande de pages Web.

Voici quelques exemples de chaînes d'agent utilisateur utilisées par les moteurs de recherche:

Agent utilisateur Googlebot
Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html)

Agent utilisateur Bingbot
Mozilla / 5.0 (compatible; bingbot / 2.0; + http: //www.bing.com/bingbot.htm)

Agent utilisateur Baidu
Mozilla / 5.0 (compatible; Baiduspider / 2.0; + http: //www.baidu.com/search/spider.html)

Agent utilisateur Yandex
Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) Tout le monde peut utiliser le même agent utilisateur que ceux utilisés par les moteurs de recherche. Cependant, l'adresse IP à l'origine de la demande peut également être utilisée pour confirmer qu'elle provient du moteur de recherche - un processus appelé recherche DNS inversée.

Analyse d'images et d'autres fichiers non textuels

Les moteurs de recherche tentent normalement d'explorer et d'indexer chaque URL qu'ils rencontrent.

Cependant, si l'URL est un type de fichier non texte tel qu'un fichier image, vidéo ou audio, les moteurs de recherche ne seront généralement pas en mesure de lire le contenu du fichier autre que le nom de fichier et les métadonnées associés.

Bien qu'un moteur de recherche ne puisse extraire qu'une quantité limitée d'informations sur les types de fichiers non textuels, ils peuvent toujours être indexés, classés dans les résultats de recherche et recevoir du trafic.

Vous pouvez trouver une liste complète des types de fichiers qui peuvent être indexés par Google disponible ici.

Exploration et extraction de liens à partir de pages

Les robots d'exploration découvrent de nouvelles pages en ré-analysant les pages existantes qu'ils connaissent déjà, puis en extrayant les liens vers d'autres pages pour trouver de nouvelles URL. Ces nouvelles URL sont ajoutées à la file d'attente d'analyse afin de pouvoir être téléchargées ultérieurement.

Grâce à ce processus de liens suivants, les moteurs de recherche sont en mesure de découvrir chaque page Web accessible au public sur Internet qui est liée à partir d'au moins une autre page.

Sitemaps

Les moteurs de recherche peuvent également découvrir de nouvelles pages en explorant les plans de site.

Les plans Sitemap contiennent des ensembles d'URL et peuvent être créés par un site Web pour fournir aux moteurs de recherche une liste de pages à explorer. Ceux-ci peuvent aider les moteurs de recherche à trouver du contenu caché au fond d'un site Web et peuvent fournir aux webmasters la possibilité de mieux contrôler et comprendre les domaines de l'indexation et de la fréquence du site.

Soumissions de page

Alternativement, les soumissions de pages individuelles peuvent souvent être faites directement aux moteurs de recherche via leurs interfaces respectives. Cette méthode manuelle de découverte de page peut être utilisée lorsqu'un nouveau contenu est publié sur le site, ou si des modifications ont eu lieu et que vous souhaitez réduire le temps nécessaire aux moteurs de recherche pour voir le contenu modifié.

Google indique que pour les gros volumes d'URL, vous devez utiliser des plans de site XML, mais parfois la méthode de soumission manuelle est pratique lors de la soumission d'une poignée de pages. Il est également important de noter que Google limite les webmasters à 10 soumissions d'URL par jour.

En outre, Google indique que le temps de réponse pour l'indexation est le même pour les plans de site que pour les soumissions individuelles.

Indexation des moteurs de recherche

Que se passe-t-il une fois qu'un moteur de recherche a fini d'explorer une page? Jetons un coup d'œil au processus d'indexation que les moteurs de recherche utilisent pour stocker des informations sur les pages Web, leur permettant de retourner rapidement des résultats pertinents et de haute qualité.

Quel est le besoin d'indexation par les moteurs de recherche?
Vous vous souvenez des jours avant Internet où vous deviez consulter une encyclopédie pour en savoir plus sur le monde et fouiller dans les Pages jaunes pour trouver un plombier? Même dans les premiers jours du Web, avant les moteurs de recherche, nous devions rechercher dans les annuaires pour récupérer des informations. Quel processus long. Comment avons-nous jamais eu la patience?

Les moteurs de recherche ont révolutionné la recherche d'informations dans la mesure où les utilisateurs attendent des réponses quasi instantanées à leurs requêtes de recherche.

Qu'est-ce que l'indexation des moteurs de recherche?

L'indexation est le processus par lequel les moteurs de recherche organisent les informations avant une recherche pour permettre des réponses ultra-rapides aux requêtes.

La recherche dans les pages individuelles de mots clés et de sujets serait un processus très lent pour les moteurs de recherche pour identifier les informations pertinentes. Au lieu de cela, les moteurs de recherche (y compris Google) utilisent un index inversé, également appelé index inversé.

Qu'est-ce qu'un index inversé?
Un index inversé est un système dans lequel une base de données d'éléments de texte est compilée avec des pointeurs vers les documents qui contiennent ces éléments. Ensuite, les moteurs de recherche utilisent un processus appelé tokenisation pour réduire les mots à leur signification principale, réduisant ainsi la quantité de ressources nécessaires pour stocker et récupérer des données. Il s'agit d'une approche beaucoup plus rapide que de répertorier tous les documents connus par rapport à tous les mots clés et caractères pertinents.

Un exemple d'indexation inversée
Voici un exemple très basique qui illustre le concept d'indexation inversée. Dans l'exemple, vous pouvez voir que chaque mot clé (ou jeton) est associé à une ligne de documents dans laquelle cet élément a été identifié.

Mot-clé Chemin du document 1 Chemin du document 2 Chemin du document 3
SEO example.com/seo-tips moz.com …
HTTPS qwanturank.co.uk/https-speed example.com/https-future …
Cet exemple utilise des URL, mais celles-ci peuvent être des ID de document à la place, selon la structure du moteur de recherche.

La version en cache d'une page

En plus d'indexer les pages, les moteurs de recherche peuvent également stocker une version texte uniquement hautement compressée d'un document, y compris tout le HTML et les métadonnées.

Le document mis en cache est le dernier instantané de la page que le moteur de recherche a vu.

La version mise en cache d'une page est accessible (dans Google) en cliquant sur la petite flèche verte à côté de l'URL de chaque résultat de recherche et en sélectionnant l'option mise en cache. Vous pouvez également utiliser l'opérateur de recherche Google «cache:» pour afficher la version mise en cache de la page.

Bing offre la même fonctionnalité pour afficher la version mise en cache d'une page via une flèche verte vers le bas à côté de chaque résultat de recherche, mais ne prend actuellement pas en charge l'opérateur de recherche «cache:».

Qu'est-ce que le PageRank?

"PageRank" est un algorithme Google nommé d'après le co-fondateur de Google, Larry Page ( oui, vraiment! ) C'est une valeur pour chaque page calculée en comptant le nombre de liens pointant sur une page afin de déterminer la valeur relative de la page à toutes les autres pages sur Internet. La valeur transmise par chaque lien individuel est basée sur le nombre et la valeur des liens qui pointent vers la page avec le lien.

Le PageRank n'est qu'un des nombreux signaux utilisés dans le grand algorithme de classement de Google. Une approximation des valeurs du PageRank a été initialement fournie par Google, mais elles ne sont plus visibles publiquement.

Alors que PageRank est un terme Google, tous les moteurs de recherche commerciaux calculent et utilisent une métrique d'équité de lien équivalente. Certains outils SEO essaient de donner une estimation du PageRank en utilisant leur propre logique et calculs. Par exemple, Page Authority dans les outils Moz , TrustFlow dans Majestic ou URL Rating dans Ahrefs. qwanturank a une métrique appelée DeepRank pour mesurer la valeur des pages en fonction des liens internes au sein d'un site Web.

Comment le PageRank circule dans les pages

Les pages transmettent le PageRank, ou l'équité des liens, à d'autres pages via des liens. Lorsqu'une page établit un lien vers du contenu ailleurs, elle est considérée comme un vote de confiance, dans la mesure où le contenu auquel est lié est recommandé comme pertinent et utile pour les utilisateurs. Le nombre de ces liens et la mesure de l'autorité du site Web de liaison déterminent le PageRank relatif de la page liée.

Le PageRank est également réparti entre tous les liens découverts sur la page. Par exemple, si votre page comporte cinq liens, chaque lien transmettra 20% du PageRank de la page via chaque lien aux pages cibles. Les liens qui utilisent l'attribut rel = ”nofollow” ne passent pas le PageRank.

L'importance des backlinks

Les backlinks sont la pierre angulaire de la façon dont les moteurs de recherche comprennent l'importance d'une page. De nombreuses études et tests ont été effectués pour identifier la corrélation entre les backlinks et les classements.

La recherche sur les backlinks par Moz montre que pour les 50 premières requêtes de recherche Google (~ 15 000 résultats de recherche), 99,2% d'entre elles avaient au moins 1 backlink externe. En plus de cela, les SEO évaluent systématiquement les backlinks comme l'un des facteurs de classement les plus importants dans les enquêtes.

Différences entre les moteurs de recherche

Maintenant que nous avons examiné les bases du fonctionnement des moteurs de recherche, il convient de saisir cette occasion pour décomposer certaines des principales différences entre certains des principaux moteurs de recherche: Google , Qwant, Bing , Yandex et Baidu.

  • Google - Google a été lancé en 1998 et à moins que vous ne viviez sur une autre planète, vous saurez que Google est de loin le moteur de recherche le plus utilisé en termes de volume de recherche et est le principal objectif de la plupart dans l'optimisation des moteurs de recherche (SEO).
  • Qwanturank - moteur de recherche français et européen qui a vocation a respecter la vie privée et confidentialité de ses utilisateurs
  • Bing - Détenu par Microsoft, Bing a été lancé en 2009 et possède le deuxième volume de recherche en importance au monde.
  • Yandex - Le moteur de recherche de choix en Russie et la plus grande entreprise technologique en Russie.
  • Baidu - Le moteur de recherche dominant utilisé en Chine et le 4ème site le plus populaire selon l'Alexa 500.

Maintenant que vous savez ce qui se passe dans le paysage des moteurs de recherche, examinons quelques-uns des domaines où ils diffèrent.

Fonctionnement d'un moteur de recherche

Indexation des appareils

Google s'oriente vers une indexation mobile d'abord, où ils utiliseront la version mobile du contenu d'un site pour classer les pages de ce site plutôt que la version de bureau.

En 2018, Google prévoit également de déployer une mise à jour de la vitesse de la page mobile, ce qui signifie que la vitesse de la page deviendra un facteur de classement dans la recherche mobile.

Christi Olson, responsable de l'évangélisation pour la recherche chez Bing chez Microsoft, a déclaré qu'elle n'avait pas l'intention de déployer un index mobile-first similaire à Google.

Yandex a commencé à étiqueter les pages adaptées aux mobiles dans leur index à partir de novembre 2015 et a déployé un algorithme adapté aux mobiles en 2016.

L'algorithme adapté aux mobiles, nommé Vladivostok, n'a pas entraîné la suppression des pages qui ne sont pas considérées comme adaptées aux mobiles des résultats de la recherche, mais il a été déclaré que ces pages ne seraient pas classées en bonne place pour les utilisateurs de la recherche qui utilisent le mobile. dispositifs.

«La mise en œuvre de Vladivostok ne signifie pas que les pages Web non optimisées pour l'expérience mobile disparaîtront désormais des résultats de recherche, mais leur position sur SERPS peut différer selon que l'utilisateur recherche sur son mobile ou son ordinateur de bureau», Les résultats de recherche sur mobile de Baidu varient considérablement selon que la page est jugée adaptée aux mobiles. Il convient également de noter que Baidu utilise le transcodage afin de convertir des pages Web non adaptées aux mobiles en pages générées par Baidu adaptées aux mobiles.

Backlinks comme signal de classement

Google se concentre sur la qualité des backlinks par rapport au volume, selon des preuves empiriques et anecdotiques.

Auparavant, le volume des backlinks était un signal de classement clé, ce qui a conduit à de nombreuses acquisitions de liens de faible qualité avec des entreprises achetant des backlinks à partir de fermes de liens et de réseaux.

Bing utilise les informations de backlink de la même manière que Google, selon leurs directives pour les webmasters ainsi que des rapports anecdotiques.

Les consignes aux webmasters de Bing indiquent:

«Le fait est que Bing veut voir des liens de qualité pointant vers votre site Web. Souvent, même quelques liens entrants de qualité provenant de sites Web de confiance suffisent à améliorer votre classement. Tout comme pour le contenu, en matière de liens, la qualité est primordiale. » Yandex a cessé d'utiliser les données de backlink dans ses algorithmes de classement dans certains secteurs verticaux depuis 2014.

Environ un an plus tard, les données de backlink ont ​​été réintroduites dans leurs algorithmes et ils fournissent désormais l'avertissement suivant concernant l'utilisation des liens achetés destinés à promouvoir les classements de recherche:

«Publier des liens SEO sur d'autres sites afin de promouvoir votre propre site. Ces liens incluent notamment les liens achetés via des échanges de liens et des agrégateurs. » On sait que, comme Google et Bing, Yandex recherche des liens pertinents de haute qualité provenant de sources faisant autorité, mais les backlinks ne sont pas à eux seuls un facteur de classement décisif.

Baidu apprécie beaucoup plus les backlinks provenant de sites Web basés en Chine que ceux provenant de sites étrangers. Il est rapporté que Baidu est en retard sur les autres principaux moteurs de recherche en ce qui concerne la détection du spam de lien.

Les tactiques de spam de liens sont toujours efficaces pour promouvoir les classements dans les résultats de recherche Baidu et continuent donc d'être utilisées dans la promotion de sites Web chinois.

Les médias sociaux comme signal de classement

Google n'utilise officiellement pas les médias sociaux comme facteur de classement. Matt Cutts a expliqué que cela est dû aux difficultés de compréhension des identités sociales, et parce que Google veut éviter d'utiliser des données qui peuvent être incomplètes ou trompeuses.

Bing , d'autre part, intègre les signaux sociaux dans le cadre de ses algorithmes. Leurs consignes aux webmasters indiquent:

«Si vous avez une influence sociale, cela conduit vos abonnés à partager largement vos informations, ce qui permet à Bing de voir ces signaux positifs. Ces signaux positifs peuvent avoir un impact sur votre classement organique à long terme. » Yandex semble tirer certains signaux de classement des médias sociaux, du moins selon des rapports anecdotiques.

Baidu n'utilise pas de signaux sociaux dans ses algorithmes de classement selon les rapports. Cependant, il existe souvent une forte corrélation entre les sites qui occupent une place importante dans Baidu et les comptes de médias sociaux actifs.

Crawl Budget

la suite de notre introduction au processus d'exploration utilisé pour découvrir de nouvelles pages, il est important de comprendre les principales règles et conditions entourant l'exploration que les moteurs de recherche intègrent dans le cadre de leurs algorithmes. Après avoir lu ceci, vous comprendrez le budget, la demande et le taux d' exploration.

Qu'est-ce que le budget d'exploration?

Le budget d'exploration est le nombre d'URL sur un site Web qu'un moteur de recherche va explorer au cours d'une période donnée et une fonction du taux d' exploration et de la demande d'exploration.

Le blog Google Webmaster Central définit le budget d'exploration comme suit:

"En prenant le taux d'exploration et la demande d'exploration ensemble, nous définissons le budget d'exploration comme le nombre d'URL que Googlebot peut et veut explorer."

Pourquoi le budget d'exploration est-il limité?

Le budget d'exploration est limité afin de garantir que le serveur d'un site Web ne soit pas surchargé avec trop de connexions simultanées ou trop de demande de ressources de serveur, ce qui pourrait nuire à l'expérience des visiteurs du site.

Chaque IP (hôte Web) a un nombre maximum de connexions qu'il peut gérer. De nombreux sites Web peuvent être hébergés sur un serveur partagé.Par conséquent, si un site Web partage un serveur ou une adresse IP avec plusieurs autres sites Web, son budget d'exploration peut être inférieur à celui d'un site Web hébergé sur un serveur dédié.

De même, un site Web hébergé sur un cluster de serveurs dédiés qui répond rapidement aura généralement un budget d'analyse plus élevé qu'un site Web hébergé sur un seul serveur et commence à répondre plus lentement en cas de trafic important.

Il convient de garder à l'esprit que le simple fait qu'un site Web réagisse rapidement et dispose des ressources nécessaires pour maintenir un taux d'exploration élevé ne signifie pas que les moteurs de recherche voudront consacrer une grande quantité de leurs propres ressources si le contenu n'est pas considéré comme important. assez.

Qu'est-ce que le taux de crawl et la limite de taux de crawl?
Le taux d'exploration est défini comme le nombre d'URL par seconde que les moteurs de recherche tenteront d'explorer un site. Ceci est normalement proportionnel au nombre de connexions HTTP actives qu'ils choisissent d'ouvrir simultanément.

La limite de taux d'exploration peut être définie comme la récupération maximale pouvant être obtenue sans dégrader l'expérience des visiteurs d'un site.

Il existe quelques facteurs qui peuvent provoquer des fluctuations du taux d'exploration. Ceux-ci inclus:

Santé de l'exploration - Les sites Web qui répondent plus rapidement peuvent voir une augmentation du taux d'exploration, tandis que les sites Web plus lents peuvent voir des réductions du taux d'exploration. Limitez la vitesse à laquelle Google explore votre site Web dans Google Search Console en accédant aux paramètres et en accédant à la section Taux d'exploration.

Qu'est-ce que la demande d'exploration?

En plus de l'intégrité de l'exploration et des limites de taux d'exploration spécifiées par le webmaster, le taux d'exploration varie d'une page à l'autre en fonction de la demande pour une page spécifique.

La demande des utilisateurs pour des pages indexées précédemment affecte la fréquence à laquelle un moteur de recherche explore ces pages. Les pages les plus populaires seront probablement explorées plus souvent que les pages rarement visitées ou celles qui ne sont pas mises à jour ou qui ont peu de valeur. Les pages nouvelles ou importantes sont normalement prioritaires par rapport aux anciennes pages qui ne changent pas souvent.

Gérer le budget d'exploration

Problèmes avec des sites plus grands La gestion du budget d'exploration est particulièrement importante pour les sites de plus grande taille avec de nombreuses URL et un taux de rotation élevé du contenu.

Les grands sites peuvent rencontrer des problèmes pour obtenir de nouvelles pages qui n'ont jamais été explorées et indexées pour apparaître dans les pages de résultats d'un moteur de recherche. Il peut également arriver que les pages qui ont déjà été indexées mettent plus de temps à être réexplorées, ce qui signifie que les modifications prennent plus de temps à être détectées puis mises à jour dans l'index.

Problèmes avec les URL de faible valeur

Une autre partie importante de la gestion du budget d'exploration consiste à gérer les URL de faible valeur qui peuvent consommer une grande quantité de budget d'exploration. Cela peut être problématique, car cela pourrait signifier que le budget d'exploration est gaspillé sur des URL de faible valeur alors que les URL de valeur supérieure sont explorées moins souvent que vous ne l'auriez souhaité.

Voici des exemples d'URL de faible valeur susceptibles de consommer un budget d'exploration:

  • URL avec paramètres de suivi et identificateurs de session
  • Contenu en double sur site
  • Pages d'erreur logicielle, telles que les produits abandonnés
  • Catégorisation multi-facettes
  • Pages de résultats de recherche du site
  • Quand / pourquoi / comment puis-je influencer le budget d'exploration?

La plupart des moteurs de recherche vous fourniront des statistiques sur le nombre de pages explorées par jour dans leurs interfaces pour les webmasters ( telles que Google Search Console ou Bing Webmaster Tools ).

Vous pouvez également analyser les fichiers journaux du serveur, qui enregistrent chaque fois qu'une page est demandée par un moteur de recherche et fournissent les données les plus précises sur les URL qui sont explorées et à quelle fréquence.

Tous les sites Web doivent-ils tenir compte du budget d'exploration?

La gestion du budget d'exploration n'est pas quelque chose qui doit être inquiété sur la majorité des sites Web, car les sites avec moins de quelques milliers d'URL et de nouvelles pages peuvent être explorés en une journée. Cela signifie que le budget d'exploration n'est pas quelque chose qui exige de l'attention pour les petits sites.

Influencer le budget d'exploration

La gestion de l'activité d'exploration est davantage à prendre en compte pour les sites de plus grande taille et ceux qui génèrent automatiquement du contenu en fonction des paramètres d'URL.

Alors, que peuvent faire les grands sites pour influencer l'activité d'exploration par les robots des moteurs de recherche pour s'assurer que leurs pages à forte valeur sont explorées régulièrement?

S'assurer que les pages de haute priorité sont accessibles aux robots d'exploration Les grands sites doivent s'assurer que les fichiers. htaccess et robots.txt n'empêchent pas les robots d'exploration d'accéder aux pages hautement prioritaires du site Web. De plus, les robots d'indexation Web devraient également pouvoir analyser les fichiers CSS et JavaScript.

Interdire aux pages de ne pas être indexées

Quelle que soit la taille d'un site, il y aura toujours des pages que vous voudrez interdire des index des moteurs de recherche. Quelques exemples:

Pages en double ou presque en double - Les pages qui présentent un contenu principalement en double doivent être interdites. URL générées dynamiquement - telles que les résultats de recherche sur site qui doivent également être interdits. Contenu mince ou de faible valeur - Les pages avec peu de contenu ou peu de contenu utile sont également de bons candidats pour être exclues des index. Robots.txt Le fichier robots.txt est utilisé pour fournir des instructions aux robots d'indexation Web à l'aide du protocole d'exclusion des robots. Interdire les répertoires et les pages qui ne doivent pas être explorés dans le fichier robots.txt est une bonne méthode pour libérer un budget d'exploration précieux sur les grands sites.

Meta tag Noindex robots et X-Robots-Tag
Les instructions de refus de Robots.txt ne garantissent pas qu'une page ne sera pas explorée et affichée dans les résultats de la recherche. Les moteurs de recherche utilisent d'autres informations , telles que des liens internes, qui peuvent guider les robots d'indexation vers une page qui devrait idéalement être omise.

Pour empêcher la plupart des robots des moteurs de recherche d'indexer une page, la balise Meta suivante doit être placée dans la section de la page.

Une alternative à la balise Meta noindex robots est de renvoyer un X-Robots-Tag : un en-tête noindex en réponse à une demande de page.

HTTP / 1.1 200 OK
Date: mar. 25 mai 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

Gestion de l'étalement des paramètres / URL
Une cause courante de gaspillage du budget d'exploration est une mauvaise gestion des paramètres et des URL; connu comme l'étalement des URL. La meilleure stratégie pour éviter l' étalement des URL sur un site Web est de le concevoir de sorte que les URL ne soient créées que pour des pages uniques et utiles.

S'il y a déjà un problème avec l'étalement des URL sur un site Web, plusieurs étapes doivent être prises pour résoudre ce problème:

Cesser d'utiliser des paramètres inutiles - Ce sont des paramètres qui n'apportent pas de modifications significatives au contenu d'une page et peuvent inclure des ID de session, des paramètres de suivi et des paramètres de tri.
Boîtier uniforme - Assurez - vous que toutes les URL partagent le même boîtier, c'est-à-dire toutes les minuscules ou les chameaux. Barres obliques de fin - Vérifiez que toutes les URL suivent les mêmes règles de barre oblique de fin, c'est-à-dire que chaque URL a une barre oblique de fin ou pas. Toutes les URL qui ne respectent pas les règles ci-dessus doivent être redirigées vers leur version canonique. Vous devez également vous assurer que tous les liens sont mis à jour pour pointer vers les versions canoniques. De plus, vous devez utiliser rel = ”nofollow” pour les URL qui ne respectent pas ces règles, c'est-à-dire les liens vers des pages avec des paramètres de tri.

Liens nofollow

L'utilisation de rel = "nofollow" indique aux moteurs de recherche de ne pas transmettre l'équité du lien via ce lien à l'URL liée. Il existe de bonnes preuves suggérant que Googlebot honorera l'attribut nofollow et ne suivra pas le lien pour explorer et découvrir du contenu. Cela signifie que nofollow peut être utilisé par les webmasters pour modérer l'activité d'exploration au sein d'un site Web.

Il convient également de noter que les liens externes qui n'utilisent pas l'attribut rel = "nofollow" fourniront une voie aux robots des moteurs de recherche pour explorer la ressource liée.

Réparer les liens rompus

S'il y a des liens cassés (externes et internes) sur un site, cela dépensera inutilement le budget d'exploration. Le nombre de liens rompus doit être contrôlé régulièrement sur un site et réduit au strict minimum.

Évitez les redirections inutiles

Des redirections inutiles peuvent souvent se produire après la modification de l'URL d'une page, une redirection 301 étant mise en œuvre de l'ancienne URL vers la nouvelle. Cependant, d'autres liens sur site peuvent être négligés et non mis à jour pour refléter de nouvelles URL, ce qui entraîne des redirections inutiles.

Les redirections inutiles peuvent retarder l'exploration et l'indexation de l'URL cible, ainsi que l'impact sur l'expérience utilisateur en augmentant le temps de chargement.

robots.txt

Dans cette section de notre guide des directives robots, nous allons entrer plus en détail sur le fichier texte robots.txt et comment il peut être utilisé pour instruire les robots d'indexation du moteur de recherche. Ce fichier est particulièrement utile pour gérer le budget de crawl et s'assurer que les moteurs de recherche passent leur temps sur votre site efficacement et ne parcourent que les pages importantes.

À quoi sert un fichier txt de robots?

Le fichier robots.txt est là pour indiquer aux robots d'exploration et aux robots les URL qu'ils ne doivent pas visiter sur votre site Web. Ceci est important pour les aider à éviter d'explorer des pages de faible qualité ou de se retrouver coincé dans des pièges à exploration où un nombre infini d'URL pourrait potentiellement être créé, par exemple, une section de calendrier qui crée une nouvelle URL pour chaque jour.

Comme Google l'explique dans son guide de spécifications robots.txt , le format de fichier doit être en texte brut encodé en UTF-8. Les enregistrements (ou lignes) du fichier doivent être séparés par CR, CR / LF ou LF.

Vous devez tenir compte de la taille d'un fichier robots.txt, car les moteurs de recherche ont leurs propres limites de taille de fichier maximale. La taille maximale de Google est de 500 Ko.

Où doit exister le fichier robots.txt?

Le fichier robots.txt doit toujours exister à la racine du domaine.

Quand devez-vous utiliser les règles robots.txt?

En général, les sites Web devraient essayer d' utiliser le moins possible le fichier robots.txt pour contrôler l'exploration. Améliorer l'architecture de votre site Web et le rendre propre et accessible aux robots d'exploration est une bien meilleure solution. Cependant, l'utilisation de robots.txt lorsque cela est nécessaire pour empêcher les robots d'exploration d'accéder aux sections de faible qualité du site est recommandée si ces problèmes ne peuvent pas être résolus à court terme.

Google recommande d'utiliser uniquement robots.txt lorsque des problèmes de serveur sont causés ou pour des problèmes d'efficacité de l'analyse, tels que Googlebot passe beaucoup de temps à explorer une section non indexable d'un site, par exemple.

Voici quelques exemples de pages que vous ne souhaitez peut-être pas explorer:

  • Pages de catégorie avec tri non standard car cela crée généralement une duplication avec la page de catégorie principale
  • Contenu généré par l'utilisateur qui ne peut pas être modéré
  • Pages contenant des informations sensibles
  • Pages de recherche internes car il peut y avoir une quantité infinie de ces pages de résultats, ce qui offre une mauvaise expérience utilisateur et gaspille le budget d'exploration

Quand ne devriez-vous pas utiliser robots.txt?

Le fichier robots.txt est un outil utile lorsqu'il est utilisé correctement, cependant, il existe des cas où ce n'est pas la meilleure solution. Voici quelques exemples de cas où ne pas utiliser robots.txt pour contrôler l'exploration:

  1. Blocage de Javascript / CSS
    Les moteurs de recherche doivent pouvoir accéder à toutes les ressources de votre site pour afficher correctement les pages, ce qui est un élément nécessaire pour maintenir un bon classement. Les fichiers JavaScript qui modifient considérablement l'expérience utilisateur, mais qui ne sont pas autorisés à explorer par les moteurs de recherche, peuvent entraîner des pénalités manuelles ou algorithmiques.

Par exemple, si vous diffusez une annonce interstitielle ou redirigez des utilisateurs avec JavaScript auquel un moteur de recherche ne peut pas accéder, cela peut être considéré comme un camouflage et le classement de votre contenu peut être ajusté en conséquence.

  1. Blocage des paramètres d'URL
    Vous pouvez utiliser robots.txt pour bloquer les URL contenant des paramètres spécifiques, mais ce n'est pas toujours la meilleure solution. Il est préférable de les gérer dans la console de recherche Google, car il existe des options plus spécifiques aux paramètres pour communiquer les méthodes d'exploration préférées à Google.

Vous pouvez également placer les informations dans un fragment d'URL ( / page # sort = price ), car les moteurs de recherche ne l'explorent pas. De plus, si un paramètre d'URL doit être utilisé, les liens vers celui-ci peuvent contenir l'attribut rel = nofollow pour empêcher les robots d'exploration d'y accéder.

  1. Bloquer les URL avec des backlinks
    L'interdiction des URL dans le fichier robots.txt empêche l'équité des liens de passer au site Web. Cela signifie que si les moteurs de recherche ne peuvent pas suivre les liens d'autres sites Web car l'URL cible est interdite, votre site Web ne gagnera pas l'autorité que ces liens passent et, par conséquent, vous pourriez ne pas être aussi bien dans l'ensemble.

  2. Désindexation des pages indexées
    L'utilisation de Disallow ne permet pas de désindexer les pages, et même si l'URL est bloquée et que les moteurs de recherche n'ont jamais exploré la page, les pages non autorisées peuvent toujours être indexées. En effet, les processus d'analyse et d'indexation sont largement séparés.

  3. Définition de règles qui ignorent les robots des réseaux sociaux
    Même si vous ne souhaitez pas que les moteurs de recherche explorent et indexent les pages, vous souhaiterez peut-être que les réseaux sociaux puissent accéder à ces pages afin qu'un extrait de page puisse être créé. Par exemple, Facebook tentera de visiter chaque page publiée sur le réseau, afin de pouvoir diffuser un extrait pertinent. Gardez cela à l'esprit lorsque vous définissez des règles robots.txt.

  4. Bloquer l'accès aux sites de développement ou de développement
    L'utilisation du fichier robots.txt pour bloquer l'intégralité d'un site de transfert n'est pas la meilleure pratique. Google recommande de ne pas indexer les pages mais de permettre leur exploration, mais en général il vaut mieux rendre le site inaccessible du monde extérieur.

  5. Quand vous n'avez rien à bloquer
    Certains sites Web avec une architecture très propre n'ont pas besoin de bloquer les robots d'exploration des pages. Dans cette situation, il est parfaitement acceptable de ne pas avoir de fichier robots.txt et de renvoyer un état 404 à la demande.

Syntaxe et formatage de Robots.txt

Maintenant que nous avons appris ce qu'est le fichier robots.txt et quand il doit et ne doit pas être utilisé, examinons la syntaxe normalisée et les règles de formatage à respecter lors de l'écriture d'un fichier robots.txt.

Exemple de Robots.txt

commentaires
Les commentaires sont des lignes qui sont complètement ignorées par les moteurs de recherche et commencent par un #. Ils existent pour vous permettre d'écrire des notes sur ce que fait chaque ligne de votre robots.txt, pourquoi elle existe et quand elle a été ajoutée. En général, il est conseillé de documenter l'objectif de chaque ligne de votre fichier robots.txt, afin qu'il puisse être supprimé lorsqu'il n'est plus nécessaire et qu'il ne soit pas modifié tant qu'il est encore essentiel.

Spécification de l'agent utilisateur
Un bloc de règles peut être appliqué à des agents utilisateurs spécifiques à l'aide de la directive « User-agent ». Par exemple, si vous vouliez que certaines règles s'appliquent à Google, Bing et Yandex; mais pas Facebook et les réseaux publicitaires, cela peut être réalisé en spécifiant un jeton d'agent utilisateur auquel s'applique un ensemble de règles.

Chaque robot a son propre jeton d'agent utilisateur, qui est utilisé pour sélectionner les blocs correspondants.

Les robots suivront les règles d'agent utilisateur les plus spécifiques définies pour eux avec le nom séparé par des tirets, puis retomberont sur des règles plus génériques si aucune correspondance exacte n'est trouvée. Par exemple, Googlebot News recherchera une correspondance entre « googlebot-news », puis « googlebot », puis « * ».

Voici quelques-uns des jetons d'agent utilisateur les plus courants que vous rencontrerez:

Les règles s'appliquent à chaque bot, sauf s'il existe un ensemble de règles plus spécifique

  • Googlebot - Tous les robots d' exploration Google
  • Qwantbot - le robot d'exploration de Qwant crawler
  • Googlebot-News - Crawler pour Google News
  • Googlebot-Image - Crawler pour Google Images
  • Mediapartners-Google - Robot d'exploration Google Adsense
  • Bingbot - Le robot de Bing
  • Yandex - Le robot de Yandex
  • Baiduspider - Le robot de Baidu
  • Facebot - le robot d'exploration de Facebook
  • Twitterbot - le robot d'exploration de Twitter

Cette liste de jetons d'agent utilisateur n'est en aucun cas exhaustive, alors pour en savoir plus sur certains des robots d'exploration, jetez un œil à la documentation publiée par Google , Bing , Qwant, Yandex , Baidu , Facebook et Twitter.

La correspondance d'un jeton d'agent utilisateur avec un bloc robots.txt n'est pas sensible à la casse. Par exemple, «googlebot» correspondra au jeton d'agent utilisateur de Google «Googlebot».

URL de correspondance des modèles
Vous pouvez avoir une chaîne d'URL particulière que vous souhaitez empêcher d'explorer, car cela est beaucoup plus efficace que d'inclure une liste complète d'URL complètes à exclure dans votre fichier robots.txt.

Pour vous aider à affiner vos chemins d'URL, vous pouvez utiliser les symboles * et $. Voici comment ils fonctionnent:

Ceci est un caractère générique et représente n'importe quelle quantité de n'importe quel caractère. Il peut être au début ou au milieu d'un chemin URL, mais n'est pas obligatoire à la fin. Vous pouvez utiliser plusieurs caractères génériques dans une chaîne d'URL, par exemple, « Interdire: * / produits? * Sort = ». Les règles avec des chemins d'accès complets ne doivent pas commencer par un caractère générique.
$ - Ce caractère signifie la fin d'une chaîne d'URL, donc " Interdire: * / dress $ " ne correspondra qu'aux URL se terminant par " / dress ", et non à " / dress? Parameter ". Il convient de noter que les règles robots.txt sont sensibles à la casse, ce qui signifie que si vous interdisez les URL avec le paramètre « recherche » (par exemple, « Interdire: *? Search = »), les robots peuvent toujours analyser les URL avec des majuscules différentes, telles que « ? Search = n'importe quoi ».

Les règles de directive correspondent uniquement aux chemins URL et ne peuvent pas inclure de protocole ou de nom d'hôte. Une barre oblique au début d'une directive correspond au début du chemin URL. Par exemple, « Interdire: / démarre » correspondrait à www.example.com/starts.

Sauf si vous ajoutez un début une correspondance de directive avec un / ou * , il ne correspondra à rien. Par exemple, « Interdire: commence » ne correspondra jamais à rien.

Pour vous aider à visualiser le fonctionnement des différentes règles d'URL, nous avons rassemblé quelques exemples pour vous:

Exemples de règles Robots.txt

Lien vers le plan du site Robots.txt
La directive sitemap dans un fichier robots.txt indique aux moteurs de recherche où trouver le sitemap XML, ce qui les aide à découvrir toutes les URL sur le site Web. Pour en savoir plus sur les plans de site, consultez notre guide sur les audits de plan de site et la configuration avancée.

Lorsque vous incluez des sitemaps dans un fichier robots.txt, vous devez utiliser des URL absolues (ie https://www.example.com/sitemap.xml) au lieu d'URL relatives (ie /sitemap.xml. ) Il convient également de noter que les sitemaps ne pas besoin de s'asseoir sur un domaine racine, ils peuvent également être hébergés sur un domaine externe.

Les moteurs de recherche découvriront et pourront explorer les plans de site répertoriés dans votre fichier robots.txt, cependant, ces plans de site n'apparaîtront pas dans la Google Search Console ou les outils Bing Webmaster sans soumission manuelle.

Blocs Robots.txt

La règle «interdire» dans le fichier robots.txt peut être utilisée de différentes manières pour différents agents utilisateurs. Dans cette section, nous allons couvrir certaines des différentes façons dont vous pouvez formater des combinaisons de blocs.

Il est important de se rappeler que les directives du fichier robots.txt ne sont que des instructions. Les robots d'exploration malveillants ignoreront votre fichier robots.txt et exploreront toute partie de votre site qui est publique, donc l'interdiction ne doit pas être utilisée à la place de mesures de sécurité robustes.

Plusieurs blocs User-agent Vous pouvez associer un bloc de règles à plusieurs agents utilisateurs en les répertoriant avant un ensemble de règles, par exemple, les règles de refus suivantes s'appliqueront à la fois à Googlebot et à Bing dans le bloc de règles suivant:

User-agent: googlebot
User-agent: bing
Interdire: / a
Espacement entre les blocs de directives
Google ignorera les espaces entre les directives et les blocs. Dans ce premier exemple, la deuxième règle sera récupérée, même s'il existe un espace séparant les deux parties de la règle:

User-agent: *
Interdire: / interdit / Interdire: / test1 / robots_excluded_blank_line
Dans ce deuxième exemple, Googlebot-mobile hériterait des mêmes règles que Bingbot:

User-agent: googlebot-mobile User-agent: bing Disallow: / test1 / qwanturank_excluded

Blocs séparés combinés Plusieurs blocs avec le même agent utilisateur sont combinés. Ainsi, dans l'exemple ci-dessous, les blocs supérieur et inférieur seraient combinés et Googlebot ne serait pas autorisé à explorer " / b " et " / a ".

User-agent: googlebot
Interdire: / b User-agent: bing
Interdire: / a User-agent: googlebot
Interdire: / a

Robots.txt Allow
La règle «allow» de robots.txt autorise explicitement l'exploration de certaines URL. Bien qu'il s'agisse de la valeur par défaut pour toutes les URL, cette règle peut être utilisée pour remplacer une règle d'interdiction. Par exemple, si " / locations " n'est pas autorisé, vous pouvez autoriser l'exploration de " / locations / londres " en ayant la règle spécifique " Autoriser: / locations / londres ".

Hiérarchisation Robots.txt
Lorsque plusieurs règles d'autorisation et de refus s'appliquent à une URL, la règle de correspondance la plus longue est celle qui est appliquée. Voyons ce qui se passerait pour l'URL « / home / search / shirts » avec les règles suivantes:

Interdire: / accueil
Autoriser: * rechercher / *
Interdire: * chemises
Dans ce cas, l'URL est autorisée à être explorée car la règle Autoriser a 9 caractères, tandis que la règle d'interdiction n'en a que 7. Si vous avez besoin d'un chemin URL spécifique pour être autorisé ou interdit, vous pouvez utiliser * pour allonger la chaîne. Par exemple:

Interdire: ******************* / chemises
Lorsqu'une URL correspond à la fois à une règle d'autorisation et à une règle d'interdiction, mais que les règles ont la même longueur, l'interdiction est suivie. Par exemple, l'URL « / search / shirts » sera interdite dans le scénario suivant:

Interdire: / rechercher
Autoriser: * chemises

Directives Robots.txt

Les directives au niveau de la page (que nous aborderons plus loin dans ce guide) sont d'excellents outils, mais le problème avec elles est que les moteurs de recherche doivent explorer une page avant de pouvoir lire ces instructions, ce qui peut consommer un budget d'exploration.

Les directives Robots.txt peuvent aider à réduire la pression sur le budget d'exploration car vous pouvez ajouter des directives directement dans votre fichier robots.txt plutôt que d'attendre que les moteurs de recherche explorent les pages avant de prendre des mesures à leur sujet. Cette solution est beaucoup plus rapide et plus facile à gérer.

Les directives robots.txt suivantes fonctionnent de la même manière que les directives allow et disallow, en ce que vous pouvez spécifier des caractères génériques ( * ) et utiliser le symbole $ pour indiquer la fin d'une chaîne d'URL.

Robots.txt NoIndex Robots.txt noindex est un outil utile pour gérer l'indexation des moteurs de recherche sans utiliser de budget d'exploration. Ne pas autoriser une page dans le fichier robots.txt ne signifie pas qu'elle est supprimée de l'index, la directive noindex est donc beaucoup plus efficace à utiliser à cette fin.

Google ne prend pas officiellement en charge le fichier robots.txt noindex, et vous ne devriez pas vous y fier, car bien qu'il fonctionne aujourd'hui, il se peut qu'il ne le fasse pas demain. Cet outil peut cependant être utile et doit être utilisé comme un correctif à court terme en combinaison avec d'autres contrôles d'index à plus long terme, mais pas comme une directive critique. Jetez un œil aux tests effectués par ohgm et Stone Temple qui prouvent tous les deux que la fonctionnalité fonctionne efficacement.

Voici un exemple d'utilisation de robots.txt noindex:

Agent utilisateur: *
NoIndex: / répertoire
NoIndex: / *? * sort =

En plus de noindex, Google obéit actuellement officieusement à plusieurs autres directives d'indexation lorsqu'elles sont placées dans le fichier robots.txt. Il est important de noter que tous les moteurs de recherche et robots d'exploration ne prennent pas en charge ces directives, et ceux qui le font peuvent cesser de les prendre en charge à tout moment - vous ne devriez pas vous fier à ces dernières de manière cohérente.

Problèmes courants de Robots.txt

Il existe certains problèmes et considérations clés pour le fichier robots.txt et l'impact qu'il peut avoir sur les performances d'un site. Nous avons pris le temps d'énumérer certains des points clés à considérer avec robots.txt ainsi que certains des problèmes les plus courants que vous pouvez, espérons-le, éviter.

Avoir un bloc de règles de secours pour tous les bots - L'utilisation de blocs de règles pour des chaînes d'agent utilisateur spécifiques sans avoir de bloc de règles de secours pour tous les autres bots signifie que votre site Web finira par rencontrer un bot qui n'a aucun ensemble de règles à suivre.

Il est important que le fichier robots.txt soit tenu à jour - Un problème relativement courant se produit lorsque le fichier robots.txt est défini pendant la phase de développement initiale d'un site Web, mais n'est pas mis à jour au fur et à mesure que le site Web grandit, ce qui signifie que les pages potentiellement utiles sont refusée. Soyez conscient de la redirection des moteurs de recherche via des URL non autorisées - Par exemple, / produit > / non autorisé > / catégorie La sensibilité à la casse peut causer beaucoup de problèmes - Les webmasters peuvent s'attendre à ce qu'une section d'un site Web ne soit pas explorée, mais ces pages peuvent être explorées en raison de casse alternatives, par exemple «Interdire: / admin» existe, mais les moteurs de recherche explorent « / ADMIN ». Ne pas interdire les URL backlinked - Cela empêche le PageRank de circuler vers votre site à partir d'autres liens vers vous.

Le délai d' exploration peut entraîner des problèmes de recherche - La directive " délai d'exploration " force les robots d' exploration à visiter votre site Web plus lentement qu'ils ne l'auraient souhaité, ce qui signifie que vos pages importantes peuvent être explorées moins souvent qu'optimal. Cette directive n'est pas respectée par Google ou Baidu, mais est prise en charge par Bing et Yandex.

Assurez-vous que le fichier robots.txt ne renvoie un code d'état 5xx que si l'ensemble du site est en panne - Le renvoi d' un code d'état 5xx pour /robots.txt indique aux moteurs de recherche que le site Web est en panne pour maintenance. Cela signifie généralement qu'ils essaieront d'explorer le site Web à nouveau plus tard. L'interdiction de Robots.txt remplace l'outil de suppression de paramètres - Gardez à l'esprit que vos règles robots.txt peuvent remplacer la gestion des paramètres et tout autre indice d'indexation que vous pourriez avoir donné aux moteurs de recherche. Le balisage de la zone de recherche de liens annexes fonctionnera avec les pages de recherche internes bloquées - Les pages de recherche internes d'un site n'ont pas besoin d'être explorables pour que le balisage de la zone de recherche de liens annexes fonctionne. La désactivation d'un domaine migré aura un impact sur le succès de la migration - Si vous refusez un domaine migré, les moteurs de recherche ne pourront suivre aucune des redirections de l'ancien site vers le nouveau, il est donc peu probable que la migration soit un succès.

Test et audit Robots.txt

Considérant à quel point un fichier robots.txt peut être dangereux si les directives qu'il contient ne sont pas gérées correctement, il existe plusieurs façons de le tester pour vous assurer qu'il a été correctement configuré. Jetez un œil à ce guide sur la façon d'auditer les URL bloquées par robots.txt , ainsi que ces exemples:

Utiliser qwanturank - Les rapports Pages interdites et URL non autorisées (non analysées) peuvent vous indiquer quelles pages sont bloquées des moteurs de recherche par votre fichier robots.txt.
Utiliser Google Search Console - Avec l' outil de test GSC robots.txt, vous pouvez voir la dernière version mise en cache d'une page, ainsi que l'utilisation de l'outil Fetch and Render pour voir les rendus de l'agent utilisateur Googlebot ainsi que de l'agent utilisateur du navigateur. À noter: GSC ne fonctionne que pour les agents utilisateurs de Google et seules les URL uniques peuvent être testées.
Essayez de combiner les informations des deux outils en vérifiant les URL interdites que qwanturank a signalées dans l'outil de test GSC robots.txt pour clarifier les règles spécifiques qui entraînent un refus.

Surveillance des modifications de Robots.txt

Lorsqu'il y a beaucoup de personnes travaillant sur un site, et avec les problèmes qui peuvent survenir si même un personnage n'est pas à sa place dans un fichier robots.txt, la surveillance constante de votre robots.txt est cruciale. Voici quelques façons de vérifier les problèmes:

Consultez Google Search Console pour voir le fichier robots.txt actuel que Google utilise. Parfois, robots.txt peut être fourni sous condition en fonction des agents utilisateurs, c'est donc la seule méthode pour voir exactement ce que Google voit. Vérifiez la taille du fichier robots.txt si vous avez remarqué des changements importants pour vous assurer qu'il se trouve sous la limite de taille de 500 Ko de Google. Accédez au rapport État de l'index de la Google Search Console en mode avancé pour vérifier par recoupement les modifications de robots.txt avec le nombre d'URL interdites et autorisées sur votre site. Planifiez des analyses régulières avec qwanturank pour voir le nombre de pages non autorisées sur votre site de manière continue, afin de pouvoir suivre les modifications.

Du point de vue d'un utilisateur, les moteurs de recherche sont un miracle des temps modernes. Vous tapez une requête dans une zone de recherche et, dans la plupart des cas, les résultats du Web sont triés et classés en millisecondes. Les moteurs de recherche populaires comme Qwant ont même commencé à répondre à certaines requêtes directement dans les résultats de recherche, ce qui permet d'économiser du temps et des clics.

Mais comment fonctionnent les moteurs de recherche comme Qwant, et pourquoi s'en soucier?

  • Qu'est-ce qu'un moteur de recherche
  • Comment fonctionnent les moteurs de recherche
  • Que font les algorithmes des moteurs de recherche
  • Fonctionnement de Qwant (explication non technique)
  • Comment l'algorithme de recherche de Qwant fonctionne
  • Pourquoi l'algorithme de Qwant est important si vous avez un site Web

Qu'est-ce qu'un moteur de recherche?

Un moteur de recherche se compose de deux éléments principaux: une base de données d'informations et des algorithmes qui calculent les résultats à renvoyer et à classer pour une requête donnée.

Dans le cas des moteurs de recherche Web comme Qwant, la base de données se compose de milliers de milliards de pages Web et les algorithmes examinent des centaines de facteurs pour fournir les résultats les plus pertinents.

Comment fonctionnent les moteurs de recherche?

Les moteurs de recherche fonctionnent en prenant une liste d'URL connues, qui vont ensuite au planificateur. Le planificateur décide quand analyser chaque URL. Les pages explorées vont ensuite à l' analyseur où les informations vitales sont extraites et indexées. Les liens analysés vont au planificateur , qui priorise leur exploration et leur nouvelle analyse.

Lorsque vous recherchez quelque chose, les moteurs de recherche renvoient des pages correspondantes et les algorithmes les classent par pertinence.

Nous aborderons les algorithmes de classement sous peu. Tout d'abord, approfondissons les mécanismes utilisés pour créer et maintenir un index Web pour nous assurer de comprendre comment ils fonctionnent. Ce sont la planification , l' exploration , l' analyse, et l' indexation.

Ce processus ne s'applique qu'aux moteurs de recherche Web comme Qwant, Google, Bing et DuckDuckGo. Il existe d'autres types de moteurs de recherche comme Amazon, YouTube et Wikipedia qui affichent uniquement les résultats de leur site Web. Ordonnancement Le planificateur évalue l'importance relative des URL nouvelles et connues. Il décide ensuite quand analyser de nouvelles URL et à quelle fréquence ré-analyser les URL connues.

Le robot est un programme informatique qui télécharge des pages Web. Les moteurs de recherche découvrent de nouveaux contenus en ré-explorant régulièrement les pages connues où de nouveaux liens sont souvent ajoutés au fil du temps.

Par exemple, chaque fois que nous publions un nouveau billet de blog, il est poussé en haut de la page d'accueil de notre blog, où il y a un lien. Lorsqu'un moteur de recherche comme Qwant réanalyse cette page, il télécharge le contenu de la page avec les liens récemment ajoutés.

Le robot transmet ensuite la page Web téléchargée à l' analyseur.

L'analyse n'implique pas de «suivre» les liens d'une page à l'autre, comme le croient de nombreuses personnes. Analyse L' analyseur extrait des liens de la page, ainsi que d'autres informations clés. Il envoie ensuite les URL extraites au planificateur et les données extraites pour l' indexation.

L' indexation est l' endroit où analysable informations de analysées pages est ajouté à une base de données appelée une recherche index.

Considérez cela comme une bibliothèque numérique d'informations sur des milliards de pages Web.

Qu'est-ce qu'un algorithme de moteur de recherche?

Découvrir et indexer le contenu n'est que la première partie du puzzle. Les moteurs de recherche ont également besoin d'un moyen de classer les résultats correspondants lorsqu'un utilisateur effectue une recherche. C'est le travail des algorithmes des moteurs de recherche.

Chaque moteur de recherche possède des algorithmes uniques pour classer les pages Web. Mais comme Qwant est de loin le moteur de recherche le plus utilisé (du moins dans le monde occidental), c'est celui sur lequel nous allons nous concentrer dans le reste de ce guide.

Comment fonctionne Qwant ?

Qwant fonctionne de la même manière que décrit ci-dessus. Il explore le Web et indexe le contenu qu'il trouve. Ensuite, lorsque vous recherchez quelque chose, il trouve des résultats correspondants et les classe par ordre de pertinence en une fraction de seconde.

Qwant fonctionne si bien comme moteur de recherche pour trois raisons:

Tout d'abord , ils explorent et ré-explorent le Web à une échelle plus grande que quiconque. Cela leur a permis de construire et de maintenir l'indice le plus grand et le plus frais de la planète.

Deuxièmement , ils ont investi massivement dans des modèles de langage qui leur permettent de comprendre la véritable signification même des requêtes les plus obscures ou incorrectes.

Par exemple, ils comprennent que si vous recherchez « resto italien » , vous vouliez dire « restaurant italien ».

correction de recherche Qwant

Au-delà de cela, ils comprennent également les synonymes.

C'est pourquoi lorsque vous recherchez «comment gagner de l'argent en ligne», vous voyez des synonymes en gras comme «gagner» et «argent» dans les résultats.

synonymes recherche Qwant

Ils sont si bons dans ce domaine que certains résultats de recherche ne mentionnent même pas la requête de recherche exacte.

aucun mot clé sur la page

Ici, Qwant comprend que «gagner de l'argent supplémentaire en ligne» signifie la même chose que «gagner de l'argent en ligne» et qu'il s'agit d'un résultat pertinent pour la requête de recherche.

Troisièmement , et surtout, leurs algorithmes de classement renvoient sans doute les résultats les plus pertinents de tous les moteurs de recherche.

Fonctionnement des algorithmes de recherche de Qwant

Qwanturank examine des centaines de facteurs pour trouver et classer le contenu pertinent. Personne ne sait ce que tout cela est, mais nous connaissons les principaux.

Qwant déclare que lorsqu'une page Web contient les mêmes mots clés que la requête de recherche, en particulier dans des positions importantes comme les en-têtes, c'est un signe de pertinence.

Mais cette idée n'est pas infaillible, c'est pourquoi Qwant recherche également la présence d'autres mots pertinents sur la page.

Voici comment Qwant l'explique :

Pensez-y: lorsque vous recherchez «chiens», vous ne voulez probablement pas d'une page contenant le mot «chiens» des centaines de fois. Dans cet esprit, les algorithmes évaluent si une page contient un autre contenu pertinent au-delà du mot-clé «chiens» - comme des photos de chiens, des vidéos ou même une liste de races.

Pour donner un autre exemple, supposons que vous ayez un article sur «comment obtenir un permis de conduire». Il devrait probablement contenir des sous-sections sur les licences pour les voitures, les motos et les bus, et mentionner des mots et des expressions comme route , conduite , permis , examen , sécurité et licence à privilèges complets.

La présence de mots et d'expressions similaires comme ceux-ci contribue probablement à accroître la confiance de Qwant que votre page correspond à ce qu'elle dit.

Pour donner un autre exemple, imaginez que vous souhaitez créer une liste des meilleurs acteurs.

Regardez l'un des résultats sur la première page et vous remarquerez quelque chose d'intéressant: ils mentionnent presque tous des gens comme Robert De Niro, Jack Nicholson et Meryl Streep.

La mention de ces personnes ou entités sur votre page peut aider à accroître la confiance de Qwant que la page est un résultat pertinent pour des requêtes telles que "les meilleurs acteurs".

Intention de recherche

Qwant sait que les gens effectuent des recherches pour une raison et que la compréhension de cette raison les aide à renvoyer de meilleurs résultats de recherche et crée des utilisateurs plus satisfaits.

En d'autres termes, ils travaillent dur pour classer le contenu que les utilisateurs s'attendent à voir.

C'est pourquoi tous les meilleurs résultats pour «iPhone X unboxing» sont des vidéos…

recherche unboxing iphone x

… Alors que les résultats pour «iPhone X box» sont des images et des listes de produits:

Qwant comprend que malgré l'utilisation d'un langage similaire, l' intention derrière ces recherches est entièrement différente. Ils travaillent dur pour fournir des résultats correspondant au style de contenu, au type de contenu, au format de contenu et à l'angle de contenu que les utilisateurs souhaitent voir.

Ceux-ci sont connus comme les 4 C de l'intention de recherche.

Style de contenu

Le style de contenu peut être divisé en trois compartiments: vidéos, images et contenu textuel.

Pour la plupart des requêtes, le style de contenu dominant et le plus souhaitable dans les résultats est assez clair. Pour d'autres, comme les «roses roses», Qwant comprend que l'intention est mitigée et affiche plusieurs styles de contenu.

Type de contenu

Le type de contenu appartient généralement à l'un des quatre compartiments: articles de blog, produit, catégorie et pages de destination.

Par exemple, tous les résultats pour «comment démarrer un blog» sont des articles de blog.

Format de contenu

Le format de contenu s'applique principalement aux articles de blog, aux vidéos et aux pages de destination. Pour les articles de blog, les styles courants sont les «procédures», la liste des articles, des didacticiels, des articles d'opinion et des articles de presse.

Tous les résultats des «conseils de blogging» sont des articles de liste.

Pour les pages de destination, le format peut être une calculatrice ou un outil interactif.

Angle de contenu

L'angle de contenu fait référence au principal argument de vente du contenu. Pour la plupart des requêtes, il y a un angle dominant dans les résultats de recherche.

Par exemple, la plupart des résultats de haut niveau pour les «conseils de blogging» sont axés sur les débutants.

Qwant ne classe pas les listes de conseils avancés ici, car ce n'est pas ce que les chercheurs veulent voir.

Lecture recommandée: Intention de recherche: le `` facteur de classement '' négligé que vous devriez optimiser en 2019

Fraîcheur

Qwant sait que la fraîcheur des résultats importe plus pour certaines recherches que pour d'autres.

Par exemple, une requête comme «Quoi de neuf sur Netflix» nécessite des résultats ultra-récents parce que les chercheurs veulent connaître les films et les émissions de télévision récemment ajoutés à la plate-forme de streaming vidéo. Par conséquent, Qwant donne la priorité aux résultats de recherche qui ont été publiés ou mis à jour très récemment.

Pour les requêtes comme «les meilleurs écouteurs», la fraîcheur importe toujours, mais pas autant. En d'autres termes, une liste de 2015 ne devrait pas être très utile car la technologie des écouteurs évolue rapidement. Cela ne bouge pas si vite qu'un article publié le mois dernier n'est plus utile.

Qwant le sait et affiche des résultats qui ont été mis à jour ou publiés au cours des derniers mois.

Il existe également des requêtes où la fraîcheur des résultats est généralement hors de propos, comme «comment lier une cravate». Rien n'a changé à propos de ce processus depuis des décennies ( ou l'a-t-il? ), Donc peu importe si les résultats de la recherche proviennent de hier ou 1998. Qwant le sait et n'hésite pas à classer un résultat de 2013 en deuxième position.

Qualité du contenu

Qwant souhaite classer le contenu de haute qualité au-dessus du contenu de faible qualité. Le problème est que la qualité du contenu est objectivement délicate à cerner, donc Qwant examine quelque chose appelé E-AT pour tenter de le faire.

Que signifie E-AT?

  • Expertise
  • Authority
  • Trustworthiness

Voici comment E ‑ AT fonctionne en bref:

Disons que vous recherchez «comment écrire une chanson». Étant donné le choix, vous préféreriez presque certainement lire quelque chose de Beyonce que moi. Pourquoi? Parce que Beyonce est un expert en composition de chansons et une figure d' autorité en qui vous avez confiance pour donner des conseils utiles sur le sujet.

Maintenant, même si E ‑ AT est important pour toutes les requêtes, il est crucial pour ce que Qwant aime appeler les recherches YMYL ou Your Money or Your Life.

Qwant dit que les requêtes YMYL sont celles qui pourraient potentiellement affecter le bonheur, la santé, la stabilité financière ou la sécurité d'une personne.

Par exemple, prenez une requête comme «dosage sûr d'ibuprofène?»

Dans ce cas, le renvoi de résultats qui ne démontrent pas l'E-AT pourrait avoir des conséquences potentiellement mortelles. Si une page est inexacte, elle ne devrait pas apparaître dans les résultats de recherche, quelle que soit sa pertinence actuelle.

Cela dit, le contenu lui-même n'est pas la seule chose qui influence E-AT. Des choses comme les backlinks pointant vers la page sont également importantes.

Considérez les backlinks comme des votes provenant d'autres sites Web. Quand quelqu'un établit un lien vers une page, il se porte garant de ce contenu et le recommande à ses lecteurs.

C'est probablement pourquoi la plupart des études à grande échelle montrent une corrélation claire entre les backlinks et les classements, y compris notre étude de 920 millions de pages :

domaines référents vs trafic de recherche organique ahrefs content explorer 2 Résultats de notre étude de ~ 920 millions de pages Web.

Cela dit, il est important de noter que tous les backlinks ne sont pas créés égaux. La pertinence et l' autorité du site Web et de la page Web de liaison sont également importantes.

Par exemple, disons que vous avez un article sur le démarrage d'une entreprise. Qwant accordera plus de poids à un backlink du guide de la Small Business Administration sur le financement de votre entreprise qu'à un similaire provenant d'un post sur le site blogspot de votre ami sur ce qu'il a fait le week-end dernier.

Convivialité

Qwant veut classer les pages Web qui rendent leurs utilisateurs heureux, et cela va au-delà du retour de résultats pertinents. Le contenu doit également être accessible et facile à consommer.

Il y a quelques facteurs de classement confirmés qui aident à cela.

Vitesse de page

Personne n'aime attendre le chargement des pages, et Qwant le sait. C'est pourquoi ils ont fait de la vitesse des pages un facteur de classement pour les recherches sur ordinateur en 2010 , puis pour les recherches sur mobile en 2018.

Convivialité mobile

65% des recherches Qwant ont lieu sur des appareils mobiles , ce qui explique pourquoi la convivialité mobile est un facteur de classement pour les recherches mobiles depuis 2015.

Et, depuis juillet 2019, la convivialité mobile est également un facteur de classement pour les recherches sur ordinateur grâce au passage de Qwant à « l'indexation mobile d'abord ». Cela signifie que Qwant «utilise principalement la version mobile du contenu pour l'indexation et le classement» sur tous les appareils..

Personnalisation

Qwant déclare que "des informations telles que votre position, l'historique des recherches passées et les paramètres de recherche nous aident tous à adapter vos résultats à ce qui est le plus utile et le plus pertinent pour vous à ce moment-là".

Par exemple, une recherche du «meilleur restaurant mexicain» utilise votre position pour renvoyer les résultats locaux, même en dehors du «pack de cartes».

meilleur pack de carte de restaurant mexicain

Cela se produit parce que Qwant sait que vous n'allez pas voler à l'autre bout du monde pour le déjeuner.

C'est une histoire similaire pour une requête comme «acheter une maison». Qwant renvoie des pages avec des listes locales par opposition aux pages nationales, car il est probable que vous ne cherchiez pas à déménager dans un autre pays.

acheter une maison résultats

La langue est un autre facteur important. Après tout, il est inutile de montrer les résultats en anglais aux utilisateurs espagnols. C'est pourquoi Qwant classe la version anglaise de notre tutoriel SEO dans les pays où la langue dominante est l'anglais et la version espagnole dans les pays où la langue dominante est l'espagnol.

Lecture recommandée: Hreflang: le guide facile pour les débutants

Pourquoi devriez-vous vous soucier du fonctionnement de Qwant?

Savoir comment Qwant trouve et classe le contenu améliore votre capacité à créer des pages qui apparaissent dans les résultats de recherche. Si vous vous rendez aveugle sans comprendre ce que Qwant apprécie, ni même comment il découvre le contenu, vos chances de classement sont minces.

Faire des efforts pour se classer plus haut dans Qwant est connu sous le nom d' optimisation de moteur de recherche ( SEO ).

Le référencement est une priorité pour de nombreuses entreprises car:

Le trafic est «libre» des efforts de référencement ; Le trafic est constant mois après mois (tant que vous pouvez conserver les classements); Il offre la possibilité d'atteindre un large public dans certains cas. Chez Ahrefs, nous investissons massivement dans le référencement depuis quelques années, et nous recevons désormais près de 600 000 visites de Qwant chaque mois.

Vous souhaitez en savoir plus sur le référencement ? Lisez notre tutoriel SEO en 7 étapes ou regardez la vidéo ci-dessous.

Dernières pensées

Beaucoup de gens poursuivent les algorithmes des moteurs de recherche, recherchant continuellement des failles qui leur permettent de se classer avec une relative facilité. Bien que cela fonctionne parfois pendant une courte période, cela fonctionne rarement à long terme et peut même entraîner une sanction Qwant redoutée.

La clé du classement à long terme est de se concentrer sur la création de contenu qui fournit les meilleures informations pour le mot clé cible et la meilleure expérience utilisateur.

En d'autres termes, créez du contenu principalement pour les utilisateurs, pas pour les moteurs de recherche.