Google peut voir les pages Web comme des doublons si les URL sont trop similaires

Google utilise une méthode prédictive pour détecter le contenu en double basé sur des modèles d’URL, ce qui pourrait conduire à des pages incorrectement identifiées comme des doublons.

Afin d’éviter une exploration et une indexation inutiles, Google essaie de prédire quand les pages peuvent contenir un contenu similaire ou dupliqué en fonction de leurs URL.

Lorsque Google explore des pages avec des modèles d’URL similaires et constate qu’elles contiennent le même contenu, il peut alors déterminer que toutes les autres pages avec ce modèle d’URL ont également le même contenu.

Malheureusement pour les propriétaires de sites, cela pourrait signifier que les pages avec un contenu unique sont annulées comme doublons car elles ont le même modèle d’URL que les pages qui sont de véritables doublons. Ces pages seraient alors exclues de l’index de Google.

Ce sujet est discuté lors du hangout SEO de Google Search Central enregistré le 5 mars. Le propriétaire du site, Ruchit Patel, interroge Mueller sur son site Web d’événement où des milliers d’URL ne sont pas indexées correctement.

L’une des théories de Mueller expliquant pourquoi cela se produit est due à la méthode prédictive utilisée pour détecter le contenu dupliqué.

Continuer la lecture ci-dessous

Lisez la réponse de Mueller dans la section ci-dessous.

John Mueller de Google sur la prédiction du contenu dupliqué

Google a plusieurs niveaux de détermination du moment où les pages Web ont un contenu en double.

L’un d’eux consiste à regarder directement le contenu de la page et l’autre à prédire le moment où les pages sont dupliquées en fonction de leurs URL.

«Ce qui a tendance à se produire de notre côté, c’est que nous essayons de comprendre à plusieurs niveaux quand il y a du contenu en double sur un site. Et la première est que lorsque nous regardons le contenu de la page directement et que nous voyons en quelque sorte, eh bien, cette page a ce contenu, cette page a un contenu différent, nous devrions les traiter comme des pages séparées.

L’autre chose est une sorte d’approche prédictive plus large que nous avons où nous examinons la structure URL d’un site Web où nous voyons, eh bien, dans le passé, lorsque nous avons examiné les URL qui ressemblent à ceci, nous les avons vues ont le même contenu que des URL comme celle-ci. Ensuite, nous allons essentiellement apprendre ce modèle et dire que les URL qui ressemblent à ceci sont les mêmes que les URL qui ressemblent à ceci. «

Continuer la lecture ci-dessous

Mueller poursuit en expliquant que la raison pour laquelle Google fait cela est de conserver les ressources en matière d’exploration et d’indexation.

Lorsque Google pense qu’une page est une version dupliquée d’une autre page parce qu’elle a une URL similaire, il n’explore même pas ladite page pour voir à quoi ressemble vraiment le contenu.

«Même sans regarder les URL individuelles, nous pouvons parfois dire, eh bien, nous nous épargnerons une partie de l’exploration et de l’indexation et nous nous concentrerons simplement sur ces cas de duplication supposés ou très probables. Et j’ai vu cela se produire avec des choses comme les villes.

J’ai vu cela se produire avec des choses comme, je ne sais pas, les automobiles en est un autre où nous avons vu cela se produire, où essentiellement nos systèmes reconnaissent que ce que vous spécifiez comme nom de ville n’est pas si pertinent pour les URL réelles. Et généralement, nous apprenons ce type de modèle lorsqu’un site fournit une grande partie du même contenu avec des noms alternatifs. »

Mueller explique comment la méthode prédictive de Google pour détecter le contenu en double peut affecter les sites Web d’événements:

«Donc, avec un site événementiel, je ne sais pas si c’est le cas pour votre site Web, avec un site événementiel, il se peut que vous preniez une ville, et que vous preniez une ville qui est peut-être à un kilomètre, et les pages d’événements que vous montrez qu’il y a exactement les mêmes parce que les mêmes événements sont pertinents pour ces deux endroits.

Et vous prenez une ville à peut-être cinq kilomètres et vous montrez à nouveau exactement les mêmes événements. Et de notre côté, cela pourrait facilement se retrouver dans une situation où nous disons, eh bien, nous avons vérifié 10 URL d’événements, et ce paramètre qui ressemble à un nom de ville n’est en fait pas pertinent car nous en avons vérifié 10 et il a montré le même contenu.

Et c’est quelque chose où nos systèmes peuvent alors dire, eh bien, peut-être que le nom de la ville dans son ensemble n’est pas pertinent et que nous pouvons simplement l’ignorer.

Continuer la lecture ci-dessous

Que peut faire un propriétaire de site pour corriger ce problème?

Comme solution potentielle à ce problème, Mueller suggère de rechercher des situations dans lesquelles il existe des cas réels de contenu dupliqué et de limiter cela autant que possible.

«Donc, ce que j’essaierais de faire dans un cas comme celui-ci, c’est de voir si vous avez ce genre de situations où vous avez de forts chevauchements de contenu et d’essayer de trouver des moyens de limiter cela autant que possible.

Et cela pourrait être en utilisant quelque chose comme un rel canonique sur la page et en disant, eh bien, cette petite ville qui est juste à l’extérieur de la grande ville, je définirai le canonique sur la grande ville parce qu’elle montre exactement le même contenu.

Pour que chaque URL que nous explorons sur votre site Web et indexe, nous pouvons voir, eh bien, cette URL et son contenu sont uniques et il est important pour nous de garder toutes ces URL indexées.

Ou nous voyons des informations claires que cette URL que vous connaissez est censée être la même que celle-ci, vous avez peut-être configuré une redirection ou vous avez une configuration canonique relative là-bas, et nous pouvons simplement nous concentrer sur ces URL principales et toujours comprendre que l’aspect ville est essentiel pour vos pages individuelles. »

Continuer la lecture ci-dessous

Mueller n’aborde pas cet aspect du problème, mais il convient de noter qu’il n’y a pas de pénalité ou de signal de classement négatif associé au contenu dupliqué.

Tout au plus, Google n’indexera pas le contenu en double, mais il ne reflétera pas négativement sur le site dans son ensemble.

Écoutez la réponse de Mueller dans la vidéo ci-dessous: