Comment les moteurs de recherche répondent aux questions

Le but premier d’un moteur de recherche est d’aider les utilisateurs à accomplir une tâche (et, bien sûr, de vendre de la publicité).

Parfois, cette tâche peut impliquer l’acquisition d’informations complexes. Parfois, l’utilisateur a simplement besoin d’une seule réponse à une question.

Dans ce chapitre, vous apprendrez comment les moteurs de recherche déterminent la catégorie dans laquelle se trouve une requête et comment ils déterminent la réponse.

Comment les moteurs de recherche qualifient les types de requête

Des articles entiers, ou probablement des livres, pourraient être écrits sur cette seule question.

Mais nous allons essayer de résumer tout cela en quelques centaines de mots.

Pour ne rien gâcher, RankBrain n’a que peu ou pas de rôle à jouer ici.

Alors, que se passe-t-il réellement ?

La première étape du processus consiste à comprendre quelles informations sont demandées.

Autrement dit, il s’agit de classer la requête en trois catégories : qui, quoi, où, quand, pourquoi ou comment.

Cette classification peut avoir lieu indépendamment du fait que ces mots spécifiques soient ou non inclus dans la requête, comme illustré par :

CONTINUER LA LECTURE CI-DESSOUS

Donc, ce que nous voyons se produire ici, c’est deux choses :

Google a déterminé que l’intention première probable de l’utilisateur est de trouver une réponse à une question.
Google a déterminé que si ce n’est pas l’intention principale de l’utilisateur, les intentions secondaires sont probablement différentes.

Vous vous demandez peut-être comment les moteurs de recherche peuvent déterminer que l’utilisateur pose une question dans le deuxième exemple ci-dessus. Après tout, la question n’est pas intégrée dans la requête.

Et dans le premier exemple, comment déduisent-ils que l’utilisateur recherche des informations sur la météo dans leur région plutôt qu’en général.

CONTINUER LA LECTURE CI-DESSOUS

Il existe un certain nombre de systèmes qui se connectent et fournissent des données pour créer cet environnement. Il repose essentiellement sur les éléments suivants :

Requêtes canoniques

Nous avons tendance à considérer une requête comme une demande unique avec une réponse unique. Ce n’est pas le cas.

Lorsqu’une requête est lancée, s’il n’y a pas d’intention probable connue ou lorsque le moteur peut vouloir tester ses hypothèses, l’une des méthodes dont il dispose est la création de requêtes canoniques.

Google a décrit le processus dans un brevet délivré en 2016 intitulé « Evaluating Semantic Interpretations Of A Search Query » (lien vers mon analyse pour une lecture plus facile).

En bref, le problème est résumé dans l’image suivante :

Une seule requête avec de multiples significations possibles.

Dans le brevet, ils décrivent un processus par lequel toutes les interprétations possibles pourraient être utilisées pour produire un résultat. En bref, ils produiraient un ensemble de résultats pour les cinq requêtes.

Ils compareront les résultats des requêtes 204a, 204b, 204c et 204d avec les résultats de la requête 202. Celui de la série 204 qui correspond le plus étroitement à celui de 202 serait considéré comme l’intention probable.

À en juger par les résultats actuels, il semble que 204c ait gagné :

Ce qui aurait nécessité deux cycles de ce processus.

Le premier pour sélectionner les films, le second pour sélectionner quel film.

Et moins de personnes cliqueront sur un résultat de recherche à partir de cette page, plus le résultat sera considéré comme positif, ce qui est indiqué dans le brevet dans la déclaration :

« En utilisant les résultats de la recherche pour évaluer les différentes interprétations sémantiques, d’autres sources de données telles que les données de clics, les données spécifiques à l’utilisateur et d’autres qui sont utilisées pour produire les résultats de la recherche sont prises en compte sans qu’il soit nécessaire d’effectuer une analyse supplémentaire ».

CONTINUER LA LECTURE CI-DESSOUS

Par rapport au contexte du brevet, cela ne veut pas dire que le CTR est une mesure directe. En fait, cette déclaration est plus proche de ce que John Mueller a voulu dire lorsqu’il a répondu à une question sur l’utilisation de mesures par les utilisateurs par Google :

« … c’est quelque chose que nous regardons à travers des millions de requêtes différentes, et des millions de pages différentes, et nous voyons en général si cet algorithme va dans la bonne direction ou si cet algorithme va dans la bonne direction. »

Fondamentalement, ils ne l’utilisent pas seulement pour la réussite d’un seul résultat, ils l’utilisent pour juger de la réussite des SERP (y compris la mise en page) dans leur ensemble.

Appariement des neurones

Google utilise la correspondance neurale pour déterminer essentiellement les synonymes.

Fondamentalement, la mise en correspondance des neurones est un processus piloté par l’IA qui permet à Google (dans ce cas) de comprendre les synonymes à un très haut niveau.

Pour reprendre leur exemple, cela permet à Google de produire des résultats comme :

Vous pouvez voir que la question est de savoir pourquoi ma télévision semble étrange, ce que le système a reconnu comme une référence à « l’effet feuilleton ».

CONTINUER LA LECTURE CI-DESSOUS

La page de classement ne contient pas le mot « étrange ».

Voilà pour la densité des mots-clés.

Leurs systèmes d’IA recherchent des synonymes à un niveau très complexe pour comprendre quelles informations répondront à une intention, même lorsqu’elles ne sont pas spécifiquement demandées.

Similitudes de situation

Il existe toute une série d’exemples et de domaines dans lesquels le contexte situationnel entre en jeu, mais nous devons avant tout réfléchir à la manière dont l’intention de requête varie en fonction des conditions situationnelles.

Nous avons mentionné ci-dessus un brevet sur les systèmes qui créent des requêtes canoniques. L’idée de créer un modèle est incluse dans ce brevet.

Un modèle qui pourrait être utilisé pour d’autres requêtes similaires afin de démarrer le processus plus rapidement.

Ainsi, s’il a fallu des ressources pour déterminer que lorsqu’une personne entre un seul mot qui a tendance à avoir un contexte large, elle veut probablement une définition, elle peut l’appliquer de manière plus universelle, ce qui donne des résultats comme :

Et à partir de là, on commence à chercher des modèles d’exceptions, comme la nourriture.

CONTINUER LA LECTURE CI-DESSOUS

Et en parlant de nourriture, cela me conforte dans l’idée (et je pense que c’est logique) qu’il est aussi très probable que les moteurs utilisent des volumes de recherche.

Si plus de gens cherchent des restaurants que des recettes pour un terme comme « pizza », je pense qu’on peut dire sans risque de se tromper qu’ils utiliseraient cela comme mesure et qu’ils sauraient que si un produit alimentaire ne suit pas ce modèle, alors le modèle pourrait ne pas s’appliquer.

Ensembles de semences

Sur la base de modèles, je pense qu’il est très probable, voire certain, que des ensembles de données de base soient utilisés.

Des scénarios où les moteurs entraînent des systèmes basés sur la compréhension du monde réel de ce que les gens veulent, programmés par des ingénieurs, et des modèles sont générés.

Dave s’est assis au Googleplex, il voulait de la pizza, a cherché sur Google [pizza]a obtenu une liste des 10 premiers, a pensé, « c’est idiot ». et a commencé à travailler avec l’équipe sur un modèle.

Je n’ai rien lu sur les jeux de semences dans ce contexte, mais cela a du sens et existe certainement.

CONTINUER LA LECTURE CI-DESSOUS

Interactions passées

Les moteurs de recherche vérifieront si leur compréhension d’une intention est correcte en plaçant un résultat dans une mise en page applicable et en voyant ce que font les utilisateurs.

Dans notre contexte ci-dessus, si une intention possible de la requête « quel temps fait-il » est que je cherche une réponse à une question, ils testeront cette hypothèse.

Il semble qu’à grande échelle, c’est une réponse que les gens veulent.

Quel est le rapport avec la réponse aux questions ?

Excellente question.

Pour comprendre comment Google répond aux questions, nous devions d’abord comprendre comment ils peuvent rassembler les données pour savoir si une requête est une question.

Bien sûr, c’est facile quand il s’agit de savoir qui, quoi, où, quand, pourquoi ou comment.

Mais nous devons réfléchir à la façon dont ils savent qu’une requête comme « météo » ou « mème » est une requête pour une information spécifique.

Il s’agit d’une requête Five Ws sans aucun Ws (ou un H d’ailleurs).

CONTINUER LA LECTURE CI-DESSOUS

Une fois que cela est établi en combinant l’interconnexion des techniques évoquées ci-dessus (et je suis sûr que j’en ai raté quelques-unes), il ne reste plus qu’à trouver la réponse.

Ainsi, un utilisateur a saisi un seul mot et le moteur a fait le tour de ses nombreuses possibilités pour établir qu’il s’agit probablement d’une demande de réponse spécifique. Il lui reste maintenant à déterminer quelle est cette réponse.

Pour cela, je vous recommande de commencer par lire ce que John Mueller a à dire sur les bribes d’information et de travailler sur la voie à suivre en fonction de votre entreprise.

Crédits image

Image en vedette : Paulo Bobita
Captures d’écran prises par l’auteur