Lorsqu’une personne qui effectue une recherche entre une requête dans un moteur de recherche, comme «les 10 meilleurs films de 2020», le moteur de recherche peut renvoyer des résultats affichant des liens vers plusieurs pages Web pertinentes pour la requête de recherche.
Il peut également afficher des résultats qui pointent vers plusieurs pages Web qui incluent des listes des meilleurs films de 2020.
Un brevet accordé à Google concerne des listes d’entités classées dans les résultats de recherche qui sont basées sur les documents renvoyés en réponse à des requêtes sur des catégories spécifiques d’entités.
Ce peut être les meilleurs films de 2020 ou les meilleurs romans de 2020.
Ce pourrait être les meilleurs livres de science-fiction de 2020 ou les meilleures séries télévisées dramatiques de 2020.
J’ai recherché différents types d’entités, ce qui a abouti à des carrousels présentant des entités classées pour mes requêtes:
Le processus derrière l’affichage des listes classées d’entités
La méthode du brevet comprend:
PUBLICITÉ
CONTINUER À LIRE CI-DESSOUS
- Envoi d’une requête.
- Recevoir des informations concernant les documents pertinents pour la requête.
- Identifier les entités associées aux documents.
- Déterminer une catégorie pour la requête en fonction de la requête ou d’un sujet des documents renvoyés et des entités dans ces documents.
- Déterminer qu’une liste d’entités doit être présentée en réponse à la requête.
- Présentation des SERP en fonction de la détermination que la liste d’entités doit être présentée en réponse à la requête.
Détermination des catégories d’entités dans les listes classées
Les SERP peuvent inclure une liste avec des informations identifiant les entités.
La détermination de la catégorie peut inclure la génération d’un score basé sur:
- Si la requête comprend des termes associés à la catégorie, la détermination de la catégorie peut être basée sur le score généré.
- Au moins certains des documents sont associés à un sujet associé à la catégorie, où la détermination de la catégorie peut être basée sur le score généré.
- Au moins certaines des entités, associées à la catégorie, où la détermination de la catégorie peut être basée sur le score généré.
- Si la requête comprend des termes sur liste noire, la détermination de la présentation de la liste d’entités en réponse à la requête peut être basée sur le score généré.
Classement des entités dans ces listes
Le processus derrière le classement des entités peut comprendre:
- Où le document de résultat de recherche peut inclure des informations sur les entités dans un ordre basé sur le classement
- Génération d’un score pour chacune des entités, où les scores sont basés sur la pertinence de l’entité particulière pour un document particulier.
Le processus derrière ce brevet implique:
- Réception d’une requête.
- Recevoir des informations concernant les documents pertinents pour la requête.
- Identifier les entités associées aux documents.
- Déterminer une catégorie pour la requête basée sur la requête, une rubrique des documents et les entités.
- Déterminer, en fonction de la requête et de la catégorie, qu’une liste d’entités doit être présentée en réponse à la requête.
- Présentation d’un résultat de recherche basé sur la détermination que la liste d’entités doit être présentée en réponse à la requête.
Le document de résultat de recherche peut inclure une liste avec des informations identifiant les entités.
Le document de résultat de la recherche peut en outre inclure des liens vers les documents pertinents pour la requête.
PUBLICITÉ
CONTINUER À LIRE CI-DESSOUS
Ce brevet peut être trouvé à:
Génération de listes classées d’entités
Inventeurs: Toshiaki Fujiki, Slaven Bilac, Kavi J. Goel, Shuhei Takahashi, Tomohiko Kimura
Cessionnaire: Google LLC
Brevet américain: 10,691,702
Accordé: 23 juin 2020
Déposé: 31 août 2017
Abstrait
«Un appareil peut être configuré pour recevoir une requête; recevoir des informations concernant les documents pertinents pour la requête; identifier les entités associées aux documents; déterminer une catégorie pour la requête basée sur la requête, un sujet des documents et les entités; déterminer, sur la base de la requête et de la catégorie, qu’une liste d’entités doit être présentée en réponse à la requête; et présenter un document de résultat de recherche basé sur la détermination que la liste d’entités doit être présentée en réponse à la requête. Le document de résultat de la recherche peut inclure une liste contenant des informations identifiant les entités. »
Extraction et catégorisation des entités
Le brevet fournit des exemples d’extraction et de catégorisation d’entités à partir de pages Web et d’autres documents:
- Un document peut inclure du texte, des images, etc., concernant des entités.
- Une entité peut être extraite et / ou identifiée à partir d’un document en comparant le texte, les images, etc., à un référentiel qui comprend des informations concernant les entités.
- Par exemple, une entité peut être associée au film « Toy Story 3 ».
- Une autre entité peut être associée à la chanson « Party Rock Anthem ».
- Une autre entité peut être associée au livre « Guide de l’auto-stoppeur de la galaxie ».
- Les entités peuvent ensuite être classées. Par exemple, les catégories d’entités peuvent inclure des «films», des «chansons» ou des «livres».
Le référentiel mentionné dans ce brevet est probablement le Knowledge Graph de Google.
J’ai recherché «Meilleur film de la planète des singes» et si vous survolez l’un d’eux, vous voyez plus d’informations sur chacun des films:
Le brevet nous dit qu’ils peuvent montrer des informations supplémentaires sur les attributs des entités classées qu’ils retournent:
«Par exemple, l’interface utilisateur 145 peut inclure des images et des liens associés aux entités. De plus, ou en variante, l’interface utilisateur 145 peut également inclure d’autres informations associées à des entités, telles que des informations d’attribut – par exemple, la date de sortie, le crédit musical, le crédit producteur, la société de production, ou similaires. Comme le montre la FIG. 1C, l’interface utilisateur 145 peut inclure, par exemple, le lien 110 et l’image 115 associés à Toy Story 3, ainsi que des liens et des images respectivement associés à Inception et The Social Network. «
PUBLICITÉ
CONTINUER À LIRE CI-DESSOUS
C’est ainsi que si vous êtes potentiellement intéressé à en savoir plus sur l’une des entités figurant dans une liste classée, vous pouvez en savoir suffisamment pour la regarder, la lire ou l’écouter.
Extraction d’entités pour les classements
Les documents qui peuvent être renvoyés en réponse à une requête peuvent inclure des documents tels que «pages Web, articles de presse, résultats d’images, documents de blog ou similaires».
L’aspect d’identification des résultats de ce processus où les entités sont identifiées pourrait fournir des informations sur les attributs de ces entités.
Les entités peuvent être classées en fonction de facteurs pour déterminer les scores de ces entités.
L’une peut être si l’entité est extraite d’un document qui a un sujet moins pertinent:
« Par exemple, supposons qu’une première entité associée au film Toy Story 3 soit extraite d’un document avec un sujet relatif au » football « , tandis qu’une deuxième entité associée au film Inception est extraite d’un document avec un sujet relatif à » films. » Le moteur de classement des entités 230 peut déterminer que la première entité a une pertinence plus faible pour le résultat dont la première entité a été extraite que la pertinence de la deuxième entité pour le résultat dont la deuxième entité a été extraite. »
PUBLICITÉ
CONTINUER À LIRE CI-DESSOUS
Les termes d’un document dont une entité est extraite peuvent être revus.
Un score IR (récupération d’informations) pour le document à partir duquel l’entité classée a été extraite peut être utilisé pour déterminer un score d’entité utilisé pour classer cette entité, en fonction de la pertinence de la page pour la requête.
Ainsi, une entité devant être classée pour les «meilleurs romans de science-fiction de 2020» à partir d’une page ayant un score IR élevé pour la requête, «meilleurs romans de science-fiction de 2020», aurait potentiellement un score d’entité plus élevé qu’une entité d’une page qui a un score IR élevé pour «certains romans OK Science Fiction de 2020».
Si une requête pour les entités classées peut inclure un attribut spécifique, tel que l’emplacement publié, et que la requête est quelque chose comme «Les meilleurs romans de science-fiction américains de 2020», alors les entités classées peuvent être celles qui identifient l’emplacement de publication de cette entité.
La gamme d’attributs utilisés pourrait être assez large, comme décrit dans le brevet:
PUBLICITÉ
CONTINUER À LIRE CI-DESSOUS
« Supposons, par exemple, que l’entité particulière soit associée à une catégorie » films « . Dans cet exemple, les attributs peuvent inclure des informations, telles que la date de sortie, le (s) acteur (s) et / ou actrice (s) principale (s), le (s) acteur (s) et / ou actrice (s) de soutien, le box-office brut, le crédit producteur exécutif, crédit musical, synopsis et / ou résumé associés au film, etc. Dans d’autres exemples, des entités associées à différentes catégories peuvent être associées à un ensemble d’attributs différent. Supposons en outre que l’entité particulière est associée à Toy Story 3, un film sorti en 2010 et que la requête inclut le terme «2010.» Ainsi, le moteur de classement d’entité 230 peut identifier que la requête est associée à un attribut de date de sortie associé à la entité particulière. «
Un autre facteur peut être si la requête contient des termes sur liste noire.
Il peut s’agir de conditions pour adultes ou de conditions offensantes.
Un autre facteur pourrait être si la requête est associée à des listes d’entités. Les listes d’entités contiennent des expressions telles que:
- « Haut »
- « De 2020 »
- « Meilleur »
- « Meilleur de »
PUBLICITÉ
CONTINUER À LIRE CI-DESSOUS
Si la requête contient un tel terme, les entités des pages qui peuvent également être pertinentes pour celles-ci peuvent obtenir un score plus élevé dans une liste d’entités classées.
Lorsqu’une requête comprend un déclencheur qui appelle une liste d’entités, elle peut afficher un carrousel ou une liste d’entités.
S’il ne contient pas un tel déclencheur, il peut ne pas afficher une liste d’entités.
Résultats des entités classées
Ce brevet décrit un processus auquel vous pouvez facilement vous rattraper une fois que vous en avez pris connaissance.
Je me suis retrouvé à passer par des requêtes telles que « Best Comedies 1975 » et pendant des années après celle-là.
Et «Best TV Shows 1980» et pendant des années après.
Si vous effectuez ces recherches, vous verrez que les documents dont ces entités proviennent dans le reste des SERP sont pour eux des résultats «Top» ou «Best», et les requêtes pour eux ont déclenché des listes de requêtes montrant ces carrousels.
PUBLICITÉ
CONTINUER À LIRE CI-DESSOUS
Vous pouvez également trouver d’autres listes d’entités classées, comme les lauréats du prix Pulitzer:
Ou les meilleures plantes d’intérieur pour la qualité de l’air:
Explorer ces carrousels pour des entités classées était presque aussi amusant que de regarder les catégories basées sur l’ontologie sémantique dans la recherche d’images sur Google, que j’ai examinées dans les étiquettes de recherche d’images Google devenant plus sémantiques?
Plus de ressources:
Crédits d’image
Toutes les captures d’écran prises par l’auteur, juin 2020