Un récent document de recherche Google sur la réponse longue aux questions illustre à quel point il est difficile de répondre à des questions qui nécessitent des réponses plus longues et nuancées. Si les chercheurs ont pu améliorer l’état de l’art de ce type de réponses aux questions, ils ont également admis que leurs résultats nécessitaient des améliorations significatives.
J’ai lu ce document de recherche le mois dernier lors de sa publication et j’ai voulu le partager car il se concentre sur la résolution d’une lacune dans la recherche qui n’est pas du tout discutée.
J’espère que vous le trouverez aussi fascinant que moi!
Quels moteurs de recherche fonctionnent correctement
Cette recherche se concentre sur Réponse aux questions de domaine ouvert de longue durée, un domaine dans lequel le traitement du langage naturel continue de voir des améliorations.
Ce que les moteurs de recherche sont bons s’appelle, Factoid Open-domain Question Answering ou simplement Open-domain Question Answering.
Publicité
Continuer la lecture ci-dessous
La réponse aux questions dans le domaine ouvert est une tâche dans laquelle un algorithme répond par une réponse à une question en langage naturel.
De quelle couleur est le ciel? Le ciel est bleu.
Réponse aux questions longues (LFQA)
Le document de recherche indique que la réponse longue aux questions (LFQA) est importante mais constitue un défi et que les progrès pour parvenir à ce type de réponse aux questions ne sont pas aussi avancés que la réponse aux questions dans le domaine ouvert.
Selon le document de recherche:
«La réponse aux questions de forme longue dans le domaine ouvert (LFQA) est un défi fondamental dans le traitement du langage naturel (PNL) qui consiste à récupérer des documents pertinents pour une question donnée et à les utiliser pour générer une réponse élaborée en longueur de paragraphe.
Bien qu’il y ait eu des progrès récents remarquables dans le domaine de la réponse factoïde aux questions à domaine ouvert (AQ), où une courte phrase ou une entité suffit pour répondre à une question, beaucoup moins de travail a été fait dans le domaine de la réponse longue aux questions.
LFQA est néanmoins une tâche importante, notamment parce qu’elle fournit un banc d’essai pour mesurer la factualité des modèles de texte génératifs. Mais, est-ce que les critères de référence et les mesures d’évaluation actuels sont vraiment adaptés pour progresser sur la LFQA?
Publicité
Continuer la lecture ci-dessous
Réponse aux questions du moteur de recherche
La réponse aux questions par les moteurs de recherche consiste généralement en un chercheur posant une question et le moteur de recherche renvoyant un texte d’information relativement court.
Des questions comme « Quel est le numéro de téléphone du magasin XYZ?»Est un exemple de question typique à laquelle les moteurs de recherche sont capables de répondre, en particulier parce que la réponse est objective et non subjective.
Il est plus difficile de répondre aux questions de forme longue car les questions exigent des réponses sous forme de paragraphes et non de textes courts.
Facebook travaille également sur des réponses aux questions longues et a proposé des solutions intéressantes comme l’utilisation d’un sous-programme de questions et réponses appelé Explain Like I’m 5 (un ensemble de données appelé ELI5). Facebook admet également qu’il reste du travail à faire. (Présentation de la réponse aux questions longues)
Exemples de questions longues
Une fois que vous aurez lu ces exemples de questions longues, il sera plus clair comment nous avons été formés par les moteurs de recherche pour poser un ensemble limité de requêtes. Il peut même sembler choquant de voir à quel point nos questions sont presque infantiles par rapport aux questions longues.
Le document de recherche Google propose ces exemples de questions longues:
- Que se passe-t-il dans ces hautes tours appartenant aux grandes banques?
- Qu’est-ce que le feu, en détail? Comment la lumière et la chaleur peuvent-elles provenir de quelque chose que nous ne pouvons pas vraiment toucher?
- Pourquoi la Grande-Bretagne et d’autres pays de l’empire anglais s’inclinent-ils toujours devant les monarques? Quel est le véritable objectif de la reine?
Facebook propose ces exemples de questions longues:
- Pourquoi certains restaurants sont-ils meilleurs que d’autres s’ils servent essentiellement la même nourriture?
- Quelles sont les différences entre les plans d’eau comme les lacs, les rivières et les mers?
- Pourquoi nous sentons-nous plus décalés lorsque nous voyageons vers l’est?
Les chercheurs sont-ils formés pour poser de courtes questions sur les factoids?
Google (et Bing) ont du mal à répondre à ces types de questions de longue durée. Cela peut avoir un impact sur leur capacité à présenter un contenu qui fournit des réponses complexes à des questions complexes.
Peut-être que les gens ne posent pas ces questions parce qu’ils ont été formés à ne pas le faire à cause des mauvaises réponses. Mais si les moteurs de recherche étaient capables de répondre à ce genre de questions, les gens commenceraient à les poser.
Publicité
Continuer la lecture ci-dessous
C’est un vaste monde de questions et réponses qui manquent à notre expérience de recherche.
Si je raccourcis la phrase « Pourquoi certains restaurants sont-ils meilleurs que d’autres s’ils servent essentiellement la même nourriture? » à « Pourquoi certains restaurants sont-ils meilleurs que d’autres?«Google et Bing ne parviennent toujours pas à fournir une réponse adéquate.
Le meilleur résultat de recherche Google pour cette question provient du blog (HTTP non sécurisé) d’un Indien canadien.
Google cite cette section du restaurant indien dans le SERP:
«Les gens paient pour l’expérience globale et pas seulement pour la nourriture et c’est pourquoi certains restaurants facturent beaucoup plus que d’autres. Les clients du restaurant s’attendent à ce que les prix reflètent le type de nourriture, le niveau de service et l’atmosphère générale du restaurant. »
Et si la personne avait à l’esprit le poulet frit de Popeye par rapport au KFC lorsqu’elle posait cette question?
Il y a une certaine subjectivité qui peut s’insinuer dans la réponse à ce genre de questions qui exigent une réponse longue et cohérente.
Publicité
Continuer la lecture ci-dessous
Je ne peux m’empêcher de penser qu’il existe une meilleure réponse quelque part. Mais Google et Bing sont incapables de présenter ce type de contenu.
Google utilise des signaux pour identifier le contenu de haute qualité
Dans un explicatif du fonctionnement de la recherche que Google a publié en septembre 2020, Google admet qu’il n’utilise pas le contenu lui-même pour déterminer s’il est fiable ou digne de confiance.
Google explique qu’il utilise des signaux dans un article de blog intitulé « Comment Google fournit des informations fiables dans la recherche ».
«… Lorsqu’il s’agit d’informations de haute qualité et dignes de confiance… Nous ne pouvons souvent pas dire à partir des mots ou des images seuls si quelque chose est exagéré, incorrect, de mauvaise qualité ou inutile.
Au lieu de cela, les moteurs de recherche comprennent en grande partie la qualité du contenu grâce à ce que l’on appelle communément des «signaux». Vous pouvez les considérer comme des indices sur les caractéristiques d’une page qui correspondent à ce que les humains pourraient interpréter comme étant de haute qualité ou fiable.
Par exemple, le nombre de pages de qualité qui renvoient à une page particulière indique qu’une page peut être une source fiable d’informations sur un sujet. »
Publicité
Continuer la lecture ci-dessous
Malheureusement, cette partie de l’algorithme de Google est incapable de fournir une réponse correcte à ce type de questions longues.
Et c’est un fait intéressant et important à comprendre, car il permet d’être conscient des limites de la technologie de recherche aujourd’hui.
Qu’en est-il du classement de passage?
Le classement de passage consiste à classer de longues pages Web contenant les réponses courtes pour les requêtes courtes normales nécessitant une réponse objective.
Martin Splitt a utilisé l’exemple de la recherche d’une réponse pertinente sur les tomates dans une page Web consacrée principalement au jardinage en général.
Le classement de passage ne peut pas résoudre les questions difficiles auxquelles Google ne peut actuellement pas répondre.
Google et Bing ne parviennent généralement pas à répondre aux requêtes de type LFQA car c’est un domaine que les moteurs de recherche doivent encore améliorer.
Obstacles au progrès
Le document de recherche lui-même reconnaît cette lacune dans le titre:
« Obstacles au progrès dans la réponse aux questions longues«
Le document de recherche conclut en déclarant que son approche pour résoudre cette tâche «réalise des performances de pointe» mais qu’il reste encore des problèmes à résoudre et des recherches supplémentaires à faire.
Publicité
Continuer la lecture ci-dessous
Voici comment l’article conclut:
«Nous présentons un système de génération de« récupération augmentée »qui réalise des performances de pointe sur l’ensemble de données de réponse aux questions longues ELI5. Cependant, une analyse approfondie révèle plusieurs problèmes non seulement avec notre modèle, mais aussi avec l’ensemble de données ELI5 et les métriques d’évaluation. Nous espérons que la communauté s’efforcera de résoudre ces problèmes afin que nous puissions gravir les bonnes collines et faire des progrès significatifs.
Questions et spéculations
Il n’est pas possible de fournir une réponse définitive, mais il faut se demander s’il existe des pages Web qui manquent de trafic, car Google et Bing ne sont pas en mesure de présenter leur contenu long en réponse à des questions longues.
En outre, certains éditeurs écrasent par erreur leurs articles dans le but de faire autorité. Est-il possible que ces éditeurs se surchargent du trafic de recherche à partir de requêtes qui exigent des réponses plus courtes, car les moteurs de recherche ne peuvent pas fournir de réponses nuancées disponibles dans des documents plus longs?
Publicité
Continuer la lecture ci-dessous
Il n’y a aucun moyen de connaître ces réponses avec certitude.
Mais une chose que ce document de recherche montre clairement, c’est que la réponse longue aux questions est aujourd’hui une lacune des moteurs de recherche.
Citations
Article de blog Google AI
Progrès et défis de la réponse longue aux questions à domaine ouvert
Version PDF du document de recherche
Obstacles au progrès dans la réponse aux questions longues
Page Web Facebook À propos du LFQA
Présentation de la réponse aux questions longues