Sera-t-il un jour possible pour Google de créer un index de contenu audio que les utilisateurs peuvent parcourir comme des pages Web?
Les résultats des premiers tests, publiés par Google dans un article de blog, indiquent que la recherche audio est plus difficile à réaliser qu’il n’y paraît.
Les détails de ces tests sont partagés dans un article rédigé par Tim Olson, SVP des partenariats stratégiques numériques chez KQED.
Google s’associe à KQED dans un effort conjoint pour rendre l’audio plus trouvable.
Avec l’aide de KUNGFU.AI, un fournisseur de services d’IA, Google et KQED ont exécuté des tests pour déterminer comment transcrire l’audio de manière rapide et sans erreur.
Voici ce qu’ils ont découvert.
Les difficultés de la recherche audio
Le plus grand obstacle à la possibilité de faire de la recherche audio est le fait que l’audio doit être converti en texte avant de pouvoir être recherché et trié.
Publicité
Continuer la lecture ci-dessous
Il n’existe actuellement aucun moyen de transcrire avec précision l’audio d’une manière qui permette de le retrouver rapidement.
La seule façon dont la recherche audio à l’échelle mondiale serait possible est la transcription automatisée. Les transcriptions manuelles demanderaient beaucoup de temps et d’efforts aux éditeurs.
Olson de KQED note à quel point la barre de précision doit être élevée pour les transcriptions audio, en particulier lorsqu’il s’agit d’indexer des informations audio. Les progrès réalisés jusqu’à présent dans le domaine de la synthèse vocale ne répondent pas actuellement à ces normes.
Limitations de la technologie Speech-to-Text actuelle
Google a mené des tests avec KQED et KUNGFU.AI en appliquant les derniers outils de synthèse vocale à une collection d’actualités audio.
Des limites ont été découvertes dans la capacité de l’IA à identifier les noms propres (également appelés entités nommées).
Publicité
Continuer la lecture ci-dessous
Les entités nommées ont parfois besoin du contexte pour être comprises pour être identifiées avec précision, ce que l’IA n’a pas toujours.
Olson donne un exemple des actualités audio de KQED qui contiennent des paroles pleines d’entités nommées contextuelles à la région de la baie:
«L’audio des nouvelles locales de KQED est riche en références d’entités nommées liées à des sujets, des personnes, des lieux et des organisations qui sont contextuels à la région de la baie. Les orateurs utilisent des acronymes comme «CHP» pour California Highway Patrol et «the Peninsula» pour la zone s’étendant de San Francisco à San Jose. Celles-ci sont plus difficiles à identifier pour l’intelligence artificielle. »
Lorsque les entités nommées ne sont pas comprises, l’IA fait sa meilleure estimation de ce qui a été dit. Cependant, c’est une solution inacceptable pour la recherche sur le Web, car une transcription incorrecte peut changer tout le sens de ce qui a été dit.
Et après?
Les travaux se poursuivront sur la recherche audio avec des plans pour rendre la technologie largement accessible lorsqu’elle sera développée.
David Stoller, partenaire responsable des actualités et de la publication chez Google, a déclaré que la technologie sera partagée ouvertement lorsque le travail sur ce projet sera terminé.
« L’un des piliers de la nouvelle initiative Google est l’incubation de nouvelles approches face à des problèmes difficiles. Une fois terminée, cette technologie et les meilleures pratiques associées seront partagées ouvertement, ce qui augmentera considérablement l’impact escompté. »
Les modèles d’apprentissage automatique d’aujourd’hui n’apprennent pas de leurs erreurs, dit Olson de KQED, c’est là que les humains peuvent avoir besoin d’intervenir.
L’étape suivante consiste à tester une boucle de rétroaction dans laquelle les salles de rédaction aident à améliorer les modèles d’apprentissage automatique en identifiant les erreurs de transcription courantes.
Publicité
Continuer la lecture ci-dessous
«Nous sommes convaincus que dans un proche avenir, les améliorations apportées à ces modèles de synthèse vocale aideront à convertir plus rapidement l’audio en texte, aidant ainsi les gens à trouver plus efficacement les actualités audio.»
Source: Google