Résumé de 30 secondes:
- L’avènement du COVID-19 a compromis l’utilité des ensembles de données qui ont été compilés avant la pandémie – ce qui entraîne des taux d’erreur importants sur les plates-formes d’IA qu’ils renforcent.
- Un domaine touché par ce phénomène est la vocalisation. Bien que les ensembles de données aient été développés pour s’adapter à des variables réelles telles que les accents et le bruit de fond, ils ne sont pas suffisamment diversifiés pour distinguer les commandes vocales émises derrière un masque facial.
- À titre d’exemple, les modèles vocaux ont subi en moyenne une perte de qualité de 50% de la part des utilisateurs portant des masques faciaux. Même le moteur le plus performant a subi une perte de qualité de 25%. L’impact a été ressenti le plus fort parmi les personnes aux voix aiguës, car les masques étouffaient l’intelligibilité des sons aigus.
- Un hack rapide pour atténuer les mots-clés et mots problématiques dans une application à commande vocale consiste à utiliser les données collectées par l’application elle-même pour identifier les mots qui ne sont pas correctement transcrits; et de laisser l’application faire des hypothèses qui corrigent la transcription afin de fournir la signification voulue à l’utilisateur.
- La solution à long terme consiste à augmenter le jeu de données et à collecter des échantillons de voix qui imitent en fait un scénario réel; qui, à ce stade, devra inclure des voix étouffées dans une grande variété d’environnements
- Les ensembles de données de reconnaissance faciale rencontrent le même défi de la part des porteurs de masques faciaux.
Les façons dont nous interagissons avec la technologie évoluent continuellement. Nous nous souvenons tous comment la saisie de commandes DOS sur un clavier a cédé la place à la simplicité WYSIWYG de Windows à navigation souris, et aujourd’hui, il y a une utilisation croissante des écrans tactiles. La prochaine grande étape de l’évolution des interfaces utilisateur – et elle est grande – comprend les commandes vocales, les technologies de reconnaissance faciale et l’intelligence artificielle (IA).
Les machines compatibles avec l’IA utiliseront ces interfaces pour anticiper, prédire et exécuter une multitude de tâches – accélérant les processus et minimisant en fait le temps que les utilisateurs consacrent au processus d’interfaçage.
Bien que cela indique un avenir très prometteur, les freins ont récemment été appliqués à de nombreux projets basés sur l’IA. Comment venir? Parce que les données collectées ne sont plus nécessairement propres, exactes ou fiables.
Il a été accumulé dans un monde pré-COVID-19 et était basé sur des hypothèses tirées d’un marché pré-pandémique.
Donc, comme un architecte découvrant que toutes les mesures sur le plan de son projet sont incorrectes, il revient à la planche à dessin pour un certain nombre d’initiatives d’IA.
Regardons de plus près le défi.
L’accessibilité est avant tout
L’objectif est de faciliter l’accès à l’information et aux services pour tous.
À cette fin, la technologie de reconnaissance faciale a connu une croissance exponentielle, étant maintenant largement déployée pour les enregistrements à l’aéroport, en tant que fonction de sécurité pour déverrouiller nos téléphones et tablettes et pour accorder l’accès aux zones restreintes.
Les expériences vocales sont également de plus en plus courantes. Nous voyons des kiosques intelligents activés par la voix dans nos restaurants de restauration rapide, par exemple, où vos frites sont commandées en utilisant uniquement votre voix et ce sont des chatbots à commande vocale, et non des travailleurs occupés à traiter des commandes, qui offrent désormais un support client et tous ces incitants supersize.
Ce sont tous d’excellents moyens d’accéder à l’information et, tout comme nous avons commencé à les assimiler à notre vie normale, il s’avère que ces technologies devront peut-être être modifiées de manière spectaculaire, car elles ont été développées et formées pour un monde prépandémique.
Comment la pandémie affecte l’IA?
Les technologies vocales ont été développées en partant du principe qu’une annonce raisonnablement claire serait fournie par le client.
Les modèles d’IA qui interprètent les données vocales n’ont pas été formés pour gérer les commandes étouffées par un masque facial – car ils fonctionnent principalement en comparant les sons reçus avec des corpus vocaux avec des transcriptions liées à des échantillons vocaux clairs.
Cela signifie que dans un monde pandémique, une expérience client réussie basée sur la voix devient beaucoup plus difficile à offrir.
De même, comme un masque facial couvre la majeure partie du visage d’une personne, les modèles de vision par ordinateur ne reçoivent désormais que des informations de la moitié supérieure du visage du client … un scénario de données qu’ils ne devraient pas avoir à gérer
En fait, une étude de l’Institut national américain des normes et de la technologie (NIST) a révélé que les algorithmes de reconnaissance faciale développés avant l’émergence de la pandémie COVID-19 ont «de grandes difficultés» à identifier avec précision les personnes.
L’étude du NIST révèle: «Même le meilleur des 89 algorithmes commerciaux de reconnaissance faciale testés présentait des taux d’erreur compris entre 5% et 50% pour faire correspondre les masques appliqués numériquement avec des photos de la même personne sans masque.»
En conséquence, le client se retrouve avec une expérience utilisateur désagréable qui l’oblige à revenir aux interfaces «manuelles», ce qui entrave considérablement le processus d’identification.
Comment l’IA reste-t-elle pertinente dans un monde pandémique moderne?
Les modèles d’IA utilisent des données pour s’entraîner, formuler des hypothèses, puis fournir une réponse à l’utilisateur. Ces données constituent alors le jeu de données qui est l’ensemble du lot de données auquel l’opération en cours est comparée.
Jusqu’à récemment, les modèles d’IA avaient été formés avec des données appartenant à un monde non pandémique, où les visages étaient entièrement visibles et les vocalisations n’étaient pas obstruées par des masques.
La pandémie COVID-19 a pris nos plates-formes d’IA au dépourvu et l’IA aura besoin de temps pour s’adapter au nouvel environnement. Pour que les expériences vocales et la reconnaissance faciale restent pertinentes, les ensembles de données doivent s’adapter à la nouveauté d’aujourd’hui.
Comment la technologie vocale AI est-elle repensée?
Un hack rapide pour atténuer les mots-clés et mots problématiques dans une application à commande vocale consiste à utiliser les données collectées par l’application elle-même pour identifier les mots qui ne sont pas correctement transcrits; et de laisser l’application faire des hypothèses qui corrigent la transcription afin de fournir la signification voulue à l’utilisateur.
Par exemple, une application vocale dans un environnement de restauration rapide transcrivant « Puis-je avoir des chaussures orange? » devrait prendre en compte le fait que l’utilisateur voulait très probablement dire «jus d’orange» et réparer l’erreur du modèle au niveau de l’application, ou demander à l’utilisateur final une confirmation.
En fin de compte, les développeurs devront repenser l’application pour augmenter l’ensemble de données et collecter des échantillons de voix qui imitent en fait des scénarios réels; qui, à ce stade, devront inclure des voix étouffées dans une grande variété d’environnements.
Comment la reconnaissance faciale de l’IA est-elle repensée?
À l’heure actuelle, certaines solutions de contournement sont adoptées pour éviter de se fier uniquement à la reconnaissance faciale – par exemple, les iPhones Apple désactivent désormais l’option Face ID lorsqu’un masque facial est détecté.
« Si la [facial recognition] les entreprises ne regardent pas cela, ne le prennent pas au sérieux, je ne prévois pas qu’elles dureront plus longtemps », a déclaré Shaun Moore, PDG de Trueface, qui crée une technologie de reconnaissance faciale utilisée par l’US Air Force.
Les résultats sont déjà visibles, la technologie de vision par ordinateur est maintenant utilisée pour reconnaître les personnes portant des masques dans les lieux publics ou avant d’entrer dans un magasin et montre donc que la technologie peut également être utilisée pour leur propre sécurité.
Conclusions
Afin de surmonter le défi posé par la pandémie, les scientifiques des données collectent et analysent des données nouvelles et pertinentes pour adapter avec succès leurs modèles pour servir correctement leurs clients finaux.
Alors que dans le passé, la collecte de données vocales de discours étouffé était réglementée dans des cas rares et spécifiques, elle devient maintenant une priorité. Il en va de même pour les ensembles de données de reconnaissance faciale qui se développent pour reconnaître les images de personnes avec des masques faciaux, travaillant essentiellement avec la zone autour des yeux.
Cela prendra du temps, mais les entreprises progressent plus vite pour s’adapter à cette nouvelle réalité. Au fur et à mesure que la quantité de données collectées augmentera, les modèles d’IA deviendront plus intelligents et auront moins de difficulté à servir les clients finaux et à rendre la technologie facilement accessible à nouveau.
Sergio Bruccoleri est architecte technologique principal chez Pactera EDGE.