Des chercheurs irlandais cherchent à mieux faciliter la formation de modèles d’apprentissage automatique avec des données d’observation de la Terre.
Le Centre irlandais pour l’informatique haut de gamme (ICHEC) basé à NUI Galway et le centre irlandais d’IA appliquée CeADAR ont collaboré à un projet visant à remédier au manque de normalisation des ensembles de données d’observation de la Terre.
Le projet a été financé par l’Agence spatiale européenne (ESA). Les satellites Sentinel-1, Satellite-2 et Satellite-3 de l’ESA produisent collectivement environ 20 téraoctets de données par jour, et sont donc des candidats de choix lorsqu’il s’agit d’utiliser l’IA pour aider à l’analyse des données.
Les données Sentinel incluent l’imagerie radar à ouverture synthétique en bande C, qui permet aux satellites d’acquérir des images quelle que soit la météo. Il couvre également l’imagerie optique à haute résolution de l’agriculture, des forêts, du changement d’affectation des terres, ainsi que de la topographie de la surface de la mer, de la température de la surface de la mer et des terres et de la couleur des océans et des terres.
« La valeur des données satellitaires pour les projets qui éclairent les politiques environnementales, les connaissances climatiques et les stratégies d’atténuation est unique », Dr Jenny Hanafin, responsable du programme d’observation de la Terre à l’ICHEC.
« Cependant, jusqu’à présent, des goulots d’étranglement ont freiné l’utilisation de ces données dans [AI] applications. »
Le projet de l’ICHEC et du CeADAR vise à améliorer la capacité de partager des données de formation pour la recherche scientifique et pour la communauté commerciale et technique de l’IA, ainsi qu’à réduire le coût du partage de ces données.
Il le fait en introduisant de nouvelles spécifications et des directives de bonnes pratiques pour la création d’ensembles de données. En fournissant des spécifications communes afin que les ensembles de données d’entraînement suivent les principes FAIR, les données produites pour une application seront mises à disposition d’autres utilisateurs et utilisations.
Ces principes mettent l’accent sur la capacité des systèmes informatiques à trouver, accéder, interagir et réutiliser les données avec aucune ou une intervention humaine minimale, car les humains s’appuient sur une intervention informatique pour évaluer une quantité toujours croissante de données.
« Ce projet visait à produire des ressources pour soutenir la formation et le développement de modèles d’apprentissage automatique sur EO [Earth observation] données », a déclaré Alastair McKinstry, responsable du programme environnemental à l’ICHEC.
« L’objectif est de progresser vers la mise en œuvre des principes de données FAIR pour les données de formation en OT, en veillant à ce que les ensembles de données soient correctement documentés et disponibles pour les autres utilisateurs.
« Chaque ensemble de données est une ressource précieuse… et faciliter la compréhension et le partage de ces ressources de données est l’objectif principal. Un objectif supplémentaire est de rendre les ensembles de données de formation EO explicites afin d’exposer des problèmes difficiles à un public plus large qui n’a pas de connaissances géospatiales expertes.